প্রকৃতপক্ষে, আমার একটি সমস্যা রয়েছে যা ডেটা বাড়ার সাথে সাথে ছোট হয়। আমার অ্যাপ্লিকেশনটি একটি নির্দিষ্ট পণ্যের গুণাবলী রেকর্ড করে, বলে পনির। বৈশিষ্ট্যগুলি হ'ল উদাহরণস্বরূপ চিজ টাইপ, ব্র্যান্ড, দেশ, অঞ্চল, মিল্কটাইপ ইত্যাদি Every প্রতিমাস বা তার পরে আমি সেই সময়ের মধ্যে বাজারে আসা নতুন চিজের একটি তালিকা পেয়েছি, সেই সাথে তাদের বৈশিষ্ট্যগুলিও। এখন এই বৈশিষ্ট্যগুলি একদল মানব হাতে টাইপ করেছেন। কিছু টাইপগুলি তৈরি করে বা সমস্ত বৈশিষ্ট্যের মান জানেন না।
আপনি যখন আমার ডাটাবেসে অনুসন্ধান করবেন, আমি এই বৈশিষ্ট্যের উপর ভিত্তি করে পনির কী পছন্দ করে তা পরিসংখ্যান থেকে ভবিষ্যদ্বাণী করার চেষ্টা করি। কি হয়, প্রতিটি বৈশিষ্ট্যের জন্য, আমি বিভিন্ন মানের সাথে শেষ করি; কিছু বৈধ কিছু অবৈধ। আমার কাছে পর্যাপ্ত ডেটা থাকলে কেবলমাত্র এই অবৈধগুলি মুছে ফেলা বা সংশোধন করা সম্ভব। এটি বিরল তবে বৈধ মানগুলি বাদ দিয়ে বাস্তব মান এবং গোলমালের মধ্যে পার্থক্য তৈরির বিষয়ে about
আপনি যেমন কল্পনা করতে পারেন, কম ভলিউম সহ, শব্দগুলি জিনিসগুলি সঠিকভাবে ঠিক করার জন্য খুব গুরুত্বপূর্ণ। আপনার কাছে চেদার পাঁচটি উদাহরণ রয়েছে, ব্রিটির 1 টি, ব্রি এর 1 টি, এবং চেদার 1 টি উদাহরণ, আমি কীভাবে বলতে পারি কোনটি সঠিক এবং কোনটি টাইপো? আরও ভলিউমের সাথে, টাইপগুলি খুব কম রাখার ঝোঁক রাখে, তবে বিরল মানগুলি কয়েকটি গুরুত্বপূর্ণ বিকাশ লাভ করে, যা তাদের শব্দ থেকে বাঁচায় (অভিজ্ঞতার দ্বারা সমর্থন করা)। এই ক্ষেত্রে, আমি উদাহরণস্বরূপ 50000 চেডার, 3000 ব্রি, 5 ব্রি, 15 চেদার কল্পনা করতে পারি।
হ্যাঁ, আপনার কাছে পর্যাপ্ত ডেটা থাকলে কিছু সমস্যা শেষ পর্যন্ত নিজেরাই সমাধান করে solve