এটি একটি বিস্তৃত বিষয় এবং আপনি কীভাবে ডেটা হওয়া বা ইতিমধ্যে বুকিটাইজ করা উচিত তার বিভিন্ন কারণগুলির মুখোমুখি হবেন। এগুলির সমস্তই ভবিষ্যদ্বাণীমূলক নির্ভুলতার সাথে সম্পর্কিত নয়।
প্রথমত, এখানে একটি উদাহরণ যেখানে একজন মডেলার বুকিটাইজ করতে চাইতে পারেন। মনে করুন আমি একটি ক্রেডিট স্কোরিং মডেল তৈরি করছি: আমি people'sণে খেলাপি হওয়ার লোকজনের প্রবণতা জানতে চাই। আমার ডেটাতে, আমার কাছে ক্রেডিট রিপোর্টের স্থিতি নির্দেশ করে একটি কলাম রয়েছে। এটি হ'ল, আমি কোনও রেটিং এজেন্সি থেকে প্রতিবেদনটি আদেশ করেছি এবং এজেন্সিটি ফিরে এসেছে, বলে, তাদের স্বত্বাধিকারী স্কোর এবং একটি স্পষ্টতাল পরিবর্তনশীল যা এই স্কোরটির নির্ভরযোগ্যতা নির্দেশ করে। এই সূচকটি আমার উদ্দেশ্যে প্রয়োজনের চেয়ে অনেক বেশি জরিমানা জরিমানা হতে পারে। উদাহরণস্বরূপ, "নির্ভরযোগ্য স্কোরের জন্য পর্যাপ্ত তথ্য নেই" এমন অনেকগুলি ক্লাসে বিভক্ত হতে পারে যেমন "20 বছরের কম বয়সী", "সম্প্রতি দেশে চলে এসেছেন", "পূর্বের creditণের ইতিহাস নেই" ইত্যাদি। এই শ্রেণীর অনেকগুলি খুব কম জনবহুল হতে পারে এবং তাই এটি কোনও রিগ্রেশন বা অন্যান্য মডেলের পরিবর্তে অকেজো। এটি মোকাবেলা করার জন্য, আমি পরিসংখ্যানগত শক্তিকে একটি "প্রতিনিধি" শ্রেণিতে সংহত করার জন্য ক্লাসগুলির মতো একসাথে পুল করতে চাই। উদাহরণস্বরূপ, কেবলমাত্র বাইনারি সূচক "ভাল তথ্য ফিরিয়ে দেওয়া" "বনাম" "কোনও তথ্য ফেরত দেওয়া হয়নি" ব্যবহার করা আমার পক্ষে যুক্তিসঙ্গত হতে পারে। আমার অভিজ্ঞতায় বুকিটাইজেশনের অনেকগুলি অ্যাপ্লিকেশন এই সাধারণের মধ্যে পড়েবিরল জনবহুল বিভাগের ধরণের সংক্রমণের ।
কিছু অ্যালগরিদম অভ্যন্তরীণভাবে bucketiization ব্যবহার করে। উদাহরণস্বরূপ, গাছগুলি অ্যালগরিদমগুলি বৃদ্ধির ভিতরে প্রায়শই তাদের বেশিরভাগ সময় সংক্ষিপ্তকরণের ধাপে ব্যয় করে, যেখানে প্রতিটি নোডের অবিচ্ছিন্ন ডেটা পৃথক করে দেওয়া হয় এবং প্রতিটি বালতিতে প্রতিক্রিয়াটির গড় মান গণনা করা হয়। এটি বৃদ্ধির কারণে যথাযথতায় খুব ত্যাগ ছাড়াই উপযুক্ত বিভাজন অনুসন্ধানের গণ্য জটিলতা হ্রাস করে।
আপনি কেবল প্রাক-বুকিটাইটিসড ডেটা পেতে পারেন । বিচ্ছিন্ন তথ্য সংকোচন করা এবং সঞ্চয় করা সহজ - ভাসমান পয়েন্ট সংখ্যাগুলির একটি দীর্ঘ অ্যারে সংকোচনের কাছাকাছি, তবে যখন "উচ্চ", "মাঝারি" এবং "নিম্ন" হিসাবে বিবেচনা করা হয়, আপনি আপনার ডেটাবেজে অনেক জায়গা সঞ্চয় করতে পারবেন। আপনার ডেটা কোনও নন-মডেলিং অ্যাপ্লিকেশনকে লক্ষ্যযুক্ত উত্স থেকেও হতে পারে। যখন অ্যানালিটিকাল কাজ কম করে এমন সংস্থাগুলি থেকে ডেটা পাই তখন এটি অনেক ঘটে happen তাদের ডেটা প্রায়শই রিপোর্টিংয়ের জন্য ব্যবহৃত হয়, এবং সংখ্যালঘুদের প্রতিবেদনগুলির ব্যাখ্যার সাথে সহায়তা করার জন্য একটি উচ্চ স্তরে সংক্ষেপিত হয়। এই ডেটা এখনও কার্যকর হতে পারে, তবে প্রায়শই কিছু শক্তি হারিয়ে যায়।
আমি যেটির মধ্যে কম মূল্য দেখতে পাচ্ছি, তার সম্ভাব্য যদিও আমার সংশোধন করা সম্ভব, এটি হ'ল মডেলিংয়ের উদ্দেশ্যে ক্রমাগত পরিমাপের প্রাক-বুকিটাইজেশন। অবিচ্ছিন্ন ভবিষ্যদ্বাণীকের ক্ষেত্রে অ-রৈখিক প্রভাব ফিট করার জন্য প্রচুর শক্তিশালী পদ্ধতি রয়েছে এবং বুকাইজেশন এগুলি ব্যবহারের আপনার ক্ষমতা সরিয়ে দেয়। আমি এটি একটি খারাপ অনুশীলন হিসাবে দেখতে ঝোঁক।