বুকিটাইজেশন কী?

10

আমি ভাগ্যবিহীন মেশিন লার্নিংয়ের "বুকিটাইজেশন" এর স্পষ্ট ব্যাখ্যা খুঁজতে ঘুরেছিলাম। আমি এতক্ষণ যা বুঝতে পেরেছি তা হল বুকিটাইজেশন ডিজিটাল সিগন্যাল প্রসেসিংয়ের পরিমাণ নির্ধারণের অনুরূপ যেখানে ক্রমাগত মানগুলির একটি ব্যাপ্তিকে একটি পৃথক মান দিয়ে প্রতিস্থাপন করা হয়। এটা কি সঠিক?

বুকিটাইজেশন প্রয়োগের কী কী উপকারিতা (তথ্য হারাবার স্পষ্ট প্রভাব ছাড়াও) রয়েছে? কীভাবে বুকিটাইজেশন প্রয়োগ করা যায় তার কোনও থাম্বের কোনও নিয়ম রয়েছে? মেশিন লার্নিং প্রয়োগের আগে বুকিটাইজেশন প্রয়োগের জন্য কি কোনও গাইডলাইন / অ্যালগরিদম রয়েছে?

machine-learning dataset data-preprocessing

— MedAli
সূত্র

আমার কাছে সঠিক উত্তর নাও থাকতে পারে তবে মোটা-শ্রেণিবদ্ধকরণ এবং সূক্ষ্ম শ্রেণিবদ্ধকরণ [ওও এবং চতুর্থ) বালতিকরণে সহায়তা করে। আপনি যদি প্রত্যাশা করেছিলেন এমনটি না হয় তবে আমাকে ক্ষমা করুন।

— শ্রীকান্ত গুহান

4

এটি একটি বিস্তৃত বিষয় এবং আপনি কীভাবে ডেটা হওয়া বা ইতিমধ্যে বুকিটাইজ করা উচিত তার বিভিন্ন কারণগুলির মুখোমুখি হবেন। এগুলির সমস্তই ভবিষ্যদ্বাণীমূলক নির্ভুলতার সাথে সম্পর্কিত নয়।

প্রথমত, এখানে একটি উদাহরণ যেখানে একজন মডেলার বুকিটাইজ করতে চাইতে পারেন। মনে করুন আমি একটি ক্রেডিট স্কোরিং মডেল তৈরি করছি: আমি people'sণে খেলাপি হওয়ার লোকজনের প্রবণতা জানতে চাই। আমার ডেটাতে, আমার কাছে ক্রেডিট রিপোর্টের স্থিতি নির্দেশ করে একটি কলাম রয়েছে। এটি হ'ল, আমি কোনও রেটিং এজেন্সি থেকে প্রতিবেদনটি আদেশ করেছি এবং এজেন্সিটি ফিরে এসেছে, বলে, তাদের স্বত্বাধিকারী স্কোর এবং একটি স্পষ্টতাল পরিবর্তনশীল যা এই স্কোরটির নির্ভরযোগ্যতা নির্দেশ করে। এই সূচকটি আমার উদ্দেশ্যে প্রয়োজনের চেয়ে অনেক বেশি জরিমানা জরিমানা হতে পারে। উদাহরণস্বরূপ, "নির্ভরযোগ্য স্কোরের জন্য পর্যাপ্ত তথ্য নেই" এমন অনেকগুলি ক্লাসে বিভক্ত হতে পারে যেমন "20 বছরের কম বয়সী", "সম্প্রতি দেশে চলে এসেছেন", "পূর্বের creditণের ইতিহাস নেই" ইত্যাদি। এই শ্রেণীর অনেকগুলি খুব কম জনবহুল হতে পারে এবং তাই এটি কোনও রিগ্রেশন বা অন্যান্য মডেলের পরিবর্তে অকেজো। এটি মোকাবেলা করার জন্য, আমি পরিসংখ্যানগত শক্তিকে একটি "প্রতিনিধি" শ্রেণিতে সংহত করার জন্য ক্লাসগুলির মতো একসাথে পুল করতে চাই। উদাহরণস্বরূপ, কেবলমাত্র বাইনারি সূচক "ভাল তথ্য ফিরিয়ে দেওয়া" "বনাম" "কোনও তথ্য ফেরত দেওয়া হয়নি" ব্যবহার করা আমার পক্ষে যুক্তিসঙ্গত হতে পারে। আমার অভিজ্ঞতায় বুকিটাইজেশনের অনেকগুলি অ্যাপ্লিকেশন এই সাধারণের মধ্যে পড়েবিরল জনবহুল বিভাগের ধরণের সংক্রমণের ।

কিছু অ্যালগরিদম অভ্যন্তরীণভাবে bucketiization ব্যবহার করে। উদাহরণস্বরূপ, গাছগুলি অ্যালগরিদমগুলি বৃদ্ধির ভিতরে প্রায়শই তাদের বেশিরভাগ সময় সংক্ষিপ্তকরণের ধাপে ব্যয় করে, যেখানে প্রতিটি নোডের অবিচ্ছিন্ন ডেটা পৃথক করে দেওয়া হয় এবং প্রতিটি বালতিতে প্রতিক্রিয়াটির গড় মান গণনা করা হয়। এটি বৃদ্ধির কারণে যথাযথতায় খুব ত্যাগ ছাড়াই উপযুক্ত বিভাজন অনুসন্ধানের গণ্য জটিলতা হ্রাস করে।

আপনি কেবল প্রাক-বুকিটাইটিসড ডেটা পেতে পারেন । বিচ্ছিন্ন তথ্য সংকোচন করা এবং সঞ্চয় করা সহজ - ভাসমান পয়েন্ট সংখ্যাগুলির একটি দীর্ঘ অ্যারে সংকোচনের কাছাকাছি, তবে যখন "উচ্চ", "মাঝারি" এবং "নিম্ন" হিসাবে বিবেচনা করা হয়, আপনি আপনার ডেটাবেজে অনেক জায়গা সঞ্চয় করতে পারবেন। আপনার ডেটা কোনও নন-মডেলিং অ্যাপ্লিকেশনকে লক্ষ্যযুক্ত উত্স থেকেও হতে পারে। যখন অ্যানালিটিকাল কাজ কম করে এমন সংস্থাগুলি থেকে ডেটা পাই তখন এটি অনেক ঘটে happen তাদের ডেটা প্রায়শই রিপোর্টিংয়ের জন্য ব্যবহৃত হয়, এবং সংখ্যালঘুদের প্রতিবেদনগুলির ব্যাখ্যার সাথে সহায়তা করার জন্য একটি উচ্চ স্তরে সংক্ষেপিত হয়। এই ডেটা এখনও কার্যকর হতে পারে, তবে প্রায়শই কিছু শক্তি হারিয়ে যায়।

আমি যেটির মধ্যে কম মূল্য দেখতে পাচ্ছি, তার সম্ভাব্য যদিও আমার সংশোধন করা সম্ভব, এটি হ'ল মডেলিংয়ের উদ্দেশ্যে ক্রমাগত পরিমাপের প্রাক-বুকিটাইজেশন। অবিচ্ছিন্ন ভবিষ্যদ্বাণীকের ক্ষেত্রে অ-রৈখিক প্রভাব ফিট করার জন্য প্রচুর শক্তিশালী পদ্ধতি রয়েছে এবং বুকাইজেশন এগুলি ব্যবহারের আপনার ক্ষমতা সরিয়ে দেয়। আমি এটি একটি খারাপ অনুশীলন হিসাবে দেখতে ঝোঁক।

— ম্যাথু ড্রুরি
সূত্র

4

"উচ্চ স্তরের ভার্সেস লো লো লেভেল ডেটা সায়েন্স" নিবন্ধ অনুসারে বালতিকরণ হচ্ছে

বাল্কিটাইজেশন পদক্ষেপ (কখনও কখনও মাল্টিভারিয়েট বিনিং বলা হয়) উচ্চ ভবিষ্যদ্বাণীক শক্তি সহ মেট্রিকগুলি (এবং ২-৩ মেট্রিকের সংমিশ্রণ) চিহ্নিত করে, যথাযথভাবে তাদেরকে মিশ্রিত করে এবং বিনকে যথাযথভাবে মিশ্রণ করে এবং বালতিগুলি যথেষ্ট বড় রাখার সাথে সাথে আন্তঃ বালতির বৈচিত্র্য হ্রাস করতে গঠিত।

সুতরাং আমার বোধগম্যতা হল আপনি লোভনীয়ভাবে সবচেয়ে ভবিষ্যদ্বাণীপূর্ণ বৈশিষ্ট্য অনুসারে ডেটা বিন করেন, তারপরে উপগোষ্ঠী বিশ্লেষণ করুন।

— আর্থার বি।
সূত্র