বুকিটাইজেশন কী?


10

আমি ভাগ্যবিহীন মেশিন লার্নিংয়ের "বুকিটাইজেশন" এর স্পষ্ট ব্যাখ্যা খুঁজতে ঘুরেছিলাম। আমি এতক্ষণ যা বুঝতে পেরেছি তা হল বুকিটাইজেশন ডিজিটাল সিগন্যাল প্রসেসিংয়ের পরিমাণ নির্ধারণের অনুরূপ যেখানে ক্রমাগত মানগুলির একটি ব্যাপ্তিকে একটি পৃথক মান দিয়ে প্রতিস্থাপন করা হয়। এটা কি সঠিক?

বুকিটাইজেশন প্রয়োগের কী কী উপকারিতা (তথ্য হারাবার স্পষ্ট প্রভাব ছাড়াও) রয়েছে? কীভাবে বুকিটাইজেশন প্রয়োগ করা যায় তার কোনও থাম্বের কোনও নিয়ম রয়েছে? মেশিন লার্নিং প্রয়োগের আগে বুকিটাইজেশন প্রয়োগের জন্য কি কোনও গাইডলাইন / অ্যালগরিদম রয়েছে?


আমার কাছে সঠিক উত্তর নাও থাকতে পারে তবে মোটা-শ্রেণিবদ্ধকরণ এবং সূক্ষ্ম শ্রেণিবদ্ধকরণ [ওও এবং চতুর্থ) বালতিকরণে সহায়তা করে। আপনি যদি প্রত্যাশা করেছিলেন এমনটি না হয় তবে আমাকে ক্ষমা করুন।
শ্রীকান্ত গুহান

উত্তর:


4

এটি একটি বিস্তৃত বিষয় এবং আপনি কীভাবে ডেটা হওয়া বা ইতিমধ্যে বুকিটাইজ করা উচিত তার বিভিন্ন কারণগুলির মুখোমুখি হবেন। এগুলির সমস্তই ভবিষ্যদ্বাণীমূলক নির্ভুলতার সাথে সম্পর্কিত নয়।

প্রথমত, এখানে একটি উদাহরণ যেখানে একজন মডেলার বুকিটাইজ করতে চাইতে পারেন। মনে করুন আমি একটি ক্রেডিট স্কোরিং মডেল তৈরি করছি: আমি people'sণে খেলাপি হওয়ার লোকজনের প্রবণতা জানতে চাই। আমার ডেটাতে, আমার কাছে ক্রেডিট রিপোর্টের স্থিতি নির্দেশ করে একটি কলাম রয়েছে। এটি হ'ল, আমি কোনও রেটিং এজেন্সি থেকে প্রতিবেদনটি আদেশ করেছি এবং এজেন্সিটি ফিরে এসেছে, বলে, তাদের স্বত্বাধিকারী স্কোর এবং একটি স্পষ্টতাল পরিবর্তনশীল যা এই স্কোরটির নির্ভরযোগ্যতা নির্দেশ করে। এই সূচকটি আমার উদ্দেশ্যে প্রয়োজনের চেয়ে অনেক বেশি জরিমানা জরিমানা হতে পারে। উদাহরণস্বরূপ, "নির্ভরযোগ্য স্কোরের জন্য পর্যাপ্ত তথ্য নেই" এমন অনেকগুলি ক্লাসে বিভক্ত হতে পারে যেমন "20 বছরের কম বয়সী", "সম্প্রতি দেশে চলে এসেছেন", "পূর্বের creditণের ইতিহাস নেই" ইত্যাদি। এই শ্রেণীর অনেকগুলি খুব কম জনবহুল হতে পারে এবং তাই এটি কোনও রিগ্রেশন বা অন্যান্য মডেলের পরিবর্তে অকেজো। এটি মোকাবেলা করার জন্য, আমি পরিসংখ্যানগত শক্তিকে একটি "প্রতিনিধি" শ্রেণিতে সংহত করার জন্য ক্লাসগুলির মতো একসাথে পুল করতে চাই। উদাহরণস্বরূপ, কেবলমাত্র বাইনারি সূচক "ভাল তথ্য ফিরিয়ে দেওয়া" "বনাম" "কোনও তথ্য ফেরত দেওয়া হয়নি" ব্যবহার করা আমার পক্ষে যুক্তিসঙ্গত হতে পারে। আমার অভিজ্ঞতায় বুকিটাইজেশনের অনেকগুলি অ্যাপ্লিকেশন এই সাধারণের মধ্যে পড়েবিরল জনবহুল বিভাগের ধরণের সংক্রমণের

কিছু অ্যালগরিদম অভ্যন্তরীণভাবে bucketiization ব্যবহার করে। উদাহরণস্বরূপ, গাছগুলি অ্যালগরিদমগুলি বৃদ্ধির ভিতরে প্রায়শই তাদের বেশিরভাগ সময় সংক্ষিপ্তকরণের ধাপে ব্যয় করে, যেখানে প্রতিটি নোডের অবিচ্ছিন্ন ডেটা পৃথক করে দেওয়া হয় এবং প্রতিটি বালতিতে প্রতিক্রিয়াটির গড় মান গণনা করা হয়। এটি বৃদ্ধির কারণে যথাযথতায় খুব ত্যাগ ছাড়াই উপযুক্ত বিভাজন অনুসন্ধানের গণ্য জটিলতা হ্রাস করে।

আপনি কেবল প্রাক-বুকিটাইটিসড ডেটা পেতে পারেন । বিচ্ছিন্ন তথ্য সংকোচন করা এবং সঞ্চয় করা সহজ - ভাসমান পয়েন্ট সংখ্যাগুলির একটি দীর্ঘ অ্যারে সংকোচনের কাছাকাছি, তবে যখন "উচ্চ", "মাঝারি" এবং "নিম্ন" হিসাবে বিবেচনা করা হয়, আপনি আপনার ডেটাবেজে অনেক জায়গা সঞ্চয় করতে পারবেন। আপনার ডেটা কোনও নন-মডেলিং অ্যাপ্লিকেশনকে লক্ষ্যযুক্ত উত্স থেকেও হতে পারে। যখন অ্যানালিটিকাল কাজ কম করে এমন সংস্থাগুলি থেকে ডেটা পাই তখন এটি অনেক ঘটে happen তাদের ডেটা প্রায়শই রিপোর্টিংয়ের জন্য ব্যবহৃত হয়, এবং সংখ্যালঘুদের প্রতিবেদনগুলির ব্যাখ্যার সাথে সহায়তা করার জন্য একটি উচ্চ স্তরে সংক্ষেপিত হয়। এই ডেটা এখনও কার্যকর হতে পারে, তবে প্রায়শই কিছু শক্তি হারিয়ে যায়।

আমি যেটির মধ্যে কম মূল্য দেখতে পাচ্ছি, তার সম্ভাব্য যদিও আমার সংশোধন করা সম্ভব, এটি হ'ল মডেলিংয়ের উদ্দেশ্যে ক্রমাগত পরিমাপের প্রাক-বুকিটাইজেশন। অবিচ্ছিন্ন ভবিষ্যদ্বাণীকের ক্ষেত্রে অ-রৈখিক প্রভাব ফিট করার জন্য প্রচুর শক্তিশালী পদ্ধতি রয়েছে এবং বুকাইজেশন এগুলি ব্যবহারের আপনার ক্ষমতা সরিয়ে দেয়। আমি এটি একটি খারাপ অনুশীলন হিসাবে দেখতে ঝোঁক।


4

"উচ্চ স্তরের ভার্সেস লো লো লেভেল ডেটা সায়েন্স" নিবন্ধ অনুসারে বালতিকরণ হচ্ছে

বাল্কিটাইজেশন পদক্ষেপ (কখনও কখনও মাল্টিভারিয়েট বিনিং বলা হয়) উচ্চ ভবিষ্যদ্বাণীক শক্তি সহ মেট্রিকগুলি (এবং ২-৩ মেট্রিকের সংমিশ্রণ) চিহ্নিত করে, যথাযথভাবে তাদেরকে মিশ্রিত করে এবং বিনকে যথাযথভাবে মিশ্রণ করে এবং বালতিগুলি যথেষ্ট বড় রাখার সাথে সাথে আন্তঃ বালতির বৈচিত্র্য হ্রাস করতে গঠিত।

সুতরাং আমার বোধগম্যতা হল আপনি লোভনীয়ভাবে সবচেয়ে ভবিষ্যদ্বাণীপূর্ণ বৈশিষ্ট্য অনুসারে ডেটা বিন করেন, তারপরে উপগোষ্ঠী বিশ্লেষণ করুন।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.