আমি এমন একটি শ্রেণিবদ্ধ প্রশিক্ষণ দিতে চাই যা প্রায় 10,000 টি অবজেক্টের যুক্তিসঙ্গতভাবে বড় প্রশিক্ষণের সেটগুলির সাথে Type Aএবং Type Bবস্তুর মধ্যে পার্থক্য করবে , যার Type Aঅর্ধেক এবং অর্ধেক Type B। ডেটাসেটে 100 টি অবিচ্ছিন্ন বৈশিষ্ট্য রয়েছে যা কোষের শারীরিক বৈশিষ্ট্য (আকার, গড় ব্যাসার্ধ ইত্যাদি) বিশদ বিবরণ করে। জোড়াওয়ালা স্ক্যাটারপ্লট এবং ঘনত্ব প্লটের ডেটা ভিজ্যুয়ালাইজ করা আমাদেরকে বলে যে অনেকগুলি বৈশিষ্ট্যে ক্যান্সার এবং সাধারণ কোষগুলির বিতরণে উল্লেখযোগ্য ওভারল্যাপ রয়েছে।
আমি বর্তমানে এই ডেটাসেটের শ্রেণিবদ্ধকরণ পদ্ধতি হিসাবে এলোমেলো বনগুলি অন্বেষণ করছি এবং আমি কিছু ভাল ফলাফল দেখতে পাচ্ছি। আর ব্যবহার করে, এলোমেলো বনগুলি প্রায় 90% অবজেক্টকে সঠিকভাবে শ্রেণিবদ্ধ করতে সক্ষম।
আমরা চেষ্টা করতে এবং করতে চাই তার মধ্যে একটি হ'ল এক ধরণের "নিশ্চিত স্কোর" তৈরি করা যা আমাদের অবজেক্টগুলির শ্রেণিবিন্যাস সম্পর্কে কতটা আত্মবিশ্বাসী তা মাপবে। আমরা জানি যে আমাদের ক্লাসিফায়ার কখনো 100% নির্ভুল হবে, এবং এমনকি যদি ভবিষ্যৎবাণী মধ্যে উচ্চ নির্ভুলতা অর্জিত হয়, আমরা প্রশিক্ষিত প্রযুক্তিবিদ চান শনাক্ত করতে যা বস্তু সত্যিই হয় Type Aএবং Type B। সুতরাং Type Aবা এর আপোষহীন পূর্বাভাস প্রদানের পরিবর্তে Type Bআমরা প্রতিটি বস্তুর জন্য এমন একটি স্কোর উপস্থাপন করতে চাই যা কোনও বস্তু কীভাবে Aবা কীভাবে তা বর্ণনা করে B। উদাহরণস্বরূপ, যদি আমরা 0 থেকে 10 এর মধ্যে একটি স্কোর তৈরি করি তবে 0 এর স্কোর বলতে পারে যে কোনও বস্তুর সাথে খুব মিল রয়েছে Type A, যখন 10 এর স্কোর ইঙ্গিত করবে যে কোনও অবজেক্টটি খুব পছন্দ করে Type B।
আমি ভাবছিলাম যে এ জাতীয় স্কোর তৈরি করতে আমি এলোমেলো বনের মধ্যে ভোটগুলি ব্যবহার করতে পারি। যেহেতু এলোমেলো বনাঞ্চলে শ্রেণিবিন্যাস উত্পাদিত গাছের বনাঞ্চলে সংখ্যাগরিষ্ঠ ভোটদানের মাধ্যমে করা হয়, তাই আমি ধরে নেব যে 100% গাছের Type Aদ্বারা ভোট দেওয়া বস্তুগুলি যে জিনিসগুলি ভোট দিয়েছে, তার চেয়ে আলাদা হবে, বলুন, 51% গাছ হতে Type A।
বর্তমানে, আমি কোনও সামগ্রীর Type Aবা হিসাবে শ্রেণীবদ্ধ করার জন্য প্রাপ্ত ভোটের অনুপাতের জন্য একটি স্বেচ্ছাসেবী প্রান্তিক স্থাপনার চেষ্টা করেছি Type Bএবং প্রান্তিকরটি পাস না হলে এটি হিসাবে শ্রেণিবদ্ধ করা হবে Uncertain। উদাহরণস্বরূপ, যদি আমি এই শর্তটি চাপিয়ে দিই যে ৮০% বা তার বেশি গাছ অবশ্যই শ্রেণিবদ্ধকরণের সিদ্ধান্ত নেওয়ার বিষয়ে একমত হতে হবে তবে আমি দেখতে পাচ্ছি যে 99% শ্রেণির পূর্বাভাস সঠিক, তবে প্রায় 40% অবজেক্ট হিসাবে বিন্যাস করা হয়েছে Uncertain।
তাহলে কি ভবিষ্যদ্বাণীগুলির সুনির্দিষ্টতা স্কোর করার জন্য ভোটদানের তথ্যের সদ্ব্যবহার করা বুদ্ধিমান হবে? নাকি আমি আমার চিন্তাভাবনা নিয়ে ভুল পথে যাচ্ছি?