আমি এমন একটি শ্রেণিবদ্ধ প্রশিক্ষণ দিতে চাই যা প্রায় 10,000 টি অবজেক্টের যুক্তিসঙ্গতভাবে বড় প্রশিক্ষণের সেটগুলির সাথে Type A
এবং Type B
বস্তুর মধ্যে পার্থক্য করবে , যার Type A
অর্ধেক এবং অর্ধেক Type B
। ডেটাসেটে 100 টি অবিচ্ছিন্ন বৈশিষ্ট্য রয়েছে যা কোষের শারীরিক বৈশিষ্ট্য (আকার, গড় ব্যাসার্ধ ইত্যাদি) বিশদ বিবরণ করে। জোড়াওয়ালা স্ক্যাটারপ্লট এবং ঘনত্ব প্লটের ডেটা ভিজ্যুয়ালাইজ করা আমাদেরকে বলে যে অনেকগুলি বৈশিষ্ট্যে ক্যান্সার এবং সাধারণ কোষগুলির বিতরণে উল্লেখযোগ্য ওভারল্যাপ রয়েছে।
আমি বর্তমানে এই ডেটাসেটের শ্রেণিবদ্ধকরণ পদ্ধতি হিসাবে এলোমেলো বনগুলি অন্বেষণ করছি এবং আমি কিছু ভাল ফলাফল দেখতে পাচ্ছি। আর ব্যবহার করে, এলোমেলো বনগুলি প্রায় 90% অবজেক্টকে সঠিকভাবে শ্রেণিবদ্ধ করতে সক্ষম।
আমরা চেষ্টা করতে এবং করতে চাই তার মধ্যে একটি হ'ল এক ধরণের "নিশ্চিত স্কোর" তৈরি করা যা আমাদের অবজেক্টগুলির শ্রেণিবিন্যাস সম্পর্কে কতটা আত্মবিশ্বাসী তা মাপবে। আমরা জানি যে আমাদের ক্লাসিফায়ার কখনো 100% নির্ভুল হবে, এবং এমনকি যদি ভবিষ্যৎবাণী মধ্যে উচ্চ নির্ভুলতা অর্জিত হয়, আমরা প্রশিক্ষিত প্রযুক্তিবিদ চান শনাক্ত করতে যা বস্তু সত্যিই হয় Type A
এবং Type B
। সুতরাং Type A
বা এর আপোষহীন পূর্বাভাস প্রদানের পরিবর্তে Type B
আমরা প্রতিটি বস্তুর জন্য এমন একটি স্কোর উপস্থাপন করতে চাই যা কোনও বস্তু কীভাবে A
বা কীভাবে তা বর্ণনা করে B
। উদাহরণস্বরূপ, যদি আমরা 0 থেকে 10 এর মধ্যে একটি স্কোর তৈরি করি তবে 0 এর স্কোর বলতে পারে যে কোনও বস্তুর সাথে খুব মিল রয়েছে Type A
, যখন 10 এর স্কোর ইঙ্গিত করবে যে কোনও অবজেক্টটি খুব পছন্দ করে Type B
।
আমি ভাবছিলাম যে এ জাতীয় স্কোর তৈরি করতে আমি এলোমেলো বনের মধ্যে ভোটগুলি ব্যবহার করতে পারি। যেহেতু এলোমেলো বনাঞ্চলে শ্রেণিবিন্যাস উত্পাদিত গাছের বনাঞ্চলে সংখ্যাগরিষ্ঠ ভোটদানের মাধ্যমে করা হয়, তাই আমি ধরে নেব যে 100% গাছের Type A
দ্বারা ভোট দেওয়া বস্তুগুলি যে জিনিসগুলি ভোট দিয়েছে, তার চেয়ে আলাদা হবে, বলুন, 51% গাছ হতে Type A
।
বর্তমানে, আমি কোনও সামগ্রীর Type A
বা হিসাবে শ্রেণীবদ্ধ করার জন্য প্রাপ্ত ভোটের অনুপাতের জন্য একটি স্বেচ্ছাসেবী প্রান্তিক স্থাপনার চেষ্টা করেছি Type B
এবং প্রান্তিকরটি পাস না হলে এটি হিসাবে শ্রেণিবদ্ধ করা হবে Uncertain
। উদাহরণস্বরূপ, যদি আমি এই শর্তটি চাপিয়ে দিই যে ৮০% বা তার বেশি গাছ অবশ্যই শ্রেণিবদ্ধকরণের সিদ্ধান্ত নেওয়ার বিষয়ে একমত হতে হবে তবে আমি দেখতে পাচ্ছি যে 99% শ্রেণির পূর্বাভাস সঠিক, তবে প্রায় 40% অবজেক্ট হিসাবে বিন্যাস করা হয়েছে Uncertain
।
তাহলে কি ভবিষ্যদ্বাণীগুলির সুনির্দিষ্টতা স্কোর করার জন্য ভোটদানের তথ্যের সদ্ব্যবহার করা বুদ্ধিমান হবে? নাকি আমি আমার চিন্তাভাবনা নিয়ে ভুল পথে যাচ্ছি?