আমি 200,000+ নমুনা এবং নমুনা হিসাবে প্রায় 50 টি বৈশিষ্ট্য সহ একটি ডেটাসেটে কাজ করছি: 10 অবিচ্ছিন্ন ভেরিয়েবল এবং অন্যান্য 40 ডলার শ্রেণিবদ্ধ ভেরিয়েবল (দেশ, ভাষা, বৈজ্ঞানিক ক্ষেত্র ইত্যাদি)। এই শ্রেণিবদ্ধ ভেরিয়েবলগুলির জন্য আপনার কাছে উদাহরণস্বরূপ 150 টি ভিন্ন দেশ, 50 টি ভাষা, 50 টি বৈজ্ঞানিক ক্ষেত্র ইত্যাদি রয়েছে ...
এখন পর্যন্ত আমার পদ্ধতিটি হ'ল:
অনেকগুলি সম্ভাব্য মান সহ প্রতিটি শ্রেণীবদ্ধ ভেরিয়েবলের জন্য, এই মানটি গ্রহণ করে এমন একটিকে 10000 এর বেশি নমুনা নিন। এটি 150 এর পরিবর্তে 5-10 বিভাগে কমেছে।
প্রতিটি শ্রেণিবদ্ধের জন্য ডামি ভেরিয়েবল তৈরি করুন (যদি 10 টি দেশ থাকে তবে প্রতিটি নমুনার জন্য 10 মাপের বাইনারি ভেক্টর যুক্ত করুন)।
এই ডেটা সহ একটি এলোমেলোভাবে বন শ্রেণীবদ্ধকারী (প্যারামিটারগুলি ক্রস-বৈধ করুন ...) খাওয়ান।
বর্তমানে এই পদ্ধতির সাথে আমি কেবলমাত্র 65% নির্ভুলতা অর্জন করতে পারি এবং আমার মনে হয় আরও কিছু করা সম্ভব। বিশেষত আমি আমার 1 এর সাথে সন্তুষ্ট নই) যেহেতু আমার মনে হচ্ছে যে আমি তাদের কাছে নমুনার সংখ্যা অনুযায়ী নির্বিচারে "ন্যূনতম প্রাসঙ্গিক মানগুলি" সরাতে হবে না, কারণ এই স্বল্প প্রতিনিধিত্বমূলক মানগুলি আরও বৈষম্যমূলক হতে পারে। অন্যদিকে, আমার র্যাম সমস্ত সম্ভাব্য মান রেখে ডেটাতে 500 কলাম * 200000 সারি যুক্ত করতে পারে না।
এই খুব শ্রেণীবদ্ধ ভেরিয়েবল সামলাতে আপনার কোনও পরামর্শ আছে?