আমি আপাতদৃষ্টিতে সহজ সমস্যার সাথে আক্রান্ত হয়েছি, তবে বেশ কয়েক সপ্তাহ ধরে আমি এখন পর্যন্ত উপযুক্ত সমাধান খুঁজে পাইনি।
আমার কাছে প্রচুর জরিপ / সমীক্ষার তথ্য রয়েছে (দশ হাজার উত্তরদাতারা, ডেটাসেটে 50k বলুন), এমন কিছু থেকে আসবে যেটা আমি আশা করি জটিল ও ডিজাইন করা সমীক্ষাকে বলা হয় ওয়েট, স্ট্র্যাটিফিকেশন, নির্দিষ্ট রাউটিং ইত্যাদি দিয়ে। প্রতিটি উত্তরদাতাদের জন্য শত শত ভেরিয়েবল যেমন ডেমোগ্রাফিক্স (বয়স, অঞ্চল ...) এবং তারপরে বেশিরভাগ বাইনারি (সর্বাধিক, শ্রেণিবদ্ধ) ভেরিয়েবল রয়েছে।
আমি কম্পিউটার বিজ্ঞান / মেশিন লার্নিং ব্যাকগ্রাউন্ড থেকে আরও এসেছি এবং আমাকে শাস্ত্রীয় জরিপ পরিসংখ্যান এবং পদ্ধতি সম্পর্কে অনেক কিছু শিখতে হয়েছিল । এখন আমি সেই তথ্যগুলিতে ক্লাসিকাল মেশিন লার্নিং প্রয়োগ করতে চাই (উদাহরণস্বরূপ উত্তরদাতাদের সাবসেটের জন্য কিছু অনুপস্থিত মানের পূর্বাভাস - মূলত শ্রেণিবদ্ধকরণ কার্য)) তবে ধরুন এবং দেখুন, কীভাবে এটি করা যায় তার কোনও উপযুক্ত উপায় আমি খুঁজে পাচ্ছি না। কীভাবে আমি এই স্তরগুলি, ওজন বা রাউটিংকে অন্তর্ভুক্ত করব (যেমন: যদি প্রশ্ন 1 বিকল্প 2 দিয়ে উত্তর দেয়, 3 প্রশ্ন জিজ্ঞাসা করুন, অন্যথায় এটি এড়িয়ে যাবেন)?
কেবলমাত্র আমার মডেলগুলি প্রয়োগ করা (গাছ, লজিস্টিক রিগ্রেশন, এসভিএম, এক্সজিবিস্ট ...) বিপজ্জনক বলে মনে হয় (এবং, তারা বেশিরভাগ ক্ষেত্রে ব্যর্থ হয়), যেহেতু তারা সাধারণত ধরে নেয় যে তথ্যগুলি এলোমেলো নমুনা বা আইআইডি থেকে আসে।
কমপক্ষে অনেকগুলি পদ্ধতির কমপক্ষে ওজন থাকে তবে এটি খুব বেশি সহায়ক হয় না। তদুপরি, এটি স্পষ্ট নয় যে কীভাবে আমার জরিপ সংজ্ঞা দ্বারা প্রদত্ত ভারসাম্যহীন ক্লাস এবং ওজন একসাথে একত্রিত করা উচিত, stra স্ত্রীকরণের স্টাফগুলির বিষয়ে কথা বলছি না। তদ্ব্যতীত, ফলাফলের মডেলগুলি ভাল ক্যালিব্রেট করা উচিত - পূর্বাভাস দেওয়া বিতরণটি মূলের খুব কাছাকাছি হওয়া উচিত। পূর্বাভাসের ভাল অভিনয় এখানে একমাত্র মানদণ্ড নয় criteria আমি এটিও আমলে নেওয়ার জন্য অপ্টিমাইজেশনের মেট্রিককে পরিবর্তন করেছি (যেমন সত্য বিতরণ + নির্ভুলতা / এমসিসি থেকে পূর্বাভাস বন্টনের দূরত্ব ) এবং এটি কিছু ক্ষেত্রে সহায়তা করেছে, কেন অন্যদের মধ্যে পারফরম্যান্সকে পঙ্গু করে।
এই সমস্যাটি কীভাবে মোকাবেলা করার কিছু উপায় আছে? এটি আমার জন্য গবেষণার একটি ভারী অপ্রত্যাশিত ক্ষেত্র হিসাবে মনে হয়। আইএমও অনেক জরিপ এমএল এর শক্তি থেকে উপকৃত হতে পারে, কিন্তু কোন উত্স নেই। এটি দুটি পৃথিবী যেমন একে অপরের সাথে যোগাযোগ করে না।
আমি এ পর্যন্ত যা খুঁজে পেয়েছি:
- http://civilstat.com/2014/08/statistical-modeling-the-two-cultures-breiman/
উদাহরণস্বরূপ, আমি যখন আপনার ডেটা জটিল নমুনা সমীক্ষা থেকে আসে তখন কীভাবে রিগ্রেশন ট্রি করবেন সে সম্পর্কে আমি কেবল একটি কাগজ (টথ অ্যান্ড এল্টিং, ২০১১) এখনও জানি।
- http://ccsg.isr.umich.edu/index.php/chapters/statistical-analysis-chapter#nine
জটিল স্যাম্পলিং ডিজাইনের সাহায্যে বেশ কয়েকটি সমীক্ষা বিশ্লেষণ করে 150 টি নমুনা গবেষণা গবেষণাপত্রের সাম্প্রতিক মেটা-বিশ্লেষণে দেখা গেছে যে জটিল নমুনা নকশার বৈশিষ্ট্যগুলির অজ্ঞতা বা ভুল ব্যবহারের কারণে বিশ্লেষণমূলক ত্রুটিগুলি প্রায়শই ছিল।
- https://www.fhwa.dot.gov/2015datapalooza/presentations/PolicyDev.4_Pierce.pdf
সম্পর্কিত সিভি প্রশ্ন, তবে এর মধ্যে কোনটির কাছে কীভাবে এটি ব্যবহার করা যায় সেগুলির কোনও ব্যবহারযোগ্য উত্তর নেই (হয় না কোনও উত্তর, আমি যা চাইছি তা নয়, বা বিভ্রান্তিকর প্রস্তাবনা উপস্থাপন করুন):