দুটি বিশ্বের সংঘর্ষ: জটিল জরিপের তথ্যের জন্য এমএল ব্যবহার করা


14

আমি আপাতদৃষ্টিতে সহজ সমস্যার সাথে আক্রান্ত হয়েছি, তবে বেশ কয়েক সপ্তাহ ধরে আমি এখন পর্যন্ত উপযুক্ত সমাধান খুঁজে পাইনি।

আমার কাছে প্রচুর জরিপ / সমীক্ষার তথ্য রয়েছে (দশ হাজার উত্তরদাতারা, ডেটাসেটে 50k বলুন), এমন কিছু থেকে আসবে যেটা আমি আশা করি জটিল ও ডিজাইন করা সমীক্ষাকে বলা হয় ওয়েট, স্ট্র্যাটিফিকেশন, নির্দিষ্ট রাউটিং ইত্যাদি দিয়ে। প্রতিটি উত্তরদাতাদের জন্য শত শত ভেরিয়েবল যেমন ডেমোগ্রাফিক্স (বয়স, অঞ্চল ...) এবং তারপরে বেশিরভাগ বাইনারি (সর্বাধিক, শ্রেণিবদ্ধ) ভেরিয়েবল রয়েছে।

আমি কম্পিউটার বিজ্ঞান / মেশিন লার্নিং ব্যাকগ্রাউন্ড থেকে আরও এসেছি এবং আমাকে শাস্ত্রীয় জরিপ পরিসংখ্যান এবং পদ্ধতি সম্পর্কে অনেক কিছু শিখতে হয়েছিল । এখন আমি সেই তথ্যগুলিতে ক্লাসিকাল মেশিন লার্নিং প্রয়োগ করতে চাই (উদাহরণস্বরূপ উত্তরদাতাদের সাবসেটের জন্য কিছু অনুপস্থিত মানের পূর্বাভাস - মূলত শ্রেণিবদ্ধকরণ কার্য)) তবে ধরুন এবং দেখুন, কীভাবে এটি করা যায় তার কোনও উপযুক্ত উপায় আমি খুঁজে পাচ্ছি না। কীভাবে আমি এই স্তরগুলি, ওজন বা রাউটিংকে অন্তর্ভুক্ত করব (যেমন: যদি প্রশ্ন 1 বিকল্প 2 দিয়ে উত্তর দেয়, 3 প্রশ্ন জিজ্ঞাসা করুন, অন্যথায় এটি এড়িয়ে যাবেন)?

কেবলমাত্র আমার মডেলগুলি প্রয়োগ করা (গাছ, লজিস্টিক রিগ্রেশন, এসভিএম, এক্সজিবিস্ট ...) বিপজ্জনক বলে মনে হয় (এবং, তারা বেশিরভাগ ক্ষেত্রে ব্যর্থ হয়), যেহেতু তারা সাধারণত ধরে নেয় যে তথ্যগুলি এলোমেলো নমুনা বা আইআইডি থেকে আসে।

কমপক্ষে অনেকগুলি পদ্ধতির কমপক্ষে ওজন থাকে তবে এটি খুব বেশি সহায়ক হয় না। তদুপরি, এটি স্পষ্ট নয় যে কীভাবে আমার জরিপ সংজ্ঞা দ্বারা প্রদত্ত ভারসাম্যহীন ক্লাস এবং ওজন একসাথে একত্রিত করা উচিত, stra স্ত্রীকরণের স্টাফগুলির বিষয়ে কথা বলছি না। তদ্ব্যতীত, ফলাফলের মডেলগুলি ভাল ক্যালিব্রেট করা উচিত - পূর্বাভাস দেওয়া বিতরণটি মূলের খুব কাছাকাছি হওয়া উচিত। পূর্বাভাসের ভাল অভিনয় এখানে একমাত্র মানদণ্ড নয় criteria আমি এটিও আমলে নেওয়ার জন্য অপ্টিমাইজেশনের মেট্রিককে পরিবর্তন করেছি (যেমন সত্য বিতরণ + নির্ভুলতা / এমসিসি থেকে পূর্বাভাস বন্টনের দূরত্ব ) এবং এটি কিছু ক্ষেত্রে সহায়তা করেছে, কেন অন্যদের মধ্যে পারফরম্যান্সকে পঙ্গু করে।

এই সমস্যাটি কীভাবে মোকাবেলা করার কিছু উপায় আছে? এটি আমার জন্য গবেষণার একটি ভারী অপ্রত্যাশিত ক্ষেত্র হিসাবে মনে হয়। আইএমও অনেক জরিপ এমএল এর শক্তি থেকে উপকৃত হতে পারে, কিন্তু কোন উত্স নেই। এটি দুটি পৃথিবী যেমন একে অপরের সাথে যোগাযোগ করে না।

আমি এ পর্যন্ত যা খুঁজে পেয়েছি:

  • http://civilstat.com/2014/08/statistical-modeling-the-two-cultures-breiman/

    উদাহরণস্বরূপ, আমি যখন আপনার ডেটা জটিল নমুনা সমীক্ষা থেকে আসে তখন কীভাবে রিগ্রেশন ট্রি করবেন সে সম্পর্কে আমি কেবল একটি কাগজ (টথ অ্যান্ড এল্টিং, ২০১১) এখনও জানি।

  • http://ccsg.isr.umich.edu/index.php/chapters/statistical-analysis-chapter#nine

    জটিল স্যাম্পলিং ডিজাইনের সাহায্যে বেশ কয়েকটি সমীক্ষা বিশ্লেষণ করে 150 টি নমুনা গবেষণা গবেষণাপত্রের সাম্প্রতিক মেটা-বিশ্লেষণে দেখা গেছে যে জটিল নমুনা নকশার বৈশিষ্ট্যগুলির অজ্ঞতা বা ভুল ব্যবহারের কারণে বিশ্লেষণমূলক ত্রুটিগুলি প্রায়শই ছিল।

  • https://www.fhwa.dot.gov/2015datapalooza/presentations/PolicyDev.4_Pierce.pdf

সম্পর্কিত সিভি প্রশ্ন, তবে এর মধ্যে কোনটির কাছে কীভাবে এটি ব্যবহার করা যায় সেগুলির কোনও ব্যবহারযোগ্য উত্তর নেই (হয় না কোনও উত্তর, আমি যা চাইছি তা নয়, বা বিভ্রান্তিকর প্রস্তাবনা উপস্থাপন করুন):


আপনি " বেশিরভাগ ক্ষেত্রে ব্যর্থ " বলতে কী বোঝাতে চেয়েছেন দয়া করে ? এই বর্তমান সেটিংয়ে আপনি কীভাবে কোনও মডেলের সাফল্য বিচার করবেন?
usεr11852 বলছেন

এগুলি মূল বিতরণের খুব কাছাকাছিও নয় বা এগুলি চালানো অযৌক্তিক বলে মনে হয় (যেমন যখন রাউটিংটি অন্তর্ভুক্ত থাকে তখন)।
কোটারফা

উত্তর:


3

( আপডেট: জটিল জরিপের তথ্য সহ "আধুনিক" এমএল পদ্ধতিতে এখনও খুব বেশি কাজ হয়নি, তবে but পরিসংখ্যান বিজ্ঞানের সবচেয়ে সাম্প্রতিক ইস্যুতে বেশ কয়েকটি পর্যালোচনা নিবন্ধ রয়েছে। বিশেষত ব্রেড এবং অপসোমার (2017) দেখুন, "মডেল-অ্যাসিস্টড আধুনিক ভবিষ্যদ্বাণী কৌশলগুলির সাথে সমীক্ষার অনুমান "

এছাড়াও, আপনি যে টথ এবং এলটিঞ্জ কাগজের উল্লেখ করেছেন তার উপর ভিত্তি করে জটিল জরিপের তথ্যের জন্য এখন CART প্রয়োগকারী একটি আর প্যাকেজ আরপিএম রয়েছে ))

এখন আমি সেই তথ্যগুলিতে ক্লাসিকাল মেশিন লার্নিং প্রয়োগ করতে চাই (উদাহরণস্বরূপ উত্তরদাতাদের সাবসেটের জন্য কিছু অনুপস্থিত মানের পূর্বাভাস - মূলত শ্রেণিবদ্ধকরণ কার্য)।

আমি আপনার লক্ষ্য সম্পর্কে সম্পূর্ণ পরিষ্কার নয়। আপনি কি কেবল অন্য কাউকে দেওয়ার জন্য একটি "সম্পূর্ণ" ডেটাসেট রাখার জন্য অনুপস্থিত পর্যবেক্ষণগুলি বোঝানোর চেষ্টা করছেন? বা আপনার কাছে ইতিমধ্যে সম্পূর্ণ ডেটা রয়েছে এবং নতুন পর্যবেক্ষণের প্রতিক্রিয়াগুলি পূর্বাভাস / শ্রেণিবদ্ধ করার জন্য আপনি একটি মডেল তৈরি করতে চান? আপনার মডেল (গুলি) দিয়ে উত্তর দেওয়ার জন্য আপনার কাছে কোনও বিশেষ প্রশ্ন রয়েছে, বা আপনি আরও বিস্তৃতভাবে ডেটা মাইনিং করছেন?

উভয় ক্ষেত্রেই, জটিল-নমুনা-সমীক্ষা / সমীক্ষা-ওজনযুক্ত লজিস্টিক রিগ্রেশন একটি যুক্তিসঙ্গত, বেশ ভাল-বোঝা পদ্ধতি। 2 টিরও বেশি বিভাগের জন্য অर्डিনাল রিগ্রেশন রয়েছে। এগুলি স্ট্রাটাস এবং জরিপ ওজনের জন্য অ্যাকাউন্ট করবে। এর চেয়ে আপনার কি কোনও ফ্যানসিয়ার এমএল পদ্ধতি দরকার?

উদাহরণস্বরূপ, আপনি svyglmআর এর মধ্যে ব্যবহার করতে পারেনsurvey প্যাকেজে । আপনি আর ব্যবহার না করলেও, প্যাকেজ লেখক, টমাস লামলি একটি দরকারী বই "কমপ্লেক্স সার্ভেস: এন গাইডস টু অ্যানালাইসিস ইউজিং আর" লিখেছেন যা জরিপের জন্য লজিস্টিক রিগ্রেশন এবং অনুপস্থিত তথ্য উভয়ই জুড়েছে।

(অভিশংসনের জন্য, আমি আশা করি আপনি ইতিমধ্যে নিখোঁজ ডেটা সম্পর্কে সাধারণ সমস্যাগুলির সাথে परिचित হয়ে পড়েছেন If যদি তা না হয় তবে একচেটিয়া পদক্ষেপ আপনার অনুমান / ভবিষ্যদ্বাণীগুলিকে কীভাবে প্রভাবিত করে তার জন্য অ্যাকাউন্টে সহায়তা করার জন্য একাধিক অনুদানের মতো পদ্ধতির দিকে নজর দিন))

প্রশ্ন রুটিং আসলে একটি অতিরিক্ত সমস্যা। আমি নিশ্চিত না যে এটির সাথে কীভাবে معاملা করা যায়। অভিশাপের জন্য, সম্ভবত আপনি একবারে রাউটিংয়ের একটি "পদক্ষেপ" গুনতে পারেন। যেমন একটি গ্লোবাল মডেল ব্যবহার করে প্রথমে প্রত্যেকের উত্তরকে "আপনার কতটি বাচ্চা আছে?" গুন দিন ;; তারপরে "আপনার বাচ্চাদের বয়স কত?" এর পরবর্তী ধাপটি বোঝাতে প্রাসঙ্গিক উপ-জনসংখ্যার (0 টিরও বেশি বাচ্চাদের লোক) একটি নতুন মডেল চালান?

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.