একাধিক অনুশাসন এবং মডেল নির্বাচন


21

আপনি অনুমান করতে চান এমন একটি প্রাইমারী লিনিয়ার মডেল থাকলে একাধিক অনুমানের বিষয়টি মোটামুটি সোজা । যাইহোক, জিনিসগুলি কিছুটা জটিল বলে মনে হচ্ছে যখন আপনি আসলে কিছু মডেল নির্বাচন করতে চান (উদাহরণস্বরূপ প্রার্থীর ভেরিয়েবলগুলির একটি বৃহত্তর সেট থেকে প্রেডিকটর ভেরিয়েবলগুলির "সেরা" সেটটি আবিষ্কার করুন - আমি বিশেষত ল্যাসো এবং আর ব্যবহার করে ভগ্নাংশের বহুভুজ সম্পর্কে ভাবছি)।

একটি ধারণা হ'ল অদৃশ্য মানগুলির সাথে মূল ডেটাতে মডেলটিকে ফিট করে এবং তারপরে এমআই ডেটাসেটগুলিতে এই মডেলটির পুনরায় অনুমান করতে এবং আপনার স্বাভাবিকভাবে যেমন অনুমান একত্রিত হয়। তবে এটি সমস্যাযুক্ত বলে মনে হচ্ছে যেহেতু আপনি পক্ষপাতের প্রত্যাশা করছেন (না কেন এমআই প্রথম স্থানে আছেন?), যা শুরু থেকেই "ভুল" মডেল নির্বাচন করতে পারে।

আরেকটি ধারণা হ'ল আপনি প্রতিটি এমআই ডেটাসেটে যে কোনও মডেল নির্বাচন প্রক্রিয়াটি ব্যবহার করছেন - তারপরে আপনি কীভাবে ফলাফলগুলি একত্রিত করবেন যদি সেগুলিতে ভেরিয়েবলের বিভিন্ন সেট অন্তর্ভুক্ত থাকে?

আমি ভেবেছিলাম আমার এমআই ডেটাসেটের একটি সেট স্ট্যাক করা এবং সেগুলি একটি বড় ডেটাসেট হিসাবে বিশ্লেষণ করা যা আপনি তখন একটি একক, "সেরা" মডেল ফিট করতে ব্যবহার করবেন এবং আপনি যে বারবার ব্যবস্থা গ্রহণ করছেন তার জন্য অ্যাকাউন্টে এলোমেলো প্রভাব অন্তর্ভুক্ত করুন প্রতিটি পর্যবেক্ষণ।

এই শব্দটি কি যুক্তিসঙ্গত? বা সম্ভবত অবিশ্বাস্যভাবে নিষ্পাপ? এই ইস্যুতে কোনও পয়েন্টার (একাধিক অভিশাপের সাথে মডেল নির্বাচন) প্রশংসিত হবে।


2
"মডেল ফিটিং" কে "মডেল নির্বাচন" এ পরিবর্তন করতে দয়া করে এই পোস্টটি সম্পাদনা করুন। আপনি কোন পদ্ধতিটি ব্যবহার করছেন তা আলোচনা করাও সহায়ক হবে। উদাহরণস্বরূপ, যদি পি-মানগুলির উপর ভিত্তি করে ধাপে ধাপে মডেল নির্বাচন ব্যবহার করা হয়, তবে অভিযুক্ত ডেটা স্ট্যাক করা একেবারেই অনুমোদিত নয়। আপনি নিখোঁজ ডেটা এমআই এবং পরবর্তী মডেল নির্বাচন প্রক্রিয়া প্রয়োগ করে এবং আপনার নির্বাচিত মডেলের জন্য সঠিক "পি-মান" গণনা সহ আপনার ডেটার বুটস্ট্র্যাপের রেসপ্যামগুলি আঁকতে পারেন।
অ্যাডামো

আপনার দ্বিতীয় অনুচ্ছেদে, আপনি কেন মনে করেন যে এই পদ্ধতিটি একাধিক অনুমানের বিন্দুটিকে বাদ দেয়? এছাড়াও, আপনি কোন সফটওয়্যার ব্যবহার করছেন?
পিটার ফ্লুম - মনিকা পুনরায়

উত্তর:


10

বহু গুণিত ডেটা থেকে ভেরিয়েবল নির্বাচন করতে আপনি অনেক কিছুই করতে পারেন তবে সবগুলি উপযুক্ত অনুমান দেয় না। দেখুন কাঠ এট (2008) তাত্ক্ষণিকবাজার মেড বিভিন্ন সম্ভাবনার একটি তুলনা জন্য।

আমি নিম্নলিখিত দুটি পদক্ষেপটি অনুশীলনে দরকারী বলে খুঁজে পেয়েছি।

  1. প্রতিটি ইম্পিউটেড ডেটা সেটগুলিতে আপনার পছন্দসই পরিবর্তনশীল নির্বাচন পদ্ধতিটি স্বাধীনভাবে প্রয়োগ করুন । আপনি বিভিন্ন মডেল দিয়ে শেষ হবে । প্রতিটি ভেরিয়েবলের জন্য, এটি মডেলের প্রদর্শিত সময়ের সংখ্যা গণনা করুন। কমপক্ষে অর্ধেক মডেলের উপস্থিত সমস্ত ভেরিয়েবল নির্বাচন করুন ।মি মিমিমিমি
  2. গণনা করা যেমন থেকে Wald, পরিসংখ্যাত বা সম্ভাবনা অনুপাত পরীক্ষার P-মান ব্যবহার করুন আরও ধাপে ধাপে মডেল নির্বাচনের জন্য নির্ণায়ক হিসেবে মাল্টিপ্লাই-নিক্ষিপ্ত ডেটা সেট।মি

প্রাক-নির্বাচনের পদক্ষেপ 1 গণনার পরিমাণ হ্রাস করার জন্য অন্তর্ভুক্ত করা হয়েছে। আর-তে দ্বি-পদক্ষেপ পদ্ধতির কোড উদাহরণের জন্য http://www.stefvanbuuren.nl/mi/FIMDmatorys/src/fimd6.r.txt (বিভাগ 6.4.2) দেখুন mice()। স্টাটাতে, আপনি দ্বিতীয় ধাপটি (সমস্ত ভেরিয়েবলের সাথে) সম্পাদন করতে পারেন mim:stepwise


স্টেফ, দয়া করে স্ট্যাট মেডের প্রকাশনাটির লিঙ্কটি অন্তর্ভুক্ত করুন। আমি আপনার উত্তরটিও কিছুটা সুন্দর করার চেষ্টা করেছি।
স্টাসকে

1
প্রস্তাবিত রুটিনটি কেবল তখনই বোধগম্য হতে পারে যখন আপনি রেজিস্ট্রারগুলির একটি পূর্ব-নির্দিষ্ট সেট থেকে নির্বাচন করেন। তবে আমি যদি চতুর্ভুজ প্রবণতাটি বলি, 5- এবং 9-নট বি-স্প্লিনস, এবং একটি কার্ট হতে পারে, তবে আমি কীভাবে এই প্রস্তাবটি প্রয়োগ করব তা নিশ্চিত নই।
স্ট্যাটক

এছাড়াও, প্রক্রিয়া অনুমান মডেল সঠিক বলে ধরে নেওয়া হয়। বিশেষ করে ইমপুটেশন পদ্ধতিতে অবশ্যই আপনার সেই ডেটাতে সমস্ত বৈশিষ্ট্য ক্যাপচার করতে হবে যাতে আপনার পরে আগ্রহী হতে পারে। সুতরাং আপনি যদি আপনার সম্পূর্ণ ডেটা বিশ্লেষণে চতুর্ভুজ শর্তাদি বা বি-স্প্লিনস অন্তর্ভুক্ত করতে চান, তবে অভিশাপক মডেলটি এমনভাবে স্থাপন করা উচিত যাতে সেই বৈশিষ্ট্যগুলি দোষযুক্ত ডেটাতে সংরক্ষিত থাকে (দ্রষ্টব্য: সম্ভবত এটি অর্জন করা কঠিন হতে পারে) , কিন্তু এটি নিজস্ব একটি বিষয়)। ইমপুটেশন মডেলটি সঠিকভাবে নির্দিষ্ট করে দেওয়া হয়েছে বলে আমি বলব যে দ্বি-পদক্ষেপ নির্বাচন পদ্ধতিটি প্রযোজ্য।
স্টেফ ভ্যান বুউরেন

ঠিক আছে, তবে মূলত ইমপুটেশন মডেলটি অবশ্যই সবচেয়ে ধনী সম্ভাব্য মডেল হতে হবে। ওভারপাটারমিটারাইজড লজিস্টিক মডেলগুলিতে নিখুঁত ভবিষ্যদ্বাণীগুলির মতো যখন আমি পুরোপুরি কার্যকর না হই তখন পরিস্থিতিগুলি জুড়ে এসেছি।
স্টাসকে

একমত। আপনাকে সবচেয়ে ধনীতম মডেলের অধীনে গুনতে হবে। সুতরাং, প্রথমে আপনি সবচেয়ে জটিল বিশ্লেষণগুলি সংজ্ঞায়িত করুন যা আপনি করতে চান এবং এটির জন্য ইমপ্লুটেশন মডেলটি তৈরি করুন। এটি অনুশীলনে অর্জন করা কঠিন হতে পারে এবং পূর্ণ-ডেটা মডেলের জটিলতা বাড়ার সাথে সাথে আরও শক্ত হয়ে ওঠে। ফ্রি লাঞ্চ নেই। লজিস্টিক রিগ্রেশন মধ্যে নিখুঁত ভবিষ্যদ্বাণী বিভিন্ন উপায়ে সমাধান করা হয়েছে, এবং একটি বড় হোঁচট খাওয়ার উপস্থাপনা করার দরকার নেই।
স্টিফ ভ্যান বুউরেন

4

এটি সোজা: আপনি স্ট্যান্ডার্ড এমআই সংমিশ্রনের নিয়ম প্রয়োগ করতে পারেন - তবে অভিযুক্ত ডেটাসেট জুড়ে সমর্থিত নয় এমন ভেরিয়েবলের প্রভাব কম উচ্চারণযোগ্য হবে। উদাহরণস্বরূপ, নির্দিষ্ট ভ্রূণিত ডেটাসেটে যদি কোনও ভেরিয়েবল নির্বাচন করা না হয় তবে তার অনুমান (Incl। বৈকল্পিক) শূন্য এবং একাধিক অনুদান ব্যবহার করার সময় এটি ব্যবহৃত অনুমানগুলিতে প্রতিফলিত হতে হবে। মডেল নির্বাচন অনিশ্চয়তা অন্তর্ভুক্ত করতে আপনি আস্থা অন্তরগুলি তৈরি করতে বুটস্ট্র্যাপিং বিবেচনা করতে পারেন, সাম্প্রতিক প্রকাশনাটি দেখুন যা সমস্ত প্রশ্নের উত্তর দেয়: http://www.senderdirect.com/sज्ञान / article / pii / S016794731300073X

আমি ব্যবহারিক পন্থাগুলি ব্যবহার করা এড়িয়ে যাব যেমন এম / 2 ডেটাসেটে বা স্ট্যাচ অনুরূপে নির্বাচিত হলে কোনও ভেরিয়েবল নির্বাচন করা, কারণ অনুভূতিটি প্রথম নজরে দেখার চেয়ে পরিষ্কার এবং বেশি জটিল নয়।


3

আমি একই সমস্যা ছিল।

আমার পছন্দটি তথাকথিত "একাধিক অভিবাসী লাসো" ছিল। মূলত এটি সমস্ত অভিযুক্ত ডেটাসেটগুলি একত্রিত করে এবং গ্রুপ লাসোর ধারণা গ্রহণ করে: প্রতিটি পরীক্ষার্থী ভেরিয়েবল এম ডামি ভেরিয়েবল তৈরি করতে পারে । প্রতিটি ডামি ভেরিয়েবল একটি অভিযুক্ত ডেটাসেটের সাথে মিলে যায়।

তারপরে সমস্ত এম ডামি ভেরিয়েবলগুলি গ্রুপ করা হয়। আপনি হয় কোনও পরীক্ষিত ভেরিয়েবলের এম ডামি ভেরিয়েবলগুলিকে সমস্ত অভিযুক্ত ডেটাসেটগুলিতে ফেলে দিন বা সমস্ত অভিযুক্ত ডেটাসেটে রাখবেন।

সুতরাং লাসো রিগ্রেশনটি সমস্ত অভিযুক্ত ডেটাসেটগুলিতে যৌথভাবে ফিট করে।

কাগজ পরীক্ষা করুন :

চেন, কি। ও ওয়াং, এস। (2013) "ডাইঅক্সিন এক্সপোজার অধ্যয়নের প্রয়োগের সাথে বহু গুণিত ডেটার জন্য পরিবর্তনশীল নির্বাচন," মেডিসিনে পরিসংখ্যান, 32: 3646-59 9

এবং একটি প্রাসঙ্গিক আর প্রোগ্রাম


আমি মনে করি কয়েক বছর আগে আমি আপনাকে আসলে এটি ইমেল করেছি :)
ডিএল ডাহলি

1

আমি একই ধরণের সমস্যার মুখোমুখি হয়েছি - আমার একটি ডেটাসেট পেয়েছি যাতে আমি শুরু থেকেই জানতাম যে আমি সমস্ত ভেরিয়েবলগুলি অন্তর্ভুক্ত করতে চেয়েছি (আমি পূর্বাভাসের চেয়ে বেশি সহগের প্রতি আগ্রহী ছিলাম), তবে আমি একটি জানতাম না অগ্রগতি কী ইন্টারঅ্যাকশন নির্দিষ্ট করা উচিত।

আমার দৃষ্টিভঙ্গি ছিল প্রার্থী মডেলগুলির একটি সেট লিখতে, একাধিক অভিভাবকত্ব সম্পাদন করা, একাধিক মডেলটি অনুমান করা এবং প্রতিটি মডেল থেকে কেবল এআইসির সংরক্ষণ এবং গড় করা। সর্বনিম্ন গড়-এআইসির সাথে মডেল স্পেসিফিকেশন নির্বাচন করা হয়েছিল।

আমি একটি সংশোধন যোগ করার বিষয়ে ভেবেছিলাম যেখানে আমি এআইসির মধ্যে অভিষেকের বৈকল্পিককে দণ্ডিত করি। প্রতিবিম্বে তবে এটিকে অর্থহীন বলে মনে হয়েছিল।

এই পদ্ধতির বিষয়টি আমার কাছে যথেষ্ট সোজাসুজি মনে হয়েছিল, তবে আমি নিজে এটি আবিষ্কার করেছিলাম এবং আমি কোনও বিখ্যাত পরিসংখ্যানবিদ নই। এটি ব্যবহার করার আগে, আপনি লোকেরা আমাকে সংশোধন না করা পর্যন্ত অপেক্ষা করতে চাইতে পারেন (যা স্বাগত হবে!) অথবা এই উত্তরটিকে উজ্জীবিত করবেন।


জবাবের জন্য ধন্যবাদ. দুর্ভাগ্যক্রমে আমি যে বিষয়ে আগ্রহী তা হ'ল মডেল নির্বাচনের আরও বেশি স্বয়ংক্রিয় / অনুসন্ধানের পদ্ধতি ব্যবহার করা যা প্রার্থীদের মডেলগুলির একটি যুক্তিসঙ্গত সেট নির্বাচনের জন্য প্রথমে leণ দেয় না।
ডিএল ডাহলি
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.