সাধারণ রৈখিক মিশ্র মডেল: মডেল নির্বাচন


10

এই প্রশ্ন / বিষয়টি সহকর্মীর সাথে আলোচনায় উঠে এসেছিল এবং আমি এ সম্পর্কে কিছু মতামত খুঁজছিলাম:

আমি একটি এলোমেলো প্রভাব লজিস্টিক রিগ্রেশন ব্যবহার করে কিছু ডেটা মডেলিং করছি, আরও স্পষ্টভাবে একটি এলোমেলো ইন্টারসেপ্ট লজিস্টিক রিগ্রেশন। স্থির প্রভাবগুলির জন্য আমার কাছে 9 টি ভেরিয়েবল রয়েছে যা আগ্রহী এবং বিবেচনায় আসবে। আমি উল্লেখযোগ্য যে ভেরিয়েবলগুলি খুঁজে পেতে এবং "সেরা" মডেলটি দিতে (কেবলমাত্র প্রধান প্রভাবগুলি) দিতে কিছু ধরণের মডেল নির্বাচন করতে চাই।

আমার প্রথম ধারণাটি ছিল বিভিন্ন মডেলের তুলনায় এআইসি ব্যবহার করা কিন্তু 9 ভেরিয়েবলের সাথে আমি 2 ^ 9 = 512 বিভিন্ন মডেলের (কীওয়ার্ড: ডেটা ড্রেজিং) তুলনা করতে খুব আগ্রহী নই।

আমি একজন সহকর্মীর সাথে এটি নিয়ে আলোচনা করেছি এবং তিনি আমাকে বলেছিলেন যে তিনি জিএলএমএমগুলির সাথে ধাপে ধাপে (বা ফরোয়ার্ড) মডেল নির্বাচন ব্যবহারের বিষয়ে পড়ার কথা মনে রেখেছেন। তবে পি-মান (উদাহরণস্বরূপ জিএলএমএমগুলির জন্য সম্ভাবনা অনুপাতের পরীক্ষার উপর ভিত্তি করে) ব্যবহারের পরিবর্তে, এআইসিকে প্রবেশ / প্রস্থান মাপদণ্ড হিসাবে ব্যবহার করা উচিত।

আমি এই ধারণাটি খুব আকর্ষণীয় পেয়েছি তবে আমি এর মধ্যে আরও আলোচনা করে এমন কোনও রেফারেন্স পাই না এবং আমার সহকর্মী সে কোথায় পড়েছিল তা মনে নেই। অনেকগুলি বই এআইসি ব্যবহার করে মডেলগুলির তুলনা করার পরামর্শ দেয় তবে আমি স্টেপওয়াইজ বা ফরোয়ার্ড মডেল নির্বাচন প্রক্রিয়াটির সাথে এটি ব্যবহার করে কোনও আলোচনা পাইনি।

সুতরাং আমার মূলত দুটি প্রশ্ন আছে:

  1. প্রবেশদ্বার / প্রস্থান মাপদণ্ড হিসাবে ধাপে ধাপে মডেল নির্বাচন পদ্ধতিতে এআইসি ব্যবহার করে কোনও ভুল আছে কি? যদি হ্যাঁ হয়, বিকল্প কি হবে?

  2. আপনার কি কিছু রেফারেন্স রয়েছে যা উপরোক্ত পদ্ধতিটি নিয়ে আলোচনা করে (এটিও একটি চূড়ান্ত প্রতিবেদনের রেফারেন্স হিসাবে)?

সেরা

Emilia,


3
স্টেপওয়াইজ মডেল নির্বাচনটি পুরো সাবসেট নির্বাচনের মতোই ডেটার ড্রেজিং (এটি আসলে খুব কম সময়ে একইভাবে সান্নিধ্যে একই সমাধানটি সন্ধান করার চেষ্টা করে)। এআইসি-ভিত্তিক নির্বাচন হ'ল ডেটা ড্রেজিং।
মাইকেল এম

উত্তর:


8

ধাপে ধাপে নির্বাচন বহুবিধ মডেলগুলিতে একই কারণে এটি "নিয়মিত" রিগ্রেশনটিতে ভুল: পি-মানগুলি খুব কম হবে, মান ত্রুটিগুলি খুব ছোট হবে, প্যারামিটারটি 0 থেকে দূরে পক্ষপাতদুষ্ট অনুমান করে সবচেয়ে গুরুত্বপূর্ণ, এটি আপনাকে অস্বীকার করে ভাবার সুযোগ।

9 আইভিএস খুব বেশি হয় না। আপনি কেন এই 9 নির্বাচন করেছেন? নিশ্চয়ই আপনার একটা কারণ ছিল

একটি প্রাথমিক কাজ হ'ল প্রচুর প্লট দেখুন; আপনার ডেটাটি দ্রাঘিমাংশের (যে ক্ষেত্রে এক্স-অক্ষের সাথে সময়যুক্ত প্লটগুলি প্রায়শই দরকারী) বা ক্লাস্টারযুক্ত যা সুনির্দিষ্টভাবে সামান্য নির্ভর করে। তবে অবশ্যই 9 আইভি এবং আপনার ডিভির মধ্যে সম্পর্কের দিকে তাকান (সমান্তরাল বাক্স প্লটগুলি একটি সহজ সম্ভাবনা)।

আদর্শ হ'ল স্থিতিবোধের ভিত্তিতে কয়েকটি মডেল তৈরি করা এবং এআইসি, বিআইসিসহ বা অন্য কোনও পদক্ষেপ ব্যবহার করে তাদের তুলনা করা। তবে কোনও বিশেষ মডেল যদি পরিষ্কারভাবে সেরা হিসাবে না আসে তবে অবাক হবেন না। আপনি কোন ক্ষেত্রে কাজ করছেন তা আপনি বলবেন না, তবে অনেক (সর্বাধিক?) ক্ষেত্রে প্রকৃতি জটিল। বেশ কয়েকটি মডেল প্রায় সমানভাবে ফিট হতে পারে এবং একটি ভিন্ন মডেল বিভিন্ন ডেটা সেটে আরও ভাল ফিট করতে পারে (এমনকি উভয়ই একই জনসংখ্যার এলোমেলো নমুনা হলেও)।

রেফারেন্স হিসাবে - ননলাইনার মিশ্র মডেলগুলিতে প্রচুর ভাল বই রয়েছে। কোনটি আপনার পক্ষে সবচেয়ে ভাল তার উপর নির্ভর করে ক) আপনি কোন ক্ষেত্রে রয়েছেন খ) তথ্যের প্রকৃতি কী) গ) আপনি কোন সফ্টওয়্যার ব্যবহার করেন।

আপনার মন্তব্য প্রতিক্রিয়া

  1. যদি সমস্ত 9 ভেরিয়েবল বৈজ্ঞানিকভাবে গুরুত্বপূর্ণ হয় তবে আমি অন্তত সেগুলি সহ বিবেচনা করব। যদি এমন একটি পরিবর্তনশীল যা প্রত্যেকের মনে হয় একটি গুরুত্বপূর্ণ প্রভাব রয়েছে তবে এটি আকর্ষণীয়।

  2. অবশ্যই আপনার সমস্ত ভেরিয়েবলগুলি সময়ের সাথে এবং বিভিন্ন উপায়ে প্লট করুন।

  3. দ্রাঘিমাংশীয় মাল্টিলেভেল মডেলগুলি সম্পর্কে সাধারণ সমস্যার জন্য আমি হিডেকার এবং গিবনসকে পছন্দ করি ; এসএএস-তে ননরেখার অনুদৈর্ঘ্য মডেলগুলির জন্য আমি মোলেনবার্গস এবং ভার্বেককে পছন্দ করি । এসএএস ডকুমেন্টেশন নিজেই (জন্য PROC GLIMMIX) দিকনির্দেশনাও সরবরাহ করে।


এই সমীক্ষায়, বিষয়গুলি সময়ের সাথে সাথে বিভিন্ন ওষুধ এবং সংক্ষিপ্তসার সংমিশ্রণগুলির সংস্পর্শে আসে এবং আগ্রহের ফলাফলটি একটি নির্দিষ্ট শ্বাসকষ্টের উপস্থিতি (হ্যাঁ / না)। রোগীদের 6 মাসের মধ্যে প্রতি 2 সপ্তাহে বারবার পরিমাপ করা হয়। সফ্টওয়্যারটির ক্ষেত্রে, আমি এসএএস এবং আর। 9 আইভি ব্যবহার করি যেখানে তাদের বৈজ্ঞানিক গুরুত্বের কারণে তদন্তকারী চয়ন করেন।
এমিলিয়া

অ্যালগরিদমিক মডেল নির্বাচন ব্যবহারের চেয়ে খারাপ না হলে ডেটা পরিদর্শন ঠিক তত খারাপ। কারণ হ'ল, অ্যালগরিদমিক মডেল নির্বাচনটি ভালভাবে বোঝা যায় এবং এর জন্য সম্ভাব্যভাবে সামঞ্জস্য করা যায়; ডেটা দেখে এবং বিষয়গত রায় নিয়োগ করা এমন একটি প্রক্রিয়া যা এর জন্য প্রতিরূপ বা সামঞ্জস্য করা যায় না। যাই হোক না কেন, আমি মডেল নির্বাচন করা এড়াতে চাই কারণ মডেল নির্বাচন অনুমিতি অবৈধ। যেহেতু এখানে কেবলমাত্র 9 টি কোভারিয়েট রয়েছে, তাই আমি মনে করি যে পুরো মডেলটির সাথে বা একমাত্র পদার্থের ভিত্তিতে নির্বাচিত কোনও মডেল নিয়ে কাজ করা সবচেয়ে ভাল পরামর্শ।
ব্যবহারকারী3903581

3

মডেল নির্বাচন সংকোচন পদ্ধতি যেমন লাসো ব্যবহার করে আরও ভালভাবে চালানো যেতে পারে। পদক্ষেপের পদ্ধতিগুলি খুব উদার। তিবশিরানীর ওয়েবপৃষ্ঠায় একটি যুক্তি খুঁজে পাওয়া যায়। আপনি যদি আর ব্যবহার করছেন তবে এমন একটি প্যাকেজ বলা হয়েছে glmmLassoযা লাসো সঙ্কুচিত পদ্ধতিটি ব্যবহার করে সাধারণীকরণীয় রৈখিক মিশ্র প্রভাবগুলির মডেলগুলিতে মডেল নির্বাচনের অনুমতি দেয়।


1

আর এআইসি ভিত্তিক মিশ্র মডেল নির্বাচনের জন্য একটি ভাল রেফারেন্সটি হবে জুউর_০০০০_মিক্সড_এফেক্ট_মোডেলস_একটি এক্সটেনশান_ইন_একোলজি_সহ_আর,

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.