ধাপে ধাপে নির্বাচন করার পরে কেন পি-মানগুলি বিভ্রান্ত করছে?


28

আসুন উদাহরণস্বরূপ একটি লিনিয়ার রিগ্রেশন মডেল বিবেচনা করি। আমি শুনেছি, ডেটা মাইনিংয়ে, এআইসির মানদণ্ডের উপর ভিত্তি করে একটি ধাপে ধাপে নির্বাচন করার পরে, প্রতিটি সত্যিকারের রিগ্রেশন সহগ শূন্য হ'ল নাল অনুমানটি পরীক্ষা করার জন্য পি-ভ্যালুগুলি অনুসন্ধান করা বিভ্রান্তিকর। আমি শুনেছি যে মডেলটিতে থাকা সমস্ত ভেরিয়েবলগুলির পরিবর্তে শূন্যের চেয়ে সত্যিকারের রিগ্রেশন সহগ আলাদা হওয়া উচিত। কেউ আমাকে কেন ব্যাখ্যা করতে পারেন? ধন্যবাদ.



1
থিয়োরিটিক্যালোলজি.ওয়ার্ডপ্রেস.কম / ২০১৮ / ০৫ / ২০১৩ / তে আমি এআইসির নির্বাচনের পরে টাইপ -১ মূল্যস্ফীতি প্রদর্শন করে কিছু আর কোড দেখাব। নোট করুন যে এটি ধাপে ধাপে বা বিশ্বব্যাপী তা বিবেচ্য নয়, পয়েন্টটি হল মডেল নির্বাচনটি মূলত একাধিক পরীক্ষার।
ফ্লোরিয়ান হারটিগ

উত্তর:


33

এআইসির মানদণ্ডের উপর ভিত্তি করে পদক্ষেপের বাছাইয়ের পরে, প্রতিটি সত্যিকারের রিগ্রেশন সহগ শূন্য হ'ল নাল অনুমানটি পরীক্ষা করার জন্য পি-মানগুলির দিকে নজর দেওয়া বিভ্রান্তিকর।

প্রকৃতপক্ষে, পি-মানগুলি কোনও পরীক্ষার পরিসংখ্যান দেখার সম্ভাবনা প্রতিনিধিত্ব করে যতটা আপনার কাছে রয়েছে ততটা চূড়ান্ত, যখন নাল অনুমানটি সত্য হয়। যদি সত্য হয়, পি-মানটির অভিন্ন বিতরণ হওয়া উচিত।H0

তবে পদক্ষেপের বাছাইয়ের পরে (বা প্রকৃতপক্ষে, মডেল নির্বাচনের বিভিন্ন পদ্ধতির পরে), মডেলগুলিতে থাকা পদগুলির পি-মানগুলির সেই সম্পত্তি নেই, এমনকি যখন আমরা জানি যে নাল অনুমানটি সত্য।

এটি হ'ল কারণ আমরা ভেরিয়েবলগুলি বেছে নিয়েছি যাগুলির মধ্যে ছোট পি-মান রয়েছে বা থাকে (আমাদের ব্যবহৃত সঠিক মানদণ্ডের উপর নির্ভর করে)। এর অর্থ হ'ল মডেলের বামে থাকা ভেরিয়েবলগুলির পি-মানগুলি সাধারণত তাদের চেয়ে অনেক ছোট হয় যদি আমরা একটি একক মডেল ফিট করি। মনে রাখবেন যে বাছাই করা গড় বাছাই করা মডেলগুলি সত্য মডেলের তুলনায় আরও ভাল ফিট করে বলে মনে হয়, যদি মডেলগুলির শ্রেণিতে সত্যিকারের মডেল অন্তর্ভুক্ত থাকে, বা যদি মডেলগুলির শ্রেণি সত্যিকারের মডেলটিকে ঘনিষ্ঠভাবে নির্ধারণ করতে যথেষ্ট নমনীয় হয়।

[তদতিরিক্ত এবং মূলত একই কারণে, গুণাগুণগুলি যা শূন্য থেকে দূরে থাকে এবং তাদের মানক ত্রুটিগুলি পক্ষপাতদুষ্ট কম হয়; ফলস্বরূপ এটি আত্মবিশ্বাসের ব্যবধান এবং ভবিষ্যদ্বাণীগুলিকেও প্রভাবিত করে - উদাহরণস্বরূপ আমাদের ভবিষ্যদ্বাণীগুলি খুব সংকীর্ণ হবে]]

এই প্রভাবগুলি দেখতে, আমরা একাধিক রিগ্রেশন নিতে পারি যেখানে কিছু সহগুণ 0 হয় এবং কিছু না হয়, একটি ধাপে ধাপে ধাপে ধাপে ধাপে ধাপে ধাপে ধাপে ধাপে ধাপে ধাপে ধাপে ধাপে ধাপে ধাপে ধাপে ধাপে ধাপে ধাপে ধাপে ধাপে ধাপে ধাপে ধাপে ধাপে ধাপে ধাপে ধাপে ধাপে ধাপে ধাপে ধাপে ধাপে ধাপে ধাপে ধাপে ধাপে ধাপে ধাপে ধাপে ধাপে ধাপে ধাপে ধাপে ধাপে ধাপে ধাপে ধাপে ধাপে ধাপে ধাপে ধাপে ধাপে ধাপে ধাপে ধাপে ধাপে ধাপে ধাপে ধাপে ধাপে ধাপে ধাপে ধাপে ধাপে ধাপে ধাপে ধাপে ধাপে ধাপে ধাপে ধাপে দেওয়ার জন্য এই প্রক্রিয়াগুলি চালিত হতে পারে result

(একই সিমুলেশনে, আপনি গুণাগুণগুলির জন্য অনুমানগুলি এবং স্ট্যান্ডার্ড বিচ্যুতিগুলি দেখতে পারেন এবং শূন্য-সহগের সাথে মিলে এমনটি আবিষ্কার করতে পারেন যা প্রভাবিত হয়))

সংক্ষেপে, সাধারণ পি-মানগুলি অর্থবহ হিসাবে বিবেচনা করা উপযুক্ত নয়।

আমি শুনেছি মডেলটিতে থাকা সমস্ত ভেরিয়েবলগুলির পরিবর্তে উল্লেখযোগ্য হিসাবে বিবেচনা করা উচিত।

পদক্ষেপের পরে মডেলের সমস্ত মানগুলি 'তাৎপর্যপূর্ণ হিসাবে বিবেচিত হওয়া উচিত' কিনা তা সম্পর্কে আমি নিশ্চিত নই যে এটি কতটা কার্যকর তা এটিকে দেখার উপায়। "তাত্পর্য" বলতে কী বোঝায় তখন?


stepAICএন = 100, এবং দশ প্রার্থী ভেরিয়েবলের সাথে 1000 সিমুলেটেড নমুনাগুলিতে ডিফল্ট সেটিংস সহ আর-এর চালনার ফলাফল এখানে রয়েছে (এর মধ্যে কোনওটি প্রতিক্রিয়া সম্পর্কিত নয়)। প্রতিটি ক্ষেত্রে মডেলটিতে থাকা পদগুলির সংখ্যা গণনা করা হয়েছিল:

এখানে চিত্র বর্ণনা লিখুন

সময়টির মাত্র 15.5% সঠিক মডেলটি বেছে নেওয়া হয়েছিল; বাকি সময় মডেল শর্তাবলী যে শূন্য থেকে আলাদা ছিল না। প্রার্থী ভেরিয়েবলের সেটে যদি শূন্য-সহগের ভেরিয়েবলগুলি প্রকৃত পক্ষে সম্ভব হয় তবে আমাদের বেশ কয়েকটি শর্ত থাকতে পারে যেখানে আমাদের মডেলের আসল সহগটি শূন্য হয়। ফলস্বরূপ, এটি পরিষ্কার নয় যে তাদের সকলকে শূন্য হিসাবে বিবেচনা করা ভাল ধারণা।


"আমি শুনেছি যে একজনকে পরিবর্তে মডেলটিতে থাকা সমস্ত ভেরিয়েবলগুলি উল্লেখযোগ্য হিসাবে বিবেচনা করা উচিত" আমি বলতে চাইছিলাম: "আমি শুনেছি যে মডেলটিতে থাকা সমস্ত পরিবর্তনশীলগুলির পরিবর্তে সত্যিকারের রিগ্রেশন সহগের আলাদা ফর্ম শূন্য হিসাবে বিবেচনা করা উচিত"
জন এম

ঠিক আছে; আমি যে সিমুলেশন এর সাথে কথা বলে তার ফলাফলগুলি যুক্ত করেছি।
গ্লেন_বি -রিনস্টেট মনিকা

10
+1 মডেল নির্বাচন পদ্ধতিতে কোনও শ্রেণির জন্য প্রস্তুত করার জন্য আমি এই সাপ্তাহিক ছুটির দিনে একই অনুকরণগুলি করছিলাম। আমি ফলাফলগুলির একই ধরণগুলি পেয়েছি, থেকে ভেরিয়েবলগুলি অন্বেষণ করে এবং পর্যবেক্ষণ ব্যবহার করে । পরবর্তী পদক্ষেপটি হল বনফেরনি সংশোধন কী করতে পারে তা দেখুন ...। k=33910k
হোবার

7
@ প্রকৃতপক্ষে, কোনও Bonferroni (সমস্যার বিভিন্ন দিকের) এর উপর কী প্রভাব ফেলবে তা দেখে উপরের সিমুলেশনটি সম্পূর্ণ করার বিষয়ে আমার তাত্ক্ষণিক ঝোঁক ছিল, তবে লোকেরা আসলে ধাপে ধাপে চালানোর ক্ষেত্রে কী করায় তাই আমি সম্বোধন করিনি not এটা এখানে। মডেল বাছাই পদ্ধতি সম্পর্কে আপনার কথা শুনে আমি মুগ্ধ হব। আমি আশা করি আমি কিছুটা শিখব
গ্লেন_বি -রিনস্টেট মনিকা

@ গ্লেন_বি: (আপনার উত্তর থেকে উদ্ধৃত) এর অর্থ হ'ল মডেলের বামে থাকা ভেরিয়েবলের পি-মানগুলি সাধারণত তার চেয়ে অনেক ছোট হয় যদি আমরা একটি মডেলও ফিট করি তবে "আমরা যে মডেলটি ফিট করি তা যদি ঘটে তবে এটিই যে ডেটা উত্পন্ন করে, আসল মডেলটি বাতিল বা না "। আপনি হাইলাইট অংশটি কিছুটা ব্যাখ্যা করতে পারেন? এটি কীভাবে হতে পারে যে ডেটা উত্পন্নকরণ প্রক্রিয়া (সত্য মডেল) এর মতো একই স্পেসিফিকেশন রয়েছে এমন মডেলটিতে পি-মানগুলি ছোট হয়?
শনি

8

একটি উপমা সাহায্য করতে পারে। প্রার্থী ভেরিয়েবলগুলি যখন সূচক (ডামি) ভেরিয়েবলগুলি পারস্পরিক একচেটিয়া বিভাগের প্রতিনিধিত্ব করে তখন ধাপে ধাপে রিগ্রেশন (আনোভা হিসাবে) ঠিক কোনটি গ্রুপের সাথে সংযুক্ত করতে হবে তা নির্ধারণের সাথে সামঞ্জস্য করে কোন দলটি টেস্ট দ্বারা ন্যূনতম পৃথক । মূল ANOVA বিরুদ্ধে পরীক্ষিত হয়ে থাকে তাহলে কিন্তু চূড়ান্ত ধসে পড়া গ্রুপ বিরুদ্ধে পরীক্ষা করা হয় যেখানে ফলে পরিসংখ্যাত নেই না একটি আছে বিতরণ এবং মিথ্যা ইতিবাচক সম্ভাবনা নিয়ন্ত্রণের বাইরে চলে যাবে।tFp1,np1Fq1,nq1q<pF

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.