রিগ্রেশন মডেল থেকে পদটি কখন বাদ করবেন?


20

নিম্নলিখিতটি যদি বোঝা যায় তবে কেউ পরামর্শ দিতে পারে:

আমি 4 ভবিষ্যদ্বাণী নিয়ে একটি সাধারণ লিনিয়ার মডেল নিয়ে কাজ করছি। সর্বনিম্ন উল্লেখযোগ্য শব্দটি বাদ দিতে হবে কিনা তা নিয়ে আমি দুজনের মনেই আছি। এর ভ্যালুটি 0.05 এর কিছুটা বেশি। আমি এই লাইনগুলি এটিকে বাদ দেওয়ার পক্ষে যুক্তি দিয়েছি: এই পদটির অনুমানটি গুণমান (উদাহরণস্বরূপ) এই পরিবর্তনশীলটির জন্য নমুনা উপাত্তের আন্তঃখণ্ডজ পরিসীমা দ্বারা ক্লিনিকাল প্রভাবটির কিছু অর্থ পাওয়া যায় যে এই শব্দটি রাখা সামগ্রিক মডেলের উপর রয়েছে । যেহেতু এই সংখ্যাটি খুব কম, একটি ক্লিনিকাল সেটিংসে এটি পরিমাপ করার সময় ভেরিয়েবল গ্রহণ করতে পারে এমন আদর্শের অন্তর্-দিনের পরিসরের প্রায় সমান, তাই আমি এটিকে ক্লিনিক্যালি তাত্পর্যপূর্ণ বলে মনে করি না এবং তাই আরও পার্সামোনিয়াস মডেল দেওয়ার জন্যও ফেলে দেওয়া যেতে পারে, এমনকি যদিও এটি ড্রপ সামঞ্জস্য করা কমিয়ে দেয় ।pR2


1
আপনি কেন আরও পার্সিমনিয়াস মডেল খুঁজছেন?
মাইকেল বিশপ

3
পার্সিমনি কি নিজের মধ্যে ভাল জিনিস নয়? আমি যেভাবে দেখছি, ভেরিয়েবল সহ এমন একটি মডেল যা ক্লিনিকাল অর্থে সামান্য বা কোনও ব্যাখ্যামূলক শক্তি যুক্ত করে, সেই পরিবর্তনশীলগুলি ছাড়াই একটি ছোট মডেলের চেয়ে খারাপ, এমনকি যদি সেই ভেরিয়েবলগুলি একটি পরিসংখ্যানগত দিক থেকে উল্লেখযোগ্য হয়
পি সেল্লাজ

আমি একটি উত্তর লেখার সিদ্ধান্ত নিয়েছি: stats.stackexchange.com/questions/17624/… । তবে সংক্ষেপে, না, আমি মনে করি না পার্সিমনি নিজের মধ্যে ভাল জিনিস। এটি নির্দিষ্ট কারণে কখনও কখনও দরকারী।
মাইকেল বিশপ

1
আমি মাইকেল এর সাথে একমত স্পষ্টভাবে ব্যাখ্যাযোগ্য ক্ষমতা সহ ভেরিয়েবলগুলি অন্তর্ভুক্ত করা ভাল তবে যদি তাদের "উল্লেখযোগ্য" হওয়ার সুযোগ দেওয়া হয়; আপনি ইতিমধ্যে স্বাধীনতার এই ডিগ্রি ব্যয় করেছেন।
ফ্র্যাঙ্ক হ্যারেল

মনে রাখবেন যে পূর্বাভাসকারীরা যা উল্লেখযোগ্য রেজিস্ট্রার নয় তারা এখনও পারস্পরিক সম্পর্কযুক্ত রেজিস্ট্রারগুলির ক্ষেত্রে বর্ণিত পরিবর্তনের ক্ষেত্রে অ-শূন্য পরিমাণে অবদান রাখতে পারে - অন্যান্য উল্লেখযোগ্য রেজিস্ট্রারকে প্রভাবিত করে। বিশেষত মাত্র চারটি ভবিষ্যদ্বাণীকের সাথে, যদি রেজিস্ট্রারগুলি পারস্পরিক সম্পর্কযুক্ত হয়, আমি মডেলটিতে অ-তাত্পর্যপূর্ণ রাখার পক্ষে যুক্তি দেব।
টরভন

উত্তর:


18

আমি পার্সিমনি করার ইচ্ছাটি কখনই বুঝতে পারি নি। পার্সিমনি সন্ধানের পরিসংখ্যানগত অনুক্রমের সমস্ত দিক (রিগ্রেশন সহগের পক্ষপাত, মান ত্রুটি, আত্মবিশ্বাসের ব্যবধান, পি-মান) কে ধ্বংস করে দেয়। পরিবর্তনশীল রাখার একটি ভাল কারণ হ'ল এটি আত্মবিশ্বাসের ব্যবধান এবং অন্যান্য পরিমাণের যথার্থতা সংরক্ষণ করে। এটি এইভাবে চিন্তা করুন: সাধারণ একাধিক প্রতিরোধের মধ্যে কেবলমাত্র দুটি অব্যক্ত অনুমানের বিকাশ করা হয়েছে: (1) প্রাক-নির্দিষ্ট (বড়) মডেল থেকে অনুমান, এবং (2) হ্রাসিত মডেলটি জেনারালাইজড ডিগ্রি স্থাপনের অনুমান থেকে স্বাধীনতার আপাত (হ্রাস) রিগ্রেশন ডিগ্রির জন্য স্বাধীনতার (জিডিএফ)। চূড়ান্ত "উল্লেখযোগ্য" পরামিতিগুলির সংখ্যার তুলনায় জিডিএফ প্রার্থী পরামিতিগুলির সংখ্যার কাছাকাছি থাকবে।

এটি ভাবার আরেকটি উপায় এখানে। ধরুন আপনি একটি 4 ডিএফ এফ-টেস্ট পেয়ে 5 টি চিকিত্সার তুলনা করার জন্য একটি এনওভা করছেন। তারপরে কোনও কারণে আপনি টি-টেস্ট ব্যবহার করে চিকিত্সার মধ্যে জুটিবদ্ধ পার্থক্যের দিকে তাকান এবং কিছু চিকিত্সা একত্রিত বা মুছে ফেলার সিদ্ধান্ত নিয়েছেন (এটি 4 টি ডামি ভেরিয়েবলের পি, এআইসি, বিআইসি, সিপি ব্যবহার করে স্টেপওয়াইজ সিলেকশন করার মতো)। 1, 2, বা 3 ডিএফ সহ ফলস্বরূপ এফ-টেস্টে স্ফীতিত টাইপ আই ত্রুটি থাকবে। 4 ডিএফ সহ আসল এফ-টেস্টে একটি নিখুঁত গুণমানের সামঞ্জস্য রয়েছে।


3
+1 পার্সিমনি এমন একটি জিনিস যা প্রায়শই খুব নির্দিষ্ট প্রসঙ্গে উপলব্ধি হয়। আপনার উভয় করার যথেষ্ট পরিমাণে নির্ভুলতা থাকলে বায়াস বনাম যথাযথ গেমটি খেলার কোনও কারণ নেই।
ফোমাইট

2
একটি দুর্দান্ত উত্তরের জন্য +1। তবে যদি আপনার বহুবিধ লাইন থাকে এবং কোনও ভেরিয়েবল অপসারণ এটি হ্রাস করে? (এটি মূল প্রশ্নের ক্ষেত্রে নয়, তবে প্রায়শই অন্যান্য ডেটাতে থাকে)। ফলস্বরূপ মডেলটি প্রায়শই সমস্ত উপায়ে উচ্চতর হয় না (অনুমানের বৈকল্পিকতা হ্রাস করা, সহগের চিহ্নগুলি অন্তর্নিহিত তত্ত্ব প্রতিফলিত হওয়ার সম্ভাবনা বেশি ইত্যাদি)? আপনি যদি এখনও স্বাধীনতার সঠিক (মূল মডেল) ডিগ্রি ব্যবহার করেন।
পিটার এলিস

4
উভয় ভেরিয়েবল অন্তর্ভুক্ত করা আরও ভাল। আপনি যে একমাত্র মূল্য প্রদান করবেন তা হ'ল অন্যটির জন্য সামঞ্জস্য করা ভেরিয়েবলের প্রভাবগুলির একটি অনুমানের বর্ধিত মান ত্রুটি। দুটি কোলাইনারি ভেরিয়েবলের যৌথ পরীক্ষাগুলি খুব শক্তিশালী কারণ তারা একে অপরের বিরুদ্ধে প্রতিযোগিতা করার পরিবর্তে বাহিনীকে একত্রিত করে। এছাড়াও যদি আপনি কোনও ভেরিয়েবল মুছতে চান, তবে কোনটি মুছতে হবে তা ডেটা আপনাকে অক্ষম করে।
ফ্র্যাঙ্ক হ্যারেল

17

ভেরিয়েবল নির্বাচন সম্পর্কে এই উত্তরগুলি সমস্ত ধরে নেয় যে ভেরিয়েবলগুলির পর্যবেক্ষণের ব্যয় 0 হয়।

এবং এটি সত্য নয়।

কোনও প্রদত্ত মডেলটির জন্য ভেরিয়েবলগুলির নির্বাচনের ইস্যুতে নির্বাচন জড়িত থাকতে পারে বা নাও থাকতে পারে, ভবিষ্যতের আচরণের জন্য প্রভাবগুলি নির্বাচনের সাথে জড়িত।

কোন কলেজ লাইনম্যান এনএফএলে সবচেয়ে ভাল করবে তা ভবিষ্যদ্বাণী করার সমস্যাটি বিবেচনা করুন। আপনি একটি স্কাউট। আপনার অবশ্যই বিবেচনা করতে হবে এনএফএল-র বর্তমান লাইনম্যানের কোন গুণাবলী তাদের সাফল্যের সবচেয়ে ভবিষ্যদ্বাণীপূর্ণ। আপনি 500 পরিমাণ পরিমাপ করুন এবং ভবিষ্যতে প্রয়োজনীয় পরিমাণগুলি নির্বাচনের কাজটি শুরু করুন।

তোমার কি করা উচিত? আপনি সব 500 ধরে রাখা উচিত? কিছু (জ্যোতিষী চিহ্ন, জন্মের সপ্তাহের দিন) কি বাদ দেওয়া উচিত?

এটি একটি গুরুত্বপূর্ণ প্রশ্ন, এবং একাডেমিক নয়। ডেটা পর্যবেক্ষণের জন্য ব্যয় হয় এবং ব্যয় কার্যকারিতার কাঠামোর পরামর্শ দেয় যে কিছু ভেরিয়েবল ভবিষ্যতে পালন করা উচিত নয়, যেহেতু তাদের মান কম।


4
+1: একটি গুরুত্বপূর্ণ এবং আকর্ষণীয় পয়েন্ট। এটি প্রকাশ করে যে প্রশ্নটি অসম্পূর্ণ, কারণ এটি মডেলের উদ্দেশ্য নির্দেশ করে না। (দাম নির্ধারণ একটি বৈজ্ঞানিক মডেল একটি ব্যাখ্যামূলক তত্ত্ব গড়ে তুলতে কিন্তু পুনরাবৃত্তি ব্যবহারের জন্য দেয়ার উদ্দেশ্যে একটি ভবিষ্যদ্বাণীপূর্ণ মডেল দিলো আসতে হবে কামনা যে জন্য কম প্রাসঙ্গিক হতে হবে।)
whuber

6

ভেরিয়েবল রাখার জন্য কমপক্ষে আরও দুটি সম্ভাব্য কারণ রয়েছে: 1) এটি অন্যান্য ভেরিয়েবলের পরামিতিগুলিকে প্রভাবিত করে। 2) এটি ছোট যে সত্য তা চিকিত্সাগতভাবে নিজের মধ্যে আকর্ষণীয়

প্রায় 1 টি দেখতে, আপনি মডেলটির পরিবর্তনশীল ছাড়াও কোনও মডেল থেকে প্রতিটি ব্যক্তির জন্য পূর্বাভাসিত মানগুলি দেখতে পারেন। আমি এই দুটি মানের স্কেটরপ্লট তৈরি করার পরামর্শ দিচ্ছি। যদি কোনও বড় পার্থক্য না থাকে, তবে এটি এই কারণের বিরুদ্ধে একটি যুক্তি

2 এর জন্য, সম্ভাব্য ভেরিয়েবলের তালিকায় কেন আপনার এই পরিবর্তনশীল ছিল তা ভেবে দেখুন। এটি কি তত্ত্ব ভিত্তিক? অন্যান্য গবেষণাগুলি কি কোনও বড় প্রভাবের আকার খুঁজে পেয়েছিল?


কথা বলার জন্য খুব সামান্য তাত্পর্য আছে, সুতরাং এই পরিবর্তনশীল অপসারণ অন্যদের মধ্যে খুব সামান্য পার্থক্য করে। এটি ক্লিনিকালি আকর্ষণীয় হওয়ার সম্পর্কে একটি আকর্ষণীয় বিষয় এটি যদি ছোট ছিল। তথ্যগুলি একটি অনুসন্ধানী জরিপ থেকে এসেছে যেখানে এই পর্যায়ে কমপক্ষে কোনও একটি পরিবর্তনশীল অন্যর চেয়ে বেশি গুরুত্বপূর্ণ হওয়ার আশা করার কোনও কারণ নেই। যাইহোক, এই পরিবর্তনশীলটিতে আন্তঃদিনের ওঠানামা রয়েছে, সুতরাং এর মুখোমুখি যদি কোনও প্রভাব এই ওঠানামার মতো আকারে একই রকম হয় তবে এটি আমার কাছে খুব চিকিত্সাগতভাবে তাত্পর্যপূর্ণ বলে মনে হয় না।
পি সেল্লাজ

ঠিক আছে, তবে এটি অপসারণের জন্য ভাল প্রার্থীর মতো মনে হচ্ছে।
পিটার ফ্লুম - মনিকা পুনরায়

@ পি সেল্লাজ - যদি "গবেষণামূলক জরিপ থেকে ডেটা আসে," এর অর্থ কি অংশগ্রহণকারীরা তাদের নির্বাচিত করেছেন? আমি @ ফ্র্যাঙ্ক হ্যারেলের মন্তব্যগুলিকে গণ্য করার মতো কিছু খুঁজে পেয়েছি তবে পি-মান, আত্মবিশ্বাসের ব্যবধান ইত্যাদির কঠোর নির্ভুলতার জন্য উদ্বেগটি উদ্বেগজনক হয়ে উঠেছে যদি নমুনাটি স্ব-নির্বাচিত হয়।
রোল্যান্ডো 2

আমি মনে করি আপনি কেবল সেগুলি ব্যবহার না করা হলে এটি কেবল আবদ্ধ হয়ে যায়।
ফ্রাঙ্ক হ্যারেল

@ ফ্র্যাঙ্কহ্যারেল - দয়া করে পরিষ্কার করুন: "তাদের" =?
রোল্যান্ডো

6

আজকাল সর্বাধিক সাধারণ পরামর্শ হ'ল দুটি মডেলের এআইসি পেতে এবং একটিকে নিম্ন এআইসির সাথে নেওয়া। সুতরাং, যদি আপনার পূর্ণ মডেলটির -20 এর AIC থাকে এবং দুর্বলতম ভবিষ্যদ্বাণী ছাড়াই মডেলটির AIC> -20 থাকে তবে আপনি সম্পূর্ণ মডেলটি রাখবেন। কিছু তর্ক করতে পারে যে পার্থক্য <3 ​​যদি আপনি সরল রাখেন। এআইসির একে অপরের 3 টির মধ্যে থাকা অবস্থায় আপনি "সম্পর্ক" ছিন্ন করতে বিআইসি ব্যবহার করতে পারেন এমন পরামর্শটি আমি পছন্দ করি।

আপনি আর তারপর পেতে কমান্ড ব্যবহার করেন, তাহলে এআইসি ... হয় AIC

নব্বইয়ের দশকের প্রথমদিকে মডেলিংয়ের কাছে আমার কাছে একটি পাঠ্যপুস্তক রয়েছে যাতে আপনি আপনার সমস্ত ভবিষ্যদ্বাণীকে বাদ দেন যা তাৎপর্যপূর্ণ নয়। যাইহোক, এর সত্যিকার অর্থে আপনি ভবিষ্যদ্বাণী মডেলটি থেকে জটিলতা বা যোগ বিয়োগ সম্পর্কে স্বতন্ত্র হবেন। এটি কেবল আনোভার জন্যই যেখানে অন্যান্য বিষয়গুলি ব্যাখ্যা করা হয়েছে তার আলোকে opeালের পরিমাণের পরিবর্তে তাত্পর্য সম্পর্কে তাত্পর্য ব্যাখ্যা করা হয়। এআইসি ব্যবহারের আরও আধুনিক পরামর্শগুলি এই বিষয়গুলিকে বিবেচনা করে। অপ্রত্যাশিত ভবিষ্যদ্বাণীকে তা উল্লেখযোগ্য না হলেও অন্তর্ভুক্ত করা উচিত এমন সমস্ত কারণ রয়েছে। উদাহরণস্বরূপ, অন্যান্য ভবিষ্যদ্বাণীকারীদের সাথে পারস্পরিক সম্পর্কের সমস্যা থাকতে পারে এটি তুলনামূলকভাবে সহজ ভবিষ্যদ্বানী হতে পারে। আপনি যদি সহজ পরামর্শ চান তবে এআইসির সাথে যান এবং বিআইসি ব্যবহার করে সম্পর্ক ছিন্ন করতে এবং আপনার সাম্যের উইন্ডো হিসাবে 3 এর পার্থক্যটি ব্যবহার করুন।


আর উপস্থাপনায় ছোটটি আরও ভাল, হ্যাঁ?
অ্যারন - মনিকা পুনরায় ইনস্টল করুন

আপনার উত্তর দেওয়ার জন্য ধন্যবাদ. আমি দেখতে পেলাম যে দুটি মডেলের মধ্যে এআইসির পার্থক্য মাত্র 2
পি সেল্লাজ

ছোট মডেলের কিছুটা বড় এআইসি এবং বিআইসিসিআইসি রয়েছে: বড়-ছোট এআইসি = -2 বিআইসি: বড়-ছোট বিআইসি- 7.8
পি সেল্লাজ

হারুন .. উফ ... নিম্ন, স্থির ...
জন

1
কেবল কিছু পরিষ্কার করার জন্য, এই অতিরিক্ত শব্দটি অন্য একটি কোভারিয়েট, এবং খুব সামান্য মিল রয়েছে।
পি সেল্লাজ

4

আপনি এই মডেলটি কীসের জন্য ব্যবহার করছেন? পার্সিমনি কি গুরুত্বপূর্ণ লক্ষ্য?

কিছু পরিস্থিতিতে বেশি পার্সিমোনিয়াস মডেল পছন্দ করা হয় তবে আমি বলব না যে পার্সিমনি নিজেই ভাল জিনিস। পার্সিমনিয়াস মডেলগুলি আরও সহজে বোঝা ও যোগাযোগ করা যায় এবং পার্সিমনি অতিরিক্ত ওষুধ থেকে রক্ষা করতে সহায়তা করতে পারে তবে প্রায়শই এই বিষয়গুলি বড় উদ্বেগের বিষয় নয় বা অন্য কোনওভাবে সমাধান করা যেতে পারে।

বিপত্তি সমীকরণে অতিরিক্ত শব্দ সহ বিপরীত দিক থেকে পৌঁছনোর কিছু সুবিধা রয়েছে এমনকি এমন পরিস্থিতিতেও যেখানে অতিরিক্ত শব্দটি নিজের আগ্রহের নয় এবং এটি মডেলের খুব বেশি ফিট করে না ... আপনি এটি ভাবেন না যে এটি এটি নিয়ন্ত্রণের জন্য একটি গুরুত্বপূর্ণ পরিবর্তনশীল, তবে অন্যরাও হতে পারে। অবশ্যই, ভেরিয়েবলটি বাদ দেওয়ার জন্য অন্যান্য খুব গুরুত্বপূর্ণ গুরুত্বপূর্ণ কারণ রয়েছে, উদাহরণস্বরূপ এটি ফলাফলের কারণে ঘটতে পারে।


3

আপনার শব্দটি থেকে মনে হচ্ছে আপনি শেষ ভবিষ্যদ্বাণীকে ফেলে দেওয়ার দিকে ঝুঁকছেন কারণ এর ভবিষ্যদ্বাণীমূলক মান কম; ভবিষ্যদ্বাণীকের উপর যথেষ্ট পরিবর্তন প্রতিক্রিয়াশীল ভেরিয়েবলের উপর যথেষ্ট পরিবর্তনকে বোঝায় না। যদি এটি হয় তবে ভবিষ্যদ্বাণীকে অন্তর্ভুক্ত / বাদ দেওয়ার জন্য আমি এই মানদণ্ডটি পছন্দ করি। এটি এআইসি বা বিআইসি হতে পারে তার চেয়ে বাস্তব বাস্তবতার ভিত্তিতে এবং এই গবেষণার জন্য আপনার দর্শকদের কাছে আরও ব্যাখ্যাযোগ্য।


হ্যাঁ, এটাই আমি বলতে চাইছিলাম meant
পি সেল্লাজ
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.