কখন আপনি কোনও রিগ্রেশন মডেল নির্দিষ্ট করতে ডেটা-ভিত্তিক মানদণ্ড ব্যবহার করতে পারেন?


20

আমি শুনেছি যখন অনেক রিগ্রেশন মডেলের স্পেসিফিকেশনগুলি (ওএলএস-তে বলা হয়) একটি ডেটাসেটের জন্য সম্ভাবনা হিসাবে বিবেচিত হয়, এটি একাধিক তুলনামূলক সমস্যা সৃষ্টি করে এবং পি-মান এবং আত্মবিশ্বাসের ব্যবধানগুলি আর নির্ভরযোগ্য হয় না। এর একটি চূড়ান্ত উদাহরণ হ'ল ধাপে ধাপে রিগ্রেশন।

মডেলটি নির্দিষ্ট করতে যখন আমি নিজেই ডেটা ব্যবহার করতে পারি এবং কখন এটি একটি বৈধ পদ্ধতির নয়? মডেলটি তৈরি করতে আপনার কি সর্বদা সাবজেক্ট-ব্যাস-ভিত্তিক তত্ত্ব থাকা দরকার?

উত্তর:


9

পরিবর্তনশীল নির্বাচনের কৌশলগুলি (সাধারণত ধাপে ধাপে, পিছিয়ে, ফরোয়ার্ড, সমস্ত উপগ্রহ, এআইসিসি ইত্যাদি), জনসংখ্যার অস্তিত্ব না থাকা নমুনা তথ্যের মধ্যে সুযোগ বা এলোমেলো নিদর্শনগুলি পুঁজি করে তোলে। এর জন্য প্রযুক্তিগত শব্দটি অত্যধিক ফিটনেসযুক্ত এবং এটি বিশেষত ছোট ডেটাসেটগুলির ক্ষেত্রে সমস্যাযুক্ত, যদিও এটি তাদের একচেটিয়া নয়। সেরা ফিটের উপর ভিত্তি করে ভেরিয়েবলগুলি নির্বাচন করে এমন একটি প্রক্রিয়া ব্যবহার করে, এই নির্দিষ্ট নমুনায় ফিট লাগার মতো এলোমেলো পরিবর্তনের সমস্তই অনুমান এবং মান ত্রুটিতে অবদান রাখে। এটি মডেলটির ভবিষ্যদ্বাণী এবং ব্যাখ্যা উভয়ের জন্যই সমস্যা ।

বিশেষত, আর-স্কোয়ারটি খুব বেশি এবং প্যারামিটারের অনুমানগুলি পক্ষপাতদুষ্ট হয় (তারা 0 থেকে খুব বেশি দূরে থাকে), পরামিতিগুলির জন্য মান ত্রুটিগুলি খুব ছোট (এবং এইভাবে প্যারামিটারগুলির চারপাশে পি-মানগুলি এবং বিরতিগুলি খুব ছোট / সংকীর্ণ হয়)।

এই সমস্যার বিরুদ্ধে প্রতিরক্ষার সেরা লাইনটি হ'ল মডেলগুলি চিন্তিতভাবে তৈরি করা এবং ভবিষ্যদ্বাণীদের অন্তর্ভুক্ত করা যা তত্ত্ব, যুক্তি এবং পূর্ববর্তী জ্ঞানের উপর ভিত্তি করে জ্ঞান তৈরি করে। যদি কোনও পরিবর্তনশীল নির্বাচনের পদ্ধতিটি প্রয়োজনীয় হয়, আপনার পরামিতি এবং স্ট্যান্ডার্ড ত্রুটিগুলি অতিরিক্ত-ফিট করার জন্য সমন্বয় করে প্যারামিটারের অনুমানকে (সঙ্কুচিত পদ্ধতিগুলি) দন্ডিত করে এমন একটি পদ্ধতি নির্বাচন করা উচিত। কয়েকটি সাধারণ সঙ্কুচিত পদ্ধতি হ'ল রিজ রিগ্রেশন, ন্যূনতম অ্যাঙ্গেল রিগ্রেশন বা লাসো। এছাড়াও, ট্রেনিং ডেটাসেট এবং একটি পরীক্ষা ডেটাসেট বা মডেল-গড় ব্যবহার করে ক্রস-বৈধকরণ ওভার-ফিটিংয়ের প্রভাবগুলি পরীক্ষা করতে বা হ্রাস করতে দরকারী হতে পারে।

এই সমস্যাগুলির বিস্তারিত আলোচনার জন্য হ্যারেল একটি দুর্দান্ত উত্স। হ্যারেল (2001) "রিগ্রেশন মডেলিং কৌশলগুলি" "


গ্রহণ করছেন, অনেক পরে! প্রযুক্তিগত সমস্যাগুলির এই বিশদ পর্যালোচনার জন্য ধন্যবাদ, এবং আমি হ্যারেলের বইটি একবার দেখব।
পরিসংখ্যান

7

আমি যে সামাজিক বিজ্ঞানের প্রসঙ্গে এসেছি তাতে বিষয়টি হ'ল আপনি (ক) ভবিষ্যদ্বাণীতে আগ্রহী কিনা বা (খ) একটি কেন্দ্রীভূত গবেষণা প্রশ্ন পরীক্ষা করার চেষ্টা করছেন। যদি উদ্দেশ্যটি পূর্বাভাস হয় তবে ডেটাচালিত পদ্ধতিগুলি উপযুক্ত। যদি উদ্দেশ্যটি কোনও কেন্দ্রীভূত গবেষণা প্রশ্ন পরীক্ষা করা হয় তবে কোন রিগ্রেশন মডেলটি আপনার প্রশ্নকে বিশেষভাবে পরীক্ষা করে তা বিবেচনা করা গুরুত্বপূর্ণ।

উদাহরণস্বরূপ, যদি আপনার কাজটি কাজের পারফরম্যান্সের পূর্বাভাস দেওয়ার জন্য বাছাই পরীক্ষার একটি সেট বাছাই করা হত, লক্ষ্যটি কিছুটা অর্থে চাকরির পারফরম্যান্সের সর্বাধিক পূর্বাভাস হিসাবে দেখা যেতে পারে। সুতরাং, ডেটা চালিত পন্থাগুলি কার্যকর হবে।

বিপরীতে যদি আপনি পার্সোনালিটি ভেরিয়েবল এবং পারফরম্যান্সকে প্রভাবিত করার ক্ষেত্রে দক্ষতার পরিবর্তনশীলগুলির আপেক্ষিক ভূমিকা বুঝতে চান, তবে একটি নির্দিষ্ট মডেল তুলনা পদ্ধতির পক্ষে আরও উপযুক্ত হতে পারে।

সাধারণত কেন্দ্রীভূত গবেষণা প্রশ্নগুলি অন্বেষণ করার সময় লক্ষ্যটি হ'ল সর্বোত্তম ভবিষ্যদ্বাণী সহ একটি মডেল বিকাশের বিরোধী হিসাবে কাজ করে এমন অন্তর্নিহিত কার্যকারণ প্রক্রিয়াগুলি সম্পর্কে কিছু বর্ণনা করা।

আমি যখন ক্রস-বিভাগীয় ডেটার ভিত্তিতে প্রক্রিয়া সম্পর্কে মডেলগুলি বিকাশের প্রক্রিয়ায় থাকি তখন আমি এই বিষয়ে সতর্ক থাকতাম: (ক) ভবিষ্যদ্বাণীগুলি সহ যা তাত্ত্বিকভাবে ফলাফলের পরিবর্তনশীল হিসাবে পরিণতি হিসাবে বিবেচিত হতে পারে including উদাহরণস্বরূপ, একজন ব্যক্তির বিশ্বাস যে তারা একটি ভাল পারফরমার হ'ল চাকরির পারফরম্যান্সের একটি ভাল ভবিষ্যদ্বাণী, তবে সম্ভবত তারা নিজের কার্যকারিতা পর্যবেক্ষণ করেছেন এমন কারণে এটি কমপক্ষে আংশিকভাবে ঘটেছে। (খ) বিপুল সংখ্যক ভবিষ্যদ্বাণীকে অন্তর্ভুক্ত যা সমস্ত একই অন্তর্নিহিত ঘটনার প্রতিচ্ছবি। উদাহরণস্বরূপ, 20 টি আইটেম সহ সমস্ত উপায়ে জীবনের সাথে সন্তুষ্টি পরিমাপ করে।

সুতরাং, কেন্দ্রীভূত গবেষণা প্রশ্নগুলি ডোমেন নির্দিষ্ট জ্ঞানের উপর অনেক বেশি নির্ভর করে। এটি সম্ভবত এই ব্যাখ্যা দেওয়ার কিছু উপায় নিয়ে চলেছে যে সামাজিক বিজ্ঞানগুলিতে ডেটাচালিত পদ্ধতিগুলি কেন কম ব্যবহৃত হয়।


4

আমি মনে করি না যে রিগ্রেশনে পরিবর্তনশীল নির্বাচনের জন্য বোনফেরনি বা অনুরূপ সংশোধন করা সম্ভব হবে কারণ মডেল নির্বাচনের সাথে জড়িত সমস্ত পরীক্ষা এবং পদক্ষেপগুলি স্বাধীন নয়।

একটি পদ্ধতি হ'ল এক সেট ডেটা ব্যবহার করে মডেল তৈরি করা এবং ডেটাগুলির একটি পৃথক সেটকে অনুমান করা। আমাদের প্রশিক্ষণের সেট এবং পরীক্ষার সেট রয়েছে এমন সমস্ত সময় পূর্বাভাসের ক্ষেত্রে এটি করা হয়। অন্যান্য ক্ষেত্রগুলিতে এটি খুব সাধারণ নয়, সম্ভবত ডেটা এত মূল্যবান যে আমরা মডেল নির্বাচন এবং অনুমানের জন্য প্রতিটি একক পর্যবেক্ষণ ব্যবহার করতে চাই। যাইহোক, আপনি আপনার প্রশ্নে নোট হিসাবে, খারাপ দিকটি হ'ল অনুমানটি আসলে বিভ্রান্তিকর।

অনেকগুলি পরিস্থিতি রয়েছে যেখানে কোনও তাত্ত্বিক-ভিত্তিক পদ্ধতি অসম্ভব কারণ কোনও উন্নত তত্ত্ব নেই। প্রকৃতপক্ষে, আমি মনে করি যে থিয়োরি একটি মডেলকে প্রস্তাব দেয় সেগুলির তুলনায় এটি অনেক বেশি সাধারণ।


4

রিচার্ড বার্কের একটি সাম্প্রতিক নিবন্ধ রয়েছে যেখানে তিনি এই জাতীয় ডেটা স্নোপিং এবং পরিসংখ্যানগত অনুক্রমের সমস্যাগুলি সিমুলেশনের মাধ্যমে দেখান। যেমন রব পরামর্শ দিয়েছে করেছে এটি একাধিক অনুমানের পরীক্ষার জন্য কেবল সংশোধন করার চেয়ে সমস্যাযুক্ত।

মডেল নির্বাচনের পরে পরিসংখ্যানিক অনুক্রম : রিচার্ড বার্ক, লরেন্স ব্রাউন, কোয়ান্টেটিভ ক্রিমিনোলজির লিন্ডা ঝাও জার্নাল, খণ্ড। 26, নং 2. (1 জুন 2010), পৃষ্ঠা 217-236।

পিডিএফ সংস্করণ এখানে


(+1) লিঙ্কটির জন্য ধন্যবাদ! আপনি এই সম্পর্কিত প্রশ্নে আগ্রহী হতে পারেন, stats.stackexchange.com/questions/3200/… । অবদান নির্দ্বিধায়।
chl

@ সিএইচএল, আমি মনে করি না যে আমি এই প্রশ্নের উত্তরে ইতিমধ্যে দুর্দান্ত উত্তরে কিছু যুক্ত করতে পারি। আমি প্রকৃতপক্ষে ব্রেন্ডনের প্রতিক্রিয়া অত্যন্ত মারাত্মক বলে মনে করি কারণ আমি সন্দেহ করি যে মূল পোস্টারটি কার্যত অনুমানের ভিত্তিতে প্রশ্নের প্রেক্ষাপটের উপর ভিত্তি করে সম্পূর্ণ ভবিষ্যদ্বাণী না করে সত্যই আগ্রহী।
অ্যান্ডি ডাব্লু

হ্যাঁ, আমি তার উত্তরটি নিয়ে ভাবছিলাম। আমি ডেটা ড্রেজিং ইস্যুতে প্রতিবিম্ব শুরু করেছি (মডেল / ভেরিয়েবল নির্বাচন সংক্রান্ত সমস্যা বা কার্যকারণ সূচনা সম্পর্কে ঠিক নয়) তবে এখন পর্যন্ত কয়েকটি প্রতিক্রিয়া পেয়েছি। আপনি যদি নিজের নিজস্ব ধারণাগুলি যুক্ত করতে চান তবে এটি আকর্ষণীয় হবে: stats.stackexchange.com/questions/3252/…
chl

2

যদি আমি আপনার প্রশ্নটি সঠিকভাবে বুঝতে পারি তবে আপনার সমস্যার উত্তরের চেয়ে অনুমানের সংখ্যা অনুসারে পি-মানগুলি সংশোধন করা।

উদাহরণস্বরূপ হলম-বনফেরোনি সংশোধন, যেখানে আপনি হাইপোথিসিসটি (= আপনার বিভিন্ন মডেলগুলি) তাদের পি-মান অনুসারে বাছাই করেন এবং এপি স্যামলারযুক্ত (প্রত্যাশিত পি-মান / সূচক) এর সাথে প্রত্যাখ্যান করেন।

বিষয়টি সম্পর্কে আরও উইকিপিডিয়ায় পাওয়া যাবে


1
আপনি একটি পৃথক প্রশ্নের এই উত্তরটি পড়তে চাইতে পারেন এবং দেখুন যে এই জাতীয় উপায়ে পি-মানগুলি সমন্বয় করা কেন সর্বোত্তম সমাধান হতে পারে না, stats.stackexchange.com/questions/3200/…
অ্যান্ডি ডব্লু
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.