কেউ কেন লিনিয়ার রিগ্রেশন এ ইন্টারসেপ্টকে দমন করবে?


20

এসএএস, এসপিএসএস এবং আরও অনেকগুলি সহ বেশ কয়েকটি পরিসংখ্যান প্যাকেজগুলিতে "ইন্টারসেপ্টটি দমন করার" বিকল্প রয়েছে। আপনি এটি কেন করতে চান?

উত্তর:


16

কোনো কারণে যদি আপনি জানেন পথিমধ্যে (বিশেষত শূন্য হলে), আপনি কিছু আপনি ইতিমধ্যে জানেন আনুমানিক হিসাব জন্য আপনার তথ্য ভ্যারিয়েন্স নষ্ট এড়াতে, এবং মান আপনি আরও আস্থা রাখতে পারি না অনুমান করার আছে।

কিছুটা ওভারসিম্প্লিফাইফাইড উদাহরণ হ'ল যদি আপনি ইতিমধ্যে (ডোমেন জ্ঞান থেকে) জানেন যে একটি ভেরিয়েবল (গড়ে) অন্যের একাধিক এবং আপনি সেই একাধিকটি সন্ধান করার চেষ্টা করছেন।


আমি এটি পুরোপুরি বুঝতে পারি না, তবে আমি একটি মডেলটিতে আরে তৈরি করছি, আমার কাছে lm এর মতো কিছু রয়েছে (a ~ b / c - 1) যা খ এবং সি এর মধ্যে মিথস্ক্রিয়া তৈরি করে এবং ইন্টারসেপ্টকে দমন করে ("- 1") আর) এ, আমি আরও সহজে-ব্যাখ্যাযোগ্য উত্তর পাই যা মূলত একইরূপে হয় আমি যদি ইন্টারসেপটি চাপা করি না। একরকম, মিথস্ক্রিয়া এটি সম্ভব করে তোলে।
ওয়েইন

আরও সহজে ব্যাখ্যাযোগ্য উত্তর যা মূলত একই? এটি একটি বৈপরীত্য বলে মনে হয়। সম্ভবত আপনি এটি একটি নতুন প্রশ্ন হিসাবে পরিচয় করিয়ে দেওয়া উচিত?
নিক সাব্বে

যদি আমি সহগের দিকে নজর রাখি, ইন্টারসেপ্টের সাথে একটি (ইন্টারসেপ্ট) এবং একটি টেম্পওয়ারার (আমার ভেরিয়েবলগুলির মধ্যে একটি হল টেম্প যা গরম বা শীতল হতে পারে )। সহগের ব্যাখ্যা দেওয়ার জন্য, আমাকে জানতে হবে (ইন্টারসেপ্ট) টেম্পকুলারের সাথে সরাসরি মিলিত হয় এবং টেম্পওয়ারার + (ইন্টারসেপ্ট) হ'ল সরাসরি ব্যাখ্যাযোগ্য টেম্পওয়ারার । আমি যদি ইন্টারসেপ্টটি দমন করি তবে আমি সরাসরি টেম্পকুলার এবং টেম্পওয়ারার দেখি । সম্ভবত আর এর সূত্র এবং রৈখিক মডেলিংয়ের একটি কোচ, কিন্তু ...
ওয়েন

12

একটি 3-স্তরের শ্রেণিবদ্ধ কোভেরিয়াটের ক্ষেত্রে বিবেচনা করুন। যদি কারও কাছে একটি বাধা থাকে তবে এর জন্য 2 সূচক ভেরিয়েবলের প্রয়োজন হবে। সূচক ভেরিয়েবলের জন্য সাধারণ কোডিং ব্যবহার করে, উভয় সূচক ভেরিয়েবলের সহগ হ'ল রেফারেন্স গ্রুপের তুলনায় গড় পার্থক্য। ইন্টারসেপটাকে চাপা দিয়ে, আপনার কাছে কেবল ২ এর পরিবর্তে শ্রেণিবদ্ধ কোভারিয়েট উপস্থাপন করার জন্য 3 টি ভেরিয়েবল থাকবে A একটি গুণের পরে সেই গোষ্ঠীর গড় অনুমান হয়। এটি কোথায় করা উচিত তার আরও দৃ concrete় উদাহরণ হ'ল রাষ্ট্রবিজ্ঞানে যেখানে কেউ যুক্তরাষ্ট্রের 50 টি রাজ্য অধ্যয়ন করতে পারে। রাজ্যগুলির জন্য একটি বিরতি এবং 49 সূচক ভেরিয়েবলের পরিবর্তে, বিরতিটি দমন করা প্রায়শই ভাল এবং পরিবর্তে 50 ভেরিয়েবল থাকে।


সেইভাবে সহগের ব্যাখ্যা করা অনেক সহজ
সম্ভাব্যতা

1
হ্যাঁ, তবে এটি দুটি বা আরও শ্রেণীবদ্ধ ভেরিয়েবলের সাথে ভেঙে যায়!
কেজেটিল বি হালওয়ারসেন

2

একটি নির্দিষ্ট উদাহরণ সহ @ নিক সাবারের বক্তব্যটি বর্ণনা করার জন্য।

আমি একবার এক গবেষককে দেখতে পেলাম যে একটি গাছের প্রস্থের আকার হিসাবে এটি একটি বয়সের বয়সের একটি মডেল উপস্থাপন করবে। ধারণা করা যেতে পারে যে গাছটি যখন শূন্য বয়সে থাকে তখন কার্যকরভাবে এর প্রস্থ শূন্য হয়। সুতরাং, একটি বিরতি প্রয়োজন হয় না।


8
এর জ্ঞান বা অভাব নির্ভরতার সুদের নির্ভরশীলতার পরিসীমাটির উপর নির্ভর করে। আপনার গতি এবং দূরত্ব বন্ধ করার জায়গায় গাড়ি ব্রেকিং ডেটা বিবেচনা করুন। আপনি বা বিরতি ছাড়াই একটি চতুষ্কোণ মডেল ফিট করতে পারে। আগ্রহের গতি সাধারণত প্রায় 50 কিলোমিটার / ঘন্টা শুরু হয় এবং বলুন, 130 কিমি / ঘন্টা। এক্ষেত্রে ইন্টারসেপ্টের সাথে একটি চতুর্ভুজ ফিট করা আরও অর্থবোধ তৈরি করে, আমি মনে করি, শূন্যের জন্য বাধা দেওয়ার কারণে (ব্যবহারিকভাবে) উল্লেখযোগ্য অভাব-সংক্রান্ত সমস্যা হতে পারে। থামানো গাড়ির "ব্রেকিং দূরত্ব" শূন্য হ'ল মডেলিংয়ের সমস্যাটি হাতে পাওয়ার ক্ষেত্রে বিশেষভাবে প্রাসঙ্গিক নয়।
কার্ডিনাল

@ কার্ডিনাল হ্যাঁ আমি ভাবছিলাম যে আমারও অনুরূপ পয়েন্ট করা উচিত। আমি কিছু ননলাইনার রিগ্রেশন মডেলিং প্রসঙ্গে খুঁজে পেয়েছি এমন একটি মডেল থাকার ক্ষেত্রে আরও আগ্রহ রয়েছে যা একটি তাত্ত্বিকভাবে প্রশংসনীয় মডেল সরবরাহ করে যা ডেটার সীমার বাইরে সঠিকভাবে পূর্বাভাস দেয় (উদাহরণস্বরূপ, বক্ররের ডেটা গতি শেখার ক্ষেত্রে, মডেলগুলি 0 সেকেন্ডের নীচে গতি পূর্বাভাস না দেয়) )। এই জাতীয় ক্ষেত্রে শূন্যের জন্য একটি বাধা রোধ করা আরও উপযুক্ত হতে পারে এমনকি যদি এটি ডেটাটির জন্য পূর্বাভাসের পরিমাণ বাদ দেয় in
জেরোমি অ্যাংলিম 23'11

@ কার্ডিনালাল আমি সম্মত পোলিওনোমিয়াল মডেলগুলি খুব কমই ডেটাগুলির সীমার বাইরে বোধগম্যভাবে পূর্বাভাস দেয় এবং এই জাতীয় মডেলগুলিতে 0 টির মধ্যে ইন্টারসেপ্টকে সীমাবদ্ধ করা খুব কমই ভাল ধারণা।
জেরোমি অ্যাংলিম 23'11

তোমার মন্তব্যের জন্য ধন্যবাদ. আমার মন্তব্যটি বহুপদী মডেলগুলিকে লক্ষ্য করে এতটা ছিল না। চতুর্ভুজটির পছন্দটি কেবল আসল শারীরিক প্রেরণার (অর্থাৎ, শাস্ত্রীয় যান্ত্রিক) উপর ভিত্তি করে ছিল। আমি যে বক্তব্যটি স্পষ্ট করে বলার চেষ্টা করছিলাম সেটি হ'ল মনোযোগের মডেলিংয়ের সমস্যাটি মনোযোগ সহকারে বিবেচনা করা উচিত; কখনও কখনও এমন কিছু করা যা (বা মনে হয়) "তাত্ত্বিকভাবে ন্যায়বিচারহীন" আসলে পরিসংখ্যানগতভাবে আরও উপযুক্ত।
কার্ডিনাল
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.