যখন লিনিয়ার রিগ্রেশন মডেলটির ইন্টারসেপ্ট সরিয়ে ফেলা ঠিক হয়?


118

আমি লিনিয়ার রিগ্রেশন মডেলগুলি চালাচ্ছি এবং ভাবছি যে ইন্টারসেপ্ট শব্দটি সরানোর জন্য শর্তগুলি কী।

দুটি পৃথক প্রবণতা থেকে ফলাফলের তুলনা করার ক্ষেত্রে যেখানে একজনের বাধা রয়েছে এবং অন্যটি না করে, আমি লক্ষ্য করেছি যে বিরতি ছাড়াই ফাংশনের এর চেয়ে অনেক বেশি। ইন্টারসেপ্ট টার্ম অপসারণ বৈধ কিনা তা নিশ্চিত করার জন্য আমার কি কিছু শর্ত বা অনুমান অনুসরণ করা উচিত?R2


1
@ আমার প্রশ্ন সম্পাদনা করার জন্য ধন্যবাদ। ভবিষ্যতে যে কোনও প্রশ্নে আমার স্পষ্ট করা বা পুনর্নির্মাণ করা উচিত?
বিশ্লেষণপিয়ার্স

3
আপনার প্রশ্নটি ভালভাবে বর্ণিত হয়েছে। @ সিএইচএল দয়া করে কিছু ফর্ম্যাটিং উন্নত করেছেন, এগুলিই। এটি "আর ^ 2" টেক্সিফাইংয়ের সাথে জড়িত (এটি আর ^ 2 into রূপান্তরিত হয়েছিল , যা হিসাবে রেন্ডার করে )। $ আর 2$$R2
whuber

1
আপনার মডেলটিতে বাধা বলতে কী বোঝায়? আপনার প্রশ্নের তথ্য থেকে মনে হয় বর্গফুট = 0 এবং লটসাইট = 0 এবং স্নান = 0 হলে এটি আপনার প্রতিক্রিয়ার প্রত্যাশিত মান be বাস্তবে কি তা ঘটতে চলেছে?
timbp

1
Y = a + b1 x1 + b2 x2 + b3x3 এর পরিবর্তে, আমি কী বাদ দিতে পারি?
ট্র্যাভিস

3
এনবি : এই মন্তব্য এবং জবাবগুলির কিছু ঠিকানা মূলত একই প্রশ্ন (একটি আবাসন মূল্য সংবিধানের প্রসঙ্গে তৈরি করা হয়েছে) যা এইটিকে সদৃশ হিসাবে একত্রিত করা হয়েছিল।
শুক্র

উত্তর:


87

সবচেয়ে কম উত্তর: না , যদি না আপনি হয় নিশ্চিত যে ডেটা উৎপাদিত প্রক্রিয়া (রৈখিক রিগ্রেশনের মডেল) পারেন কিছু তাত্ত্বিক বা অন্য কোন কারণে দ্বারা আপনার রৈখিক পড়তা উৎপত্তি মধ্য দিয়ে যেতে বাধ্য হয় । অন্য রিগ্রেশন প্যারামিটারগুলি যদি না হয় তবে পক্ষপাতিত্ব করা হবে এমনকি যদি ইন্টারসেপ্টটি পরিসংখ্যানগত দিক থেকে তুচ্ছ (অদ্ভুত তবে এটি তাই, উদাহরণস্বরূপ ব্রুকস সূচনা একনোমেট্রিক্সের সাথে পরামর্শ করুন )। অবশেষে, আমি প্রায়শই আমার শিক্ষার্থীদের কাছে ব্যাখ্যা হিসাবে বলছি, ইন্টারসেপ্ট শব্দটি রেখে আপনি নিশ্চয়তা দিন যে অবশিষ্ট বাক্যটি শূন্য-গড় mean

আপনার দুটি মডেলের ক্ষেত্রে আমাদের আরও প্রসঙ্গের প্রয়োজন। এটি ঘটতে পারে যে লিনিয়ার মডেলটি এখানে উপযুক্ত নয়। উদাহরণস্বরূপ, মডেলটি গুণক হলে আপনাকে প্রথমে রূপান্তর লগ করতে হবে। তাত্পর্যপূর্ণ ক্রমবর্ধমান প্রক্রিয়াগুলি হ'ল এটি মাঝে মাঝে ঘটতে পারে যে কোনও বাধা ছাড়াই মডেলটির জন্য "বেশি" উচ্চতর হয়।R2

ডেটা স্ক্রিন করুন, RESET পরীক্ষা বা অন্য কোনও লিনিয়ার স্পেসিফিকেশন পরীক্ষা দিয়ে মডেলটি পরীক্ষা করুন, এটি আমার অনুমান সত্য কিনা তা দেখতে সহায়তা করতে পারে। এবং, মডেলগুলি সর্বাধিক building করা সর্বশেষ পরিসংখ্যানগত বৈশিষ্ট্যগুলির মধ্যে একটি যা আমি সত্যই উদ্বেগ প্রকাশ করি, তবে একনোমেট্রিক্সের সাথে এতটা পরিচিত নন এমন লোকদের কাছে উপস্থাপন করা ভাল লাগবে (দৃ determination়সংকল্পকে দৃ make় করার জন্য অনেকগুলি নোংরা কৌশল রয়েছে) 1 :))।R2


3
"কখনই নয়" এর জন্য -1, জোশুয়ার জবাবের উদাহরণ 1 দেখুন
কৌতূহলী

4
@ উদ্বোধনী, "কখনই" দিয়ে "কখনই" লেখা হয় নি নীচে উদাহরণগুলি কেবলমাত্র ব্যতিক্রমগুলি দেখায় যখন ইন্টারসেপ অপসারণ করার আইনী হয়। আপনি যখন ডেটা তৈরির প্রক্রিয়া বা তত্ত্বটি জানেন না, বা মানককরণ বা অন্য কোনও বিশেষ মডেল দ্বারা উত্সটির দিকে যেতে বাধ্য হন না, তখন এটি রাখুন। রেকর্ডিং অনুমানকরণ এবং অন্যান্য সরলিকরণের কারণে সৃষ্ট সমস্ত বিকৃতি সংগ্রহ করার জন্য ট্রান্সট বিন ব্যবহার করার মতো বিরতি রাখা Keep পিএস বাস্তবিকভাবে প্রতিক্রিয়া দেখায় যে আপনি কেবলমাত্র সবচেয়ে কম পড়েছেন :) বর্ধিত উদাহরণগুলির জন্য জোশুয়া (+1) কে অনেক ধন্যবাদ।
দিমিত্রিজ সেলভ

3
আপনি জোশুয়া উদাহরণ 1 এর বিন্দুটি মিস করেছেন এবং এখনও এটিকে সম্পূর্ণ উপেক্ষা করবেন বলে মনে হয়। শ্রেণীবদ্ধ কোরিয়ারেটযুক্ত মডেলগুলিতে কেবলমাত্র পৃথক প্যারামিট্রাইজেশন সহ একই মডেলের ইন্টারসেপ্ট ফলাফলগুলি অপসারণ করা হয়। এটি একটি বৈধ ক্ষেত্রে যখন ইন্টারসেপটি সরানো যায়।
কৌতূহলী

2
@ করিয়াস, জোশুয়া উদাহরণ ১-এ, আপনাকে পূর্বে বেসলাইন হিসাবে বিবেচিত শ্রেণিবদ্ধ ভেরিয়েবলের স্তরের জন্য একটি নতুন ডামি ভেরিয়েবল যুক্ত করতে হবে এবং এই নতুন ডামি ভেরিয়েবলটি ইন্টারসেপ্টের মান নেবে, সুতরাং আপনি বাধাটি সরিয়ে দিচ্ছেন না, কেবল এটির পুনঃনামকরণ এবং শ্রেণিবদ্ধ কোভেরিয়েটের বাকি প্যারামিটারগুলির পুনঃনির্মাণ করা। সুতরাং দিমিত্রিজের যুক্তি ধারণ করে।
রুফো

59

ইন্টারসেপ্ট অপসারণ করা একটি ভিন্ন মডেল, তবে প্রচুর উদাহরণ রয়েছে যেখানে এটি বৈধ। উত্তরগুলি এখনও পর্যন্ত উদাহরণটিতে বিশদ আলোচনা করেছে যেখানে সত্যিকারের ইন্টারসেপেশন 0 হয়। আমি কয়েকটি উদাহরণের দিকে মনোনিবেশ করব যেখানে আমরা একটি অ্যাটপিকাল মডেল প্যারামাইট্রাইজেশনে আগ্রহী হতে পারি।

উদাহরণ 1: আনোভা-শৈলীর মডেল। শ্রেণিবদ্ধ ভেরিয়েবলের জন্য, আমরা সাধারণত গ্রুপ সদস্যতা এনকোডিং বাইনারি ভেক্টর তৈরি। স্ট্যান্ডার্ড রিগ্রেশন মডেলটি ইন্টারসেপ্ট + কে - 1 ডামি ভেক্টর হিসাবে প্যারামিট্রাইজড। ইন্টারসেপ্ট "রেফারেন্স" গোষ্ঠী, বা বাদ দেওয়া ভেক্টর, এবং অবশিষ্ট ভেক্টরগুলির জন্য প্রত্যাশিত মানটিকে প্রতিটি গ্রুপ এবং রেফারেন্সের মধ্যে পার্থক্য পরীক্ষা করে codes তবে কিছু ক্ষেত্রে, প্রতিটি গ্রুপের প্রত্যাশিত মান রাখা কার্যকর হতে পারে।

dat <- mtcars
dat$vs <- factor(dat$vs)

## intercept model: vs coefficient becomes difference
lm(mpg ~ vs + hp, data = dat)

Coefficients:
(Intercept)          vs1           hp  
   26.96300      2.57622     -0.05453  

## no intercept: two vs coefficients, conditional expectations for both groups
lm(mpg ~ 0 + vs + hp, data = dat)

Coefficients:
     vs0       vs1        hp  
26.96300  29.53922  -0.05453  

উদাহরণ 2: প্রমিত তথ্যের ক্ষেত্রে। কিছু ক্ষেত্রে, কেউ মানকযুক্ত ডেটা নিয়ে কাজ করতে পারে। এই ক্ষেত্রে, নকশা দ্বারা ইন্টারসেপ্ট 0 হয়। আমি মনে করি এটির একটি সর্বোত্তম উদাহরণটি ছিল পুরানো শৈলীর কাঠামোগত সমীকরণ মডেল বা ফ্যাক্টর, যা কেবলমাত্র ডেভেলপার্সের ম্যাট্রিক্সে পরিচালিত হয়েছিল। নীচের ক্ষেত্রে, যেভাবেই হোক না কেন কেবলমাত্র অতিরিক্ত ডিগ্রি স্বাধীনতা (যা আপনার সত্যিকার অর্থে নির্ধারিত হয়েছিল বলেই হারাতে হবে) ছেড়ে দেওয়ার জন্য, তবে কোনওভাবেই বাধা নিরূপণ করা সম্ভবত একটি ভাল ধারণা, তবে বেশ কয়েকটি পরিস্থিতিতে রয়েছে যেখানে নির্মাণ, অর্থ 0 হতে পারে (উদাঃ, নির্দিষ্ট পরীক্ষা-নিরীক্ষা যেখানে অংশগ্রহণকারীরা রেটিং নির্ধারণ করে তবে সমান ধনাত্মকতা এবং outণাত্মক ধারণা দিতে বাধা হয়)।

dat <- as.data.frame(scale(mtcars))

## intercept is 0 by design
lm(mpg ~ hp + wt, data = dat)

Coefficients:
(Intercept)           hp           wt  
  3.813e-17   -3.615e-01   -6.296e-01  

## leaving the intercept out    
lm(mpg ~ 0 + hp + wt, data = dat)

Coefficients:
     hp       wt  
-0.3615  -0.6296  

উদাহরণ 3: মাল্টিভারিয়েট মডেল এবং লুকানো ইন্টারসেপ্টস। এই উদাহরণটি বিভিন্ন দিক থেকে প্রথমটির সাথে সমান। এই ক্ষেত্রে, ডেটা স্ট্যাক করা হয়েছে যাতে দুটি পৃথক ভেরিয়েবল এখন একটি দীর্ঘ ভেক্টরে থাকে। প্রতিক্রিয়া ভেক্টর y, এর অন্তর্গত mpgবা এর সম্পর্কিত কিনা সে সম্পর্কে একটি দ্বিতীয় পরিবর্তনশীল এনকোড তথ্য disp। এই ক্ষেত্রে, প্রতিটি ফলাফলের জন্য পৃথক ইন্টারসেপ্টগুলি পেতে, আপনি সামগ্রিক ইন্টারসেপ্টটি দমন করেন এবং পরিমাপের জন্য উভয় ডামি ভেক্টরকে অন্তর্ভুক্ত করেন। এটি এক ধরণের বহুবিশ্লেষ বিশ্লেষণ। এটি সাধারণত ব্যবহার করে করা হয় নাlm()কারণ আপনার বারবার ব্যবস্থা রয়েছে এবং সম্ভবত অযৌক্তিকতার জন্য অনুমতি দেওয়া উচিত। তবে কিছু আকর্ষণীয় ঘটনা রয়েছে যেখানে এটি প্রয়োজনীয়। উদাহরণস্বরূপ, এলোমেলো প্রভাবগুলির সাথে মধ্যস্থতা বিশ্লেষণ করার চেষ্টা করার সময়, সম্পূর্ণ বৈকল্পিক কোভারিয়েন্স ম্যাট্রিক্স পাওয়ার জন্য আপনার একই সাথে আনুমানিক উভয় মডেল প্রয়োজন, যা ডেটা স্ট্যাক করে এবং ডমি ভেক্টরগুলির কিছু চতুর ব্যবহারের মাধ্যমে করা যেতে পারে।

## stack data for multivariate analysis
dat <- reshape(mtcars, varying = c(1, 3), v.names = "y",
  timevar = "measure", times = c("mpg", "disp"), direction = "long")
dat$measure <- factor(dat$measure)

## two regressions with intercepts only
lm(cbind(mpg, disp) ~ 1, data = mtcars)

Coefficients:
             mpg     disp  
(Intercept)   20.09  230.72

## using the stacked data, measure is difference between outcome means
lm(y ~ measure, data = dat)

Coefficients:
(Intercept)   measurempg  
      230.7       -210.6  

## separate 'intercept' for each outcome
lm(y ~ 0 + measure, data = dat)

Coefficients:
measuredisp   measurempg  
     230.72        20.09  

আমি যুক্তি দিচ্ছি না যে ইন্টারসেপ্টগুলি সাধারণত সরানো উচিত, তবে নমনীয় হওয়া ভাল good


7
+1 টি। আমি লোককে কঠোরভাবে 'কখনই না' বলার জন্য নিই না, তবে অন্য দৃষ্টিকোণটি পাওয়া সবসময়ই চমৎকার এবং এটি একটি খুব স্পষ্ট এবং চিন্তাশীল প্রতিক্রিয়া। সিভিতে স্বাগতম, আপনাকে সম্প্রদায়ের অংশ হিসাবে পেয়ে ভাল লাগবে।
গাং

3
@ গুং আপনাকে ধন্যবাদ, আপনি ঠিক বলেছেন। আমি আমার ভাষাগুলি উত্তোলনকারী এবং অপ্রয়োজনীয় বলে এই উত্তরটি সম্পাদনা করেছি।
জোশুয়া

1
@ জোশুয়া: দুঃখিত যে আমি প্রায় 2 বছরের পুরানো পোস্টে একটি প্রশ্ন জিজ্ঞাসা করছি, তবে আপনার প্রথম উদাহরণে কোনও উল্লেখ আছে? আমি আমার ডেটাতে নো-ইন্টারসেপ্ট মডেল চালানোর কথা ভাবছি যেখানে প্রেডিক্টর ভেরিয়েবলটি শ্রেণিবদ্ধ, এবং আমি জানতে আগ্রহী যে প্রতিটি স্তরটি 0 এর চেয়ে উল্লেখযোগ্য আলাদা কিনা ধন্যবাদ!
অ্যালেক্স

@ অ্যালেক্স যেকোন ভাল রিগ্রেশন পাঠ্য করা উচিত (আচরণবিজ্ঞানের তৃতীয় সংস্করণের জন্য প্রয়োগিত একাধিক রিগ্রেশন / সমঝোতা বিশ্লেষণের অধ্যায় 8। এটি কিছুটি অন্তর্ভুক্ত করে) --- আপনার কেবল বিপরীতে এবং কীভাবে ডামি কোড শ্রেণিবদ্ধ ভেরিয়েবলগুলি সম্পর্কে কথা বলা দরকার। এটি সম্পর্কে চিন্তা করার এক উপায় হ'ল আপনি বিরতি ছাড়াই বরং প্রতিটি গ্রুপের জন্য পৃথক ইন্টারসেপ্টের অনুমান করছেন।
জোশুয়া

@ জোশুয়া, আপনার প্রথম উদাহরণটি এই সাইটের অন্য কোথাও কিছু বিভ্রান্তি সৃষ্টি করেছে । এখানে আমার বোঝার বিষয়টি হ'ল আপনি পরামিতিটির অনুমানগুলি প্রদর্শন করার জন্য কোনও হস্তক্ষেপের পরামর্শ দিচ্ছেন যাতে বাধাটির জন্য মান যুক্ত না করে গণ্ডগোলের প্রয়োজন হয় না, এবং আপনি পরামর্শ দিচ্ছেন না যে স্বাভাবিক কোর্সটি আনোভা পরিচালনার জন্য মুছে যাওয়া ইন্টারসেপ্টের সাথে একটি মডেল ব্যবহার করা। আর-তে প্রায় প্রতিটি ক্ষেত্রেই কেউ oneতিহ্যবাহী অ্যানোভা পরিচালনা করতে একটি ইন্টারসেপ্ট সহ একটি মডেল ব্যবহার করবে।
সাল মঙ্গিয়াফিকো

29

এখানে ভাল উত্তর আছে। দুটি ছোট জিনিস:

  1. উচ্চতর যখন ইন্টারসেপ্টটি নামানো হয়, আপনার @ কার্ডিনাল দ্বারা এই দুর্দান্ত উত্তরটি পড়া উচিত । (সংক্ষেপে, পরিসংখ্যান সংক্রান্ত সফ্টওয়্যার কখনও কখনও জন্য পৃথক সংজ্ঞা ব্যবহার করে যখন ইন্টারসেপ্টটি 0 এ বাধ্য করা হয়। সুতরাং কোনও ইন্টারসেপস ছাড়াই এবং ছাড়া মডেলগুলির জন্য রিপোর্ট করা কেবল তুলনীয় হতে পারে না)) আর 2 আর 2R2R2R2
  2. বেশ কয়েকজন পয়েন্ট যে আপনি হওয়া উচিত করতে নির্দিষ্ট এটা ড্রপ সামনে পথিমধ্যে 0 হতে হবে (তাত্ত্বিক কারণে), এবং না শুধু এটা 'গুরুত্বপূর্ণ' নয়। আমি মনে করি এটি সঠিক, তবে এটি পুরো গল্প নয়। আপনার এটিও জানতে হবে যে আপনি যে এর সাথে কাজ করছেন তার পুরো পরিসীমা এবং সর্বনিম্ন 0 পর্যন্ত সঠিক তথ্য জেনারেশন ফাংশনটি সম্পূর্ণরূপে রৈখিক, মনে রাখবেন যে সর্বদা এটি সম্ভব যে ফাংশনটি আপনার ডেটার মধ্যে প্রায় লিনিয়ার, তবে আসলে সামান্য বাঁকানো এটি ফাংশনটি চিকিত্সা করা যেমন যুক্তিসঙ্গত হতে পারে তবে এটি আপনার পর্যবেক্ষণের সীমার মধ্যে লিনিয়ার ছিল, এমনকি যদি এটি পুরোপুরি না হয় তবে এটি যদি না হয় তবে 'Xএমনকি যদি সত্যিকারের বিরতি 0 হয়

2
@ অ্যাডামো এখানে # 2 এর সাথে অনুরূপ পয়েন্ট তৈরি করেছেন: ইতিবাচক রৈখিক প্রতিরোধের সহগ , তবে ধারণাটি আরও সম্পূর্ণ বিকাশ করে।
গাং

14

আপনি শূন্যের মানগুলি সহ সমস্ত বর্ণনামূলক ভেরিয়েবলগুলি কখনও দেখবেন না তা বিবেচনা না করেই আপনাকে বাধা দেওয়া উচিত নয়।

এখানে একটি খুব অনুরূপ প্রশ্নের ভাল উত্তর আছে

আপনি যদি ইন্টারসেপটি অপসারণ করেন তবে অন্যান্য অনুমানগুলি সমস্ত পক্ষপাতদুষ্ট হয়ে যায়। এমনকি যদি পথিমধ্যে প্রকৃত মান প্রায় শূন্য (যা সব আপনি আপনার ডেটা থেকে এই উপসংহারে পারে), আপনি ঢালে নিয়ে তালগোল পাকানো হয় যদি আপনি হতে এটা জোর ঠিক শূন্য।

নিরবচ্ছিন্ন - আপনি খুব স্পষ্ট এবং সুস্পষ্ট শারীরিক মডেল দিয়ে এমন কিছু পরিমাপ করছেন যা বাধা শূন্য হওয়ার দাবি করে (যেমন আপনার ব্যাখ্যামূলক ভেরিয়েবল হিসাবে আয়তক্ষেত্রাকার প্রস্থের দৈর্ঘ্য, প্রস্থ এবং দৈর্ঘ্য রয়েছে এবং প্রতিক্রিয়া ভেরিয়েবলটি কিছু পরিমাপের ত্রুটির সাথে ভলিউম)। যদি আপনার প্রতিক্রিয়া ভেরিয়েবলটি বাড়ির মূল্য হয় তবে আপনার অবশ্যই অবসন্নটি থাকা উচিত।


1
আপনি দয়া করে ব্যাখ্যা করতে পারেন, আমাদের কেন বাড়ির দাম পূর্বাভাসের জন্য বাধা দেওয়া দরকার? কেন কোনও বাড়ির জন্য সমস্ত এক্স শূন্য হবে?
এলফ

10

ঠিক আছে, সুতরাং আপনি প্রশ্নটি অনেক পরিবর্তন করেছেন

আপনি যখন 0 জানবেন তখন ইন্টারসেপ্টটি ছেড়ে দিতে পারেন That's এটিই। এবং না, আপনি এটি করতে পারবেন না কারণ এটি 0 থেকে উল্লেখযোগ্যভাবে আলাদা নয়, আপনাকে এটি 0 বা আপনার অবশিষ্টাংশ পক্ষপাতদুষ্ট জানতে হবে। এবং, সেই ক্ষেত্রে এটি 0 তাই আপনি এটিকে ছেড়ে দিলে কোনও পার্থক্য হবে না ... সুতরাং, কখনও এটিকে ছেড়ে যাবেন না।

আপনার সাথে আছে খোঁজার প্রস্তাব দেওয়া তথ্য রৈখিক নেই। এবং প্রদত্ত যে আপনার ভবিষ্যদ্বাণী হিসাবে অঞ্চল ছিল যে নির্দিষ্ট সম্ভবত সম্ভবত রৈখিক নয়। এটি ঠিক করার জন্য আপনি ভবিষ্যদ্বাণীকে রূপান্তর করতে পারেন।R2


2
আমরা যখন এনগেল / গ্রেঞ্জার 2-পদক্ষেপ ব্যবহার করে সমন্বয়ের জন্য পরীক্ষা করতে চাই তখন কী হবে? en.wikedia.org/wiki/Cointegration
জেস

5

বেশিরভাগ একাধিক রিগ্রেশন মডেলগুলির মধ্যে একটি ধ্রুবক শব্দ (অর্থাত্ ইন্টারসেপ্ট) অন্তর্ভুক্ত থাকে, যেহেতু এটি নিশ্চিত করে যে মডেলটি পক্ষপাতহীন হবে - অর্থাৎ, অবশিষ্টাংশের গড়টি ঠিক শূন্য হবে। (একটি রিগ্রেশন মডেলের সহগগুলি সর্বনিম্ন স্কোয়ার দ্বারা অনুমান করা হয় - অর্থাত্ গড় স্কোয়ার ত্রুটি হ্রাস করে Now মডেলের ধ্রুবকের মান ত্রুটিগুলির গড় পরিবর্তন করে তবে বৈকল্পিক প্রভাবকে প্রভাবিত করে না squ সুতরাং, স্কোয়ার ত্রুটির যোগফলকে যদি হ্রাস করতে হয় তবে ধ্রুবকটিকে এমনটি বেছে নিতে হবে যাতে ত্রুটির গড়টি শূন্য হয়। )

একটি সাধারণ রিগ্রেশন মডেলটিতে ধ্রুবকটি নিরোধক আকারে, রিগ্রেশন লাইনের ওয়াই-ইন্টারসেপ্ট উপস্থাপন করে। একাধিক রিগ্রেশন মডেলটিতে ধ্রুবক নির্ভর করে এমন ভেরিয়েবলের জন্য পূর্বাভাস দেওয়া হবে যদি সমস্ত স্বাধীন ভেরিয়েবল একই সাথে শূন্যের সমান হয় - এমন একটি পরিস্থিতি যা শারীরিক বা অর্থনৈতিকভাবে অর্থবহ না হতে পারে। যদি সমস্ত স্বাধীন ভেরিয়েবলগুলি একই সাথে শূন্য হয় তবে কী হবে তা সম্পর্কে যদি আপনি বিশেষভাবে আগ্রহী না হন তবে আপনি সাধারণত তার পরিসংখ্যানগত তাত্পর্য নির্বিশেষে মডেলটিতে ধ্রুবকটি রেখে যান। ইন-নমুনা ত্রুটিগুলি পক্ষপাতদুষ্ট কিনা তা নিশ্চিত করার পাশাপাশি, ধ্রুবকের উপস্থিতি রিগ্রেশন লাইনটিকে "নিজস্ব স্তর অনুসন্ধান করতে" দেয় এবং কেবলমাত্র স্থানীয়ভাবে রৈখিক হতে পারে এমন ডেটাতে সেরা ফিট সরবরাহ করে।

যাইহোক, বিরল ক্ষেত্রে আপনি মডেল থেকে ধ্রুবক বাদ দিতে ইচ্ছুক হতে পারে। এটি কোনও সফ্টওয়্যার প্যাকেজে রিগ্রেশন পদ্ধতিতে একটি মডেল-ফিটিং বিকল্প এবং এটি কখনও কখনও উত্সের মাধ্যমে রিগ্রেশন বা সংক্ষেপে আরটিও হিসাবে পরিচিত। সাধারণত, এটি কেবল তখনই করা হবে:

  1. একসাথে সমস্ত মান শূন্য ধরে নিয়ে স্বাধীন ভেরিয়েবলগুলি কল্পনা করা সম্ভব এবং আপনি মনে করেন যে এক্ষেত্রে এটি যৌক্তিকভাবে অনুসরণ করা উচিত যে নির্ভরশীল ভেরিয়েবলটিও শূন্যের সমান হবে; অথবা
  2. ধ্রুবকটি আপনি ব্যবহার করতে ইচ্ছুক স্বাধীন ভেরিয়েবলের সেট সহ অপ্রয়োজনীয়।

কেস (১) এর উদাহরণ হ'ল এমন একটি মডেল হবে যেখানে সমস্ত পরিবর্তনশীল - নির্ভরশীল এবং স্বতন্ত্র - অন্যান্য সময়ের সিরিজের প্রথম পার্থক্য উপস্থাপন করে। আপনি যদি এক্স এর প্রথম পার্থক্যে ওয়াইয়ের প্রথম পার্থক্যটি আবার বন্ধ করে দিচ্ছেন তবে আপনি ভেরিয়েবলের বর্তমান স্তরের উল্লেখ ছাড়াই এক্স এর পরিবর্তনের লিনিয়ার ফাংশন হিসাবে Y এর পরিবর্তনের সরাসরি ভবিষ্যদ্বাণী করছেন। এক্ষেত্রে এটি অনুমান করা যুক্তিসঙ্গত (যদিও প্রয়োজন নেই) যথাযথ হতে পারে যে ওয়াই অপরিবর্তিত হওয়া উচিত, গড়ে যখনই এক্স অপরিবর্তিত থাকে - অর্থাৎ, কোনও পরিবর্তনের অনুপস্থিতিতে Y এর anর্ধ্বমুখী বা নিম্নমুখী প্রবণতা থাকা উচিত নয় এক্স এর স্তর

কেস (২) এর উদাহরণ এমন একটি পরিস্থিতি হতে পারে যেখানে আপনি মৌসুমী সূচক ভেরিয়েবলের একটি সম্পূর্ণ সেট ব্যবহার করতে চান - উদাহরণস্বরূপ, আপনি ত্রৈমাসিক তথ্য ব্যবহার করছেন, এবং আপনি Q1, Q2, Q3 এবং Q4 ভেরিয়েবলগুলি যুক্ত করার জন্য অন্তর্ভুক্ত করতে চান .তু প্রভাব। সুতরাং, কিউ 1 দেখতে 1 0 0 0 1 0 0 0 ..., কিউ 2 দেখতে 0 1 0 0 0 1 0 0 ... এবং এর মতো দেখাবে। Q1 + Q2 + Q3 + Q4 = 1 1 1 1 1 1 1 1 1 থেকে আপনি এই চারটি এবং একই মডেলের একটি ধ্রুবক ব্যবহার করতে পারবেন না। । । । যা ধ্রুবক পদ হিসাবে একই। অর্থাৎ, পাঁচটি ভেরিয়েবল Q1, Q2, Q3, Q4 এবং CONSTANT রৈখিকভাবে স্বতন্ত্র নয়: এর মধ্যে যে কোনও একটি অন্য চারটির রৈখিক সংমিশ্রণ হিসাবে প্রকাশ করা যেতে পারে। লিনিয়ার রিগ্রেশন মডেল লাগানোর জন্য প্রযুক্তিগত পূর্বশর্ত হ'ল স্বাধীন ভেরিয়েবলগুলি অবশ্যই রৈখিকভাবে স্বাধীন হতে হবে; অন্যথায় সর্বনিম্ন-স্কোয়ার সহগগুলি অনন্যভাবে নির্ধারণ করা যায় না,

সতর্কতার একটি শব্দ: আর-স্কোয়ার্ড এবং এফ পরিসংখ্যানগুলির আরটিও মডেলটিতে একই অর্থ নেই যা তারা একটি সাধারণ রিগ্রেশন মডেল হিসাবে করে এবং সমস্ত সফ্টওয়্যার দ্বারা সেগুলি একইভাবে গণনা করা হয় না। কিছু সাবধানতার জন্য এই নিবন্ধটি দেখুন। আপনি এমন মডেলগুলির মধ্যে আর-স্কোয়ারের তুলনা করার চেষ্টা করবেন না যা স্থির শব্দটি করে এবং এতে অন্তর্ভুক্ত থাকে না, যদিও রিগ্রেশনটির স্ট্যান্ডার্ড ত্রুটির তুলনা করা ঠিক আছে।

দ্রষ্টব্য যে "স্বতন্ত্র" শব্দটি (কমপক্ষে) তিনটি ভিন্ন পদ্ধতিতে রিগ্রেশন জারগনে ব্যবহৃত হয়: যে কোনও একক ভেরিয়েবলকে পূর্বাভাসক হিসাবে না, প্রডিক্টর হিসাবে ব্যবহার করা হলে এটি একটি স্বতন্ত্র পরিবর্তনশীল হিসাবে অভিহিত হতে পারে। ভেরিয়েবলের একটি গ্রুপ লিনিয়ারে স্বতন্ত্র হয় যদি তাদের মধ্যে অন্যের একটির রৈখিক সংমিশ্রণ হিসাবে হুবহু প্রকাশ করা যায় না। এক জোড়া ভেরিয়েবলকে পরিসংখ্যানগতভাবে স্বতন্ত্র বলা হয় তবে তারা একে অপরের প্রতি শ্রদ্ধার সাথে সম্পূর্ণরূপে স্বতঃস্ফূর্ত নয়। একটি রিগ্রেশন মডেলটিতে, আপনি চান আপনার নির্ভরশীল পরিবর্তনশীলটি পরিসংখ্যানগতভাবে স্বাধীন ভেরিয়েবলের উপর নির্ভরশীল হয়ে উঠুক, যা অবশ্যই তাদের মধ্যে রৈখিক (তবে পরিসংখ্যানগতভাবে নয়) স্বতন্ত্র হতে হবে।


2
আপনি কোন নিবন্ধটি উল্লেখ করছেন?
গাং

2

আমার চিন্তাভাবনাগুলির সম্পূর্ণ পুনর্বিবেচনা। প্রকৃতপক্ষে ইন্টারসেপ্ট বাদ দেওয়া পক্ষপাত সমস্যা তৈরি করবে cause

আপনি কী নিজের ডেটা কেন্দ্রিক বিবেচনা করেছেন তাই কোনও ইন্টারসেপ্টের কিছু অর্থ হবে এবং কীভাবে কিছু (অযৌক্তিক) মানগুলি নেতিবাচক মান দিতে পারে তা ব্যাখ্যা করা এড়াতে পারেন? আপনি যদি তিনটি ব্যাখ্যামূলক ভেরিয়েবলগুলি গড় স্কয়ারফটটি বিয়োগ করে, মানে লোটিজ এবং গড় স্নানটি সামঞ্জস্য করে থাকেন, তবে ইন্টারসেপ্ট এখন গড় এসডিআরফ্ট, লোটসাইজ এবং স্নানের সাহায্যে (একটি বাড়ির?) মূল্য নির্দেশ করবে।

এই কেন্দ্রিংটি স্বাধীন ভেরিয়েবলের আপেক্ষিক সম্পর্ক পরিবর্তন করবে না। সুতরাং, কেন্দ্রিক তথ্যগুলিতে মডেলটি ফিট করা এখনও স্নানকে তুচ্ছ হিসাবে খুঁজে পাবে। স্নানের অন্তর্ভুক্ত না করে মডেলটিকে রিফিট করুন। আপনি এখনও ইন্টারসেপ্টের জন্য একটি বৃহত পি-মান পেতে পারেন তবে এটি অন্তর্ভুক্ত করা উচিত এবং আপনার y = a + b (sqrft) + c (লোটাইজ) ফর্মের একটি মডেল থাকবে।


1

আমি অন্য কারও পোস্ট করা অনুরূপ প্রশ্নের উত্তরে কিছু সময় ব্যয় করেছি, তবে এটি বন্ধ ছিল। এখানে কিছু দুর্দান্ত উত্তর রয়েছে তবে আমি যে উত্তরটি দিচ্ছি তা কিছুটা সহজ। এটি এমন লোকদের পক্ষে আরও উপযুক্ত হতে পারে যাঁরা রিগ্রেশন সম্পর্কে দুর্বল বোঝা রাখেন।

প্রশ্ন 1: আমি কীভাবে আমার মডেলটিতে ইন্টারসেপ্টটি ব্যাখ্যা করব?

রিগ্রেশন মডেলগুলিতে, লক্ষ্যটি হল ফলাফলের পরিবর্তনশীলটিতে অব্যক্ত পরিবর্তনের পরিমাণ হ্রাস করা:

y = b0 + b1⋅x + ϵ

যেখানে y আপনার ফলাফলের পরিমাপের পূর্বাভাসযুক্ত মান (উদাঃ লগ_ব্লুড_এইচজি), বি0 হ'ল বিরতি, বি 1 theাল, x একটি পূর্বাভাস পরিবর্তনশীল এবং ϵ অবশিষ্টাংশের ত্রুটি।

ইন্টারসেপ্ট (বি0) হ'ল পূর্বাভাস প্রাপ্ত গড় মান যখন সমস্ত x = 0 অন্য কথায়, লগ_ব্লুড_এইচজিতে ভেরিয়েন্সটি আরও কমিয়ে আনা বা ব্যাখ্যা করার জন্য কোনও ভেরিয়েবল (যেমন, প্রজাতি) ব্যবহার করার আগে এটি y এর বেসলাইন মান before ।

একটি opeাল যুক্ত করে (যা অনুমান করে যে কীভাবে এক-ইউনিট বৃদ্ধি পেয়ে লগ_ব্লুড_এইচএক্সের এক ইউনিট বৃদ্ধির সাথে এক্স, উদাহরণস্বরূপ, প্রজাতিগুলি পরিবর্তন হয়), আমরা ফলাফল ভেরিয়েবল সম্পর্কে ইতিমধ্যে যা জানি তার সাথে যোগ করি, যা এর বেসলাইন মান (যেমন) আরসেপ্ট), অন্য ভেরিয়েবলের পরিবর্তনের ভিত্তিতে।

প্রশ্ন 2: বিশেষত মডেলগুলি খুব আলাদা ফলাফল দেয় এই বিষয়টি বিবেচনা করে ইন্টারসেপ্টটি অন্তর্ভুক্ত করা বা না অন্তর্ভুক্তি করা কখন উপযুক্ত?

এর মতো সাধারণ মডেলের জন্য, ইন্টারসেপ্টটি ফেলে দেওয়া কখনই উপযুক্ত নয় appropriate

মডেলগুলি পৃথক ফলাফল দেয় যখন আপনি ইন্টারসেপ্টটি ড্র করেন কারণ ওয়াইয়ের বেসলাইন মানটিতে opeালু ভিত্তি স্থাপনের পরিবর্তে, এটি y এর উত্সের মধ্য দিয়ে যেতে বাধ্য হয়, যা 0 হয়। সুতরাং, opeালটি খাড়া হয়ে যায় (অর্থাত্ আরও শক্তিশালী এবং তাৎপর্যপূর্ণ) ) কারণ আপনি উত্সটির মধ্য দিয়ে রেখাটি বাধ্য করেছেন, তা নয় কারণ এটি y এর ভিন্নতা হ্রাস করার আরও ভাল কাজ করে। অন্য কথায়, আপনি কৃত্রিমভাবে এমন একটি মডেল তৈরি করেছেন যা ইন্টারপ্লেসটি মুছে ফেলে y এর বৈচিত্রকে হ্রাস করে বা আপনার মডেলের প্রাথমিক গ্রাউন্ডিং পয়েন্ট।

এমন কেস রয়েছে যেখানে ইন্টারসেপ্ট অপসারণ উপযুক্ত - যেমন 0-ইন্টারসেপ্ট দিয়ে কোনও ঘটনা বর্ণনা করার সময়। আপনি এখানে সে সম্পর্কে পড়তে পারেন , পাশাপাশি আরও একটি কারণ কেন একটি ইন্টারসেপ্ট অপসারণ করা ভাল ধারণা নয়।


1

y=α+βx+ϵ
α=0yx=0

R2R2R2

উপসংহার: মোডেলের বাইরে ইন্টারসপেট ছাড়বেন না (যদি না আপনি সত্যিই সত্যই জানেন যে আপনি কী করছেন)।

Xs=vt

এছাড়াও বিশেষ মডেল রয়েছে যা বিরতি বাদ দেয়। একটি উদাহরণ জোড়াযুক্ত স্টাড, জোড়াযুক্ত গবেষণা

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.