একটি '' উল্লেখযোগ্য পরিবর্তনশীল '' যা নমুনার পূর্বাভাসের উন্নতি করে না - কীভাবে ব্যাখ্যা করব?


10

আমার একটি প্রশ্ন রয়েছে যা আমি মনে করি প্রচুর ব্যবহারকারীর কাছে একেবারে বেসিক।

আমি লিনিয়ার রিগ্রেশন মডেলগুলি ব্যবহার করছি (i) বেশ কয়েকটি ব্যাখ্যামূলক ভেরিয়েবল এবং আমার প্রতিক্রিয়া ভেরিয়েবলের সম্পর্ক তদন্ত করতে এবং (ii) ব্যাখ্যামূলক ভেরিয়েবলগুলি ব্যবহার করে আমার প্রতিক্রিয়া ভেরিয়েবলের পূর্বাভাস।

একটি নির্দিষ্ট ব্যাখ্যামূলক ভেরিয়েবল এক্স উল্লেখযোগ্যভাবে আমার প্রতিক্রিয়া ভেরিয়েবলকে প্রভাবিত করে। আমার প্রতিক্রিয়াশীল ভেরিয়েবলের আউট-অফ-নমুনা পূর্বাভাসের উদ্দেশ্যে এই ব্যাখ্যামূলক ভেরিয়েবল এক্সের যুক্ত মূল্য পরীক্ষা করার জন্য আমি দুটি মডেল ব্যবহার করেছি: মডেল (ক) যা সমস্ত ব্যাখ্যাযোগ্য ভেরিয়েবল এবং মডেল (খ) ব্যবহার করেছিল যা সমস্ত ভেরিয়েবল ব্যবহার করে পরিবর্তনশীল এক্স ব্যতীত উভয় মডেলের জন্য আমি সম্পূর্ণরূপে নমুনা ছাড়াই report দেখা যাচ্ছে যে উভয় মডেলই প্রায় অভিন্ন হিসাবে ভাল অভিনয় করে। অন্য কথায়, ব্যাখ্যামূলক ভেরিয়েবল এক্স যুক্ত করে নমুনা পূর্বাভাসের উন্নতি হয় না। নোট করুন যে আমি বর্ণনামূলক ভেরিয়েবল এক্সটি আমার প্রতিক্রিয়াশীল ভেরিয়েবলকে উল্লেখযোগ্যভাবে প্রভাবিত করে তা সন্ধান করতে আমি মডেল (ক) অর্থাত্ সমস্ত ব্যাখ্যামূলক ভেরিয়েবলের মডেলও ব্যবহার করেছি।

আমার এখন প্রশ্ন: এই সন্ধানের কীভাবে ব্যাখ্যা করা যায়? সরল উপসংহারটি হ'ল, যদিও ভেরিয়েবল এক্সটি অনুভূতিযুক্ত মডেলগুলি ব্যবহার করে আমার প্রতিক্রিয়া পরিবর্তনশীলটিকে উল্লেখযোগ্যভাবে প্রভাবিত করে, এটি নমুনার বহির্ভূত পূর্বাভাসগুলির উন্নতি করে না। তবে এই সন্ধানটি আরও ব্যাখ্যা করতে আমার সমস্যা হয়। এটি কীভাবে সম্ভব হতে পারে এবং এই সন্ধানের জন্য কিছু ব্যাখ্যা কী?

আগাম ধন্যবাদ!

অতিরিক্ত তথ্য: 'উল্লেখযোগ্যভাবে প্রভাব' সহ আমার অর্থ 0 টি প্যারামিটারের প্রাক্কলনের সর্বোচ্চ 95% উত্তরোত্তর ঘনত্ব অন্তর অন্তর্ভুক্ত নয় (আমি একটি বায়সিয়ান পদ্ধতির ব্যবহার করছি)। ঘনঘনবাদী পদগুলিতে এটি মোটামুটি পি-মান 0.05 এর চেয়ে কম থাকার সাথে মিল করে। আমি আমার সমস্ত মডেলের পরামিতিগুলির জন্য কেবল ছড়িয়ে (অপরিবর্তনমূলক) প্রিরিয়ারগুলি ব্যবহার করছি। আমার ডেটাটিতে একটি অনুদৈর্ঘ্য কাঠামো রয়েছে এবং এতে মোট প্রায় 7000 পর্যবেক্ষণ রয়েছে। নমুনা বহির্ভূত পূর্বাভাসগুলির জন্য আমি একাধিক প্রতিলিপি ব্যবহার করে মডেলগুলি মূল্যায়নের জন্য 90% ডেটা এবং আমার মডেলগুলিতে ফিট করেছিলাম 10 অর্থাৎ, আমি একাধিকবার ট্রেন-পরীক্ষা বিভক্ত করেছিলাম এবং শেষ পর্যন্ত গড় পারফরম্যান্সের মেট্রিকগুলি প্রতিবেদন করি।


2
যেহেতু আপনি একটি বায়েশিয়ান পদ্ধতির ব্যবহার করছেন তাই আপনার ফলাফলগুলি ডেটা অনুসারে আপনার পূর্বের উপর নির্ভর করে। যেহেতু পূর্বের উপর নির্ভরশীলতা ক্রমহ্রাসমান উপাত্তের সাথে হ্রাস পায় এবং ডেটা এবং পূর্বের সাথে একমত না হওয়ার পরিমাণ বাড়ায়, পূর্ব বিতরণ, উপাত্তের পরিমাণ এবং একা তথ্য কতটা ঘনিষ্ঠভাবে মেনে চলে তা উভয়ই তথ্য সরবরাহ করা আপনার পক্ষে কার্যকর হবে পূর্ব বিতরণ।
whuber

1
@ তবে আমি উল্লেখ করতে ভুলে গেছি যে আমি কেবল ছড়িয়ে ছিটিয়ে থাকা (অপরিবর্তনীয়) প্রিরিয়ার ব্যবহার করছি। অতএব, আমি মনে করি না যে আমার পূর্বের স্পেসিফিকেশনের আমার অনুসন্ধানগুলির সাথে কোনও সম্পর্ক আছে। আমি নিশ্চিত যে ফিটিং ঘন ঘনবাদী লিনিয়ার রিগ্রেশন মডেলগুলি একই ফলাফলের ফলাফল হিসাবে আসবে।
ডাবিভিস

ধন্যবাদ - যা বেশ কয়েকটি সম্ভাব্য ব্যাখ্যা বাতিল করতে সহায়তা করে।
হোবার

1
আপনি কি আটকানো ডেটাগুলিতে মডেলগুলি রিফাইটিং করছেন বা আপনার আসল ডেটার সাথে মানানসই মডেলগুলি ব্যবহার করছেন? উভয় ক্ষেত্রেই একটি সম্ভাব্য সমস্যা হ'ল আপনি আটকানো ডেটাতে টাইপ দ্বিতীয় ত্রুটি করছেন; সম্ভবত চলকটি প্রাসঙ্গিক তবে আপনি মূলত ক্ষমতায়িত ছিলেন (এক্ষেত্রে আপনি সম্ভবত সেই প্রভাবকেই বেশি মূল্যায়ন করছেন যা পূর্বাভাসকে আরও খারাপ করতে পারে)। বা ভেরিয়েবলটি অপ্রাসঙ্গিক ছিল এবং আপনি টাইপ আই ত্রুটি করেছিলেন। এই ধরণের জিনিসটি ঘটতে পারে তার অনেক কারণ রয়েছে।
লোক

1
আমি বেশ কয়েকটি মেট্রিক ব্যবহার করেছি: আরএসএমই, এমএই এবং এউসি (আমি আমার ভবিষ্যদ্বাণীপূর্ণ পরিবর্তনশীল, যা ধারাবাহিক, একটি নির্দিষ্ট প্রান্তের নীচে রয়েছে কিনা তাও ভবিষ্যদ্বাণী করার চেষ্টা করছি)।
দুবাইভাইস

উত্তর:


3

যখন কোনও নির্দিষ্ট ভবিষ্যদ্বাণী পরিসংখ্যানগতভাবে তাৎপর্যপূর্ণ হয় তার অর্থ এই নয় যে এটি কোনও মডেলের ভবিষ্যদ্বাণীপূর্ণ কার্যকারিতাও যথেষ্ট উন্নতি করে improves ভবিষ্যদ্বাণীপূর্ণ কর্মক্ষমতা প্রভাব আকারের সাথে আরও সম্পর্কিত। উদাহরণস্বরূপ, দুই ভবিষ্যতবক্তা সঙ্গে একটি রৈখিক রিগ্রেশনের মডেল থেকে অনুকরণ করে তথ্য নীচে ফাংশন x1এবং x2, এবং তড়কা দুই মডেল, উভয় সঙ্গে এক x1এবং x2, এবং এক x1একা। ফাংশনে আপনি এর জন্য প্রভাবের আকারটি পরিবর্তন করতে পারেন x2। ফাংশনের কোফিসিয়েন্টস জন্য আস্থা অন্তর রিপোর্ট x1এবং x2, এবংআর2 ভবিষ্যদ্বাণীপূর্ণ পারফরম্যান্সের একটি পরিমাপ হিসাবে দুটি মডেলের মান।

ফাংশনটি হ'ল:

sim_ES <- function (effect_size = 1, sd = 2, n = 200) {
    # simulate some data
    DF <- data.frame(x1 = runif(n, -3, 3), x2 = runif(n, -3, 3))
    DF$y <- 2 + 5 * DF$x1 + (effect_size * sd) * DF$x2 + rnorm(n, sd = sd)

    # fit the models with and without x2
    fm1 <- lm(y ~ x1 + x2, data = DF)
    fm2 <- lm(y ~ x1, data = DF)

    # results
    list("95% CIs" = confint(fm1),
         "R2_X1_X2" = summary(fm1)$r.squared,
         "R2_only_X1" = summary(fm2)$r.squared)
}

পরীক্ষার্থী হিসাবে, আমরা যে পূর্বনির্ধারিত মান পাই,

$`95% CIs`
               2.5 %   97.5 %
(Intercept) 1.769235 2.349051
x1          4.857439 5.196503
x2          1.759917 2.094877

$R2_X1_X2
[1] 0.9512757

$R2_only_X1
[1] 0.8238826

সুতরাং x2তাৎপর্যপূর্ণ, এবং এটি মডেলটিতে অন্তর্ভুক্ত না করা এর উপর একটি বড় প্রভাব ফেলেআর2

তবে যদি আমরা এফেক্টের আকার 0.3 এ সেট করি তবে আমরা পাই:

> sim_ES(effect_size = 0.3)
$`95% CIs`
                2.5 %    97.5 %
(Intercept) 1.9888073 2.5563233
x1          4.9383698 5.2547929
x2          0.3512024 0.6717464

$R2_X1_X2
[1] 0.9542341

$R2_only_X1
[1] 0.9450327

সহগ এখনও তাত্পর্যপূর্ণ তবে এর মধ্যে উন্নতি আর2 খুব ছোট.


পরিসংখ্যানগত তাত্পর্য বনাম ভবিষ্যদ্বাণীপূর্ণ পারফরম্যান্সের মধ্যে অস্পষ্ট দ্বন্দ্বতা হ'ল একাধিক উপায়ে আমার বিশ্লেষণ জীবনকে বাঁধা দেওয়া। (+1 - এবং সিভি
অধ্যাপককে

-1

একাধিক রিগ্রেশনে এটি হওয়া মোটামুটি স্বাভাবিক জিনিস। সর্বাধিক সাধারণ কারণ হল আপনার ভবিষ্যদ্বাণীকারীরা একে অপরের সাথে সম্পর্কিত। অন্য কথায়, আপনি অন্যান্য ভবিষ্যদ্বাণীকের মানগুলি থেকে এক্স অনুমান করতে পারেন। অতএব, ভবিষ্যদ্বাণীগুলির জন্য এটি দরকারী যখন এটি আপনার কাছে কেবলমাত্র ভবিষ্যদ্বাণীকারী, আপনার কাছে অন্য সমস্ত ভবিষ্যদ্বাণীকারী একবার থাকলে এটি অতিরিক্ত অতিরিক্ত তথ্য সরবরাহ করে না। অন্যান্য ভবিষ্যদ্বাণীকারীদের উপর এক্সকে পুনরায় চাপিয়ে দিয়ে আপনি এটি পরীক্ষা করতে পারেন can আমি বিনামূল্যে অনলাইন পাঠ্যপুস্তক, পরিসংখ্যানগত শিক্ষার উপাদানগুলির লিনিয়ার রিগ্রেশন সম্পর্কিত অধ্যায়টিও উল্লেখ করব।


1
আপনি প্রশ্নটিতে বর্ণিত নির্দিষ্ট পরিস্থিতিতে সমাধান করার চেয়ে একটি অ-তাৎপর্যপূর্ণ ব্যাখ্যামূলক পরিবর্তনশীল বর্ণনা করছেন বলে মনে হচ্ছে।
whuber

আমি একটি ব্যাখ্যামূলক পরিবর্তনশীল বর্ণনা করছি যা তার নিজের প্রতিক্রিয়া সম্পর্কিত উল্লেখযোগ্যভাবে সম্পর্কিত (অর্থাত্ একটি সাধারণ প্রতিরোধের সাথে), যা আমি মনে করি এই প্রশ্নের অর্থ "এক্স এর দ্বারা আমার প্রতিক্রিয়াটির পরিবর্তনশীলটিকে প্রভাবিত করবে" by
ডেনজিলো

তবে সে ক্ষেত্রে আমি খুঁজে পেতাম না যে আমার ব্যাখ্যামূলক ভেরিয়েবল এক্স উল্লেখযোগ্যভাবে আমার প্রতিক্রিয়া পরিবর্তনশীলকে প্রভাবিত করবে? সম্ভবত আমি আমার প্রশ্নে প্রাথমিকভাবে এটি পরিষ্কার করেছিলাম না, তবে আমি ব্যাখ্যাযোগ্য ভেরিয়েবল এক্স এর আমার প্রতিক্রিয়াশীল ভেরিয়েবলের উপর উল্লেখযোগ্য প্রভাব ফেলে তা সন্ধান করতে আমি সমস্ত ব্যাখ্যামূলক ভেরিয়েবল সহ একটি মডেল ব্যবহার করেছি।
ডাবউইস

3
আমি প্রশ্নটি অর্থ হিসাবে পড়া এক্সএকাধিক রিগ্রেশন প্রসঙ্গে তাৎপর্যপূর্ণ "বেশ কয়েকটি ব্যাখ্যামূলক ভেরিয়েবল" এর উল্লেখ থেকে এটি বেশ পরিষ্কার বলে মনে হচ্ছে। আমি উদ্বিগ্ন যে আপনার উত্তরটি সম্ভবত ওপিটিকে বিভ্রান্ত করছে।
whuber

1
হ্যাঁ হুবহু, আপনি এটি সঠিকভাবে বুঝতে পেরেছিলেন। এই আমি বলতে চাই। আমি আশাবাদী আমার প্রশ্নের উত্তর এ যথেষ্ট ভাল।
ডাবউইস
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.