হয় চতুষ্কোণ বা ইন্টারঅ্যাকশন শব্দটি বিচ্ছিন্নতার ক্ষেত্রে তাৎপর্যপূর্ণ তবে উভয়ই এক সাথে নয়


15

একটি অ্যাসাইনমেন্টের অংশ হিসাবে, আমাকে দুটি ভবিষ্যদ্বাণী ভেরিয়েবলের সাথে একটি মডেল ফিট করতে হয়েছিল। আমাকে তখন অন্তর্ভুক্ত পূর্বাভাসীদের একজনের বিরুদ্ধে মডেলের অবশিষ্টাংশের একটি প্লট আঁকতে হয়েছিল এবং তার ভিত্তিতে পরিবর্তন আনতে হয়েছিল। প্লটটি একটি বক্ররেখার প্রবণতা দেখিয়েছিল এবং তাই আমি সেই ভবিষ্যদ্বাণীকের জন্য একটি চতুর্ভুজ শব্দটি অন্তর্ভুক্ত করেছি। নতুন মডেলটি চতুষ্কোণ পদটি উল্লেখযোগ্য হতে দেখায়। এখন পর্যন্ত সব ভাল।

যাইহোক, ডেটা প্রস্তাব দেয় যে একটি ইন্টারঅ্যাকশনটিও অর্থবোধ করে। মূল মডেলের সাথে ইন্টারঅ্যাকশন শব্দ যুক্ত করে বক্ররেখার প্রবণতাটিও 'স্থির' হয়ে যায় এবং মডেলটিতে যোগ করার সময় এটিও তাত্পর্যপূর্ণ ছিল (চতুষ্কোণ শর্ত ব্যতীত)। সমস্যাটি হ'ল, যখন চতুর্ভুজ এবং ইন্টারঅ্যাকশন শব্দ দুটি মডেলটিতে যুক্ত হয়, তাদের মধ্যে একটি তাত্পর্যপূর্ণ নয়।

কোন পদটি (চতুষ্কোণ বা মিথস্ক্রিয়া) মডেলটিতে অন্তর্ভুক্ত করা উচিত এবং কেন?

উত্তর:


21

সংক্ষিপ্তসার

ভবিষ্যদ্বাণীকারীদের সাথে সম্পর্কিত হলে, একটি চতুর্ভুজ শব্দ এবং একটি ইন্টারঅ্যাকশন শব্দটি একই তথ্য বহন করবে। এটি চতুষ্কোণ মডেল বা ইন্টারঅ্যাকশন মডেলটিকে তাত্পর্যপূর্ণ হতে পারে; কিন্তু যখন উভয় পদ অন্তর্ভুক্ত করা হয়, কারণ এগুলি এতটা মিল হয় তেমনি তাত্পর্যপূর্ণও হতে পারে না। ভিআইএফ-র মতো মাল্টিকোলাইনারিটির স্ট্যান্ডার্ড ডায়াগনস্টিকগুলি এর কোনও সনাক্ত করতে ব্যর্থ হতে পারে। এমনকি একটি ডায়াগনস্টিক প্লট, বিশেষত ইন্টারঅ্যাকশনের জায়গায় চতুষ্কোণ মডেল ব্যবহারের প্রভাব সনাক্ত করার জন্য ডিজাইন করা, কোন মডেলটি সেরা তা নির্ধারণ করতে ব্যর্থ হতে পারে।


বিশ্লেষণ

এই বিশ্লেষণের জোর, এবং এর প্রধান শক্তি হ'ল প্রশ্নে বর্ণিত পরিস্থিতিগুলির বৈশিষ্ট্য। এই জাতীয় বৈশিষ্ট্য উপলব্ধ থাকলে এটি সেই অনুসারে আচরণ করে এমন ডেটা অনুকরণ করা সহজ কাজ।

এবং এক্স 2 দুটি পূর্বাভাসীর কথা বিবেচনা করুন (যা আমরা স্বয়ংক্রিয়ভাবে প্রমিত হব যাতে প্রতিটিের ডেটাসেটে ইউনিট ভেরিয়েন্স থাকে) এবং ধরুন যে র্যান্ডম প্রতিক্রিয়া ওয়াই এই ভবিষ্যদ্বাণীকারী এবং তাদের মিথস্ক্রিয়া প্লাস স্বতন্ত্র এলোমেলো ত্রুটি দ্বারা নির্ধারিত হয়েছে:এক্স1এক্স2ওয়াই

ওয়াই=β1এক্স1+ +β2এক্স2+ +β1,2এক্স1এক্স2+ +ε

অনেক ক্ষেত্রেই ভবিষ্যদ্বাণীগুলি পরস্পর সম্পর্কযুক্ত। ডেটাসেটটি এর মতো দেখতে পারে:

স্ক্যাটারপ্ল্লট ম্যাট্রিক্স

এই নমুনা ডেটা এবং β 1 , 2 = 0.1 দিয়ে তৈরি করা হয়েছিল । মধ্যে পারস্পরিক এক্স 1 এবং এক্স 2 হয় 0.85β1=β2=1β1,2=0.1এক্স1এক্স20.85

এর অর্থ এই নয় যে আমরা এবং এক্স 2 কে এলোমেলো ভেরিয়েবলের উপলব্ধি হিসাবে ভাবছি : এটি এমন পরিস্থিতিতে অন্তর্ভুক্ত করতে পারে যেখানে এক্স 1 এবং এক্স 2 উভয়ই একটি নকশা করা পরীক্ষায় সেটিংস, তবে কোনও কারণে এই সেটিংসটি অরথোগোনাল নয়।এক্স1এক্স2এক্স1এক্স2

পারস্পরিক সম্পর্ক কীভাবে উত্থাপিত হয় তা বিবেচনা না করেই, এটি বর্ণনা করার একটি ভাল উপায় হ'ল পূর্বাভাসকারীরা তাদের গড়ের তুলনায় কতটা পৃথক, । এই পার্থক্যগুলি মোটামুটি ছোট হবে (এই বিবেচনায় যে তাদের বৈকল্পিকতা 1 এর চেয়ে কম ); এক্স 1 এবং এক্স 2 এর মধ্যে পারস্পরিক সম্পর্ক যত বেশি হবে ততই এই পার্থক্যগুলি আরও কম হবে। লিখন, তারপর, এক্স 1 = এক্স 0 + δ 1 এবং এক্স 2 = এক্স 0 + δএক্স0=(এক্স1+ +এক্স2)/21এক্স1এক্স2এক্স1=এক্স0+ +δ1 , আমরা করতে পারেন পুনরায় প্রকাশ করার (বলুন) এক্স 2 পরিপ্রেক্ষিতে এক্স 1 যেমন এক্স 2 = এক্স 1 + + ( δ 2 - δ 1 ) । এটিকেবলইন্টারঅ্যাকশনশব্দটিতে প্লাগিং করা হচ্ছে, মডেলটিএক্স2=এক্স0+ +δ2এক্স2এক্স1এক্স2=এক্স1+ +(δ2-δ1)

Y=β1X1+β2X2+β1,2X1(X1+[δ2δ1])+ε=(β1+β1,2[δ2δ1])X1+β2X2+β1,2X12+ε

মান প্রদান পরিবর্তিত হতে শুধুমাত্র একটি সামান্য তুলনায় বিট বিটা 1 , আমরা সত্য র্যান্ডম শর্তাবলীর সাথে এই প্রকরণ জড়ো করতে পারেন, লেখাβ1,2[δ2δ1]β1

Y=β1X1+β2X2+β1,2X12+(ε+β1,2[δ2δ1]X1)

সুতরাং, যদি আমরা এক্স 1 , এক্স 2 , এবং এক্স 2 1 এর বিপরীতে পুনরায় চাপ দিই , আমরা একটি ত্রুটি করব: অবশিষ্টাংশগুলির মধ্যে পার্থক্য X 1 এর উপর নির্ভর করবে (এটি হেটেরোসেসটাস্টিক হবে )। এটি একটি সাধারণ বৈকল্পিক গণনার সাথে দেখা যেতে পারে:YX1,X2X12X1

Var(ε+ +β1,2[δ2-δ1]এক্স1)=Var(ε)+ +[β1,22Var(δ2-δ1)]এক্স12

তবে, যদি এর টিপিক্যাল প্রকরণটি vari 1 , 2 [ δ 2 - δ 1 ] এক্স 1 -তে সাধারণত প্রকরণের চেয়ে বেশি হয় , তবে হেটেরোসেসটাস্টিটি নিরীক্ষণযোগ্য (এবং একটি সূক্ষ্ম মডেল উত্পন্ন করা উচিত) হিসাবে এত কম হবে। (নীচে দেখানো হিসাবে, পেনশন অনুমানের এই লঙ্ঘনের সন্ধানের একটি উপায় হ'ল এক্স 1 এর নিরঙ্কুশ মানের সাথে অবশিষ্টাংশের পরম মানের চক্রান্ত করা - যদি প্রয়োজন হয় তবে প্রথমে এক্স 1 এর মান নির্ধারণ করা উচিত ।) এটি সেই বৈশিষ্ট্য যা আমরা খুঁজছিলাম ।εβ1,2[δ2-δ1]এক্স1এক্স1এক্স1

মনে রাখবেন যে এবং এক্স 2 ইউনিট বৈকল্পিককে মানক হিসাবে ধরে নেওয়া হয়েছিল, এটি সূচিত করে δ 2 - δ 1 এর প্রকরণটি তুলনামূলকভাবে ছোট হবে। পর্যবেক্ষিত আচরণ নকল করা করার জন্য, তারপর, এটা জন্য একটি ছোট পরম মান বাছাই চলা উচিত β 1 , 2 , কিন্তু এটা বৃহৎ যথেষ্ট করা (অথবা একটি বৃহৎ যথেষ্ট ডেটা সেটটি ব্যবহার করুন) যাতে এটি উল্লেখযোগ্য হতে হবে।এক্স1এক্স2δ2-δ1β1,2

সংক্ষেপে, যখন ভবিষ্যদ্বাণীকারীরা পারস্পরিক সম্পর্ক স্থাপন করে এবং মিথস্ক্রিয়াটি ছোট হলেও খুব ছোট হয় না, তখন একটি চতুর্ভুজ শব্দটি (একা উভয়ই পূর্বাভাসকরে) এবং একটি ইন্টারঅ্যাকশন শব্দটি স্বতন্ত্রভাবে তাত্পর্যপূর্ণ তবে একে অপরের সাথে বিভ্রান্ত হয়। কোনটি ব্যবহার করা ভাল তা সিদ্ধান্ত নেওয়ার ক্ষেত্রে একা পরিসংখ্যানগত পদ্ধতিগুলি আমাদের সহায়তা করতে পারে না।


উদাহরণ

আসুন কয়েকটি মডেল ফিট করে নমুনা ডেটা দিয়ে এটি পরীক্ষা করে দেখুন। স্মরণ করুন যে এই ডেটাগুলি অনুকরণ করার সময় 0.1 তে সেট করা হয়েছিল । যদিও এটি ক্ষুদ্র (পূর্ববর্তী স্ক্রেটারপ্লটগুলিতে চতুর্ভুজ আচরণটিও দৃশ্যমান নয়), ১৫০ ডেটা পয়েন্ট সহ আমাদের এটি সনাক্ত করার সম্ভাবনা রয়েছে।β1,20.1150

প্রথমত, চতুর্ভুজ মডেল :

            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  0.03363    0.03046   1.104  0.27130    
x1           0.92188    0.04081  22.592  < 2e-16 ***
x2           1.05208    0.04085  25.756  < 2e-16 ***
I(x1^2)      0.06776    0.02157   3.141  0.00204 ** 

Residual standard error: 0.2651 on 146 degrees of freedom
Multiple R-squared: 0.9812, Adjusted R-squared: 0.9808 

0,068β1,2=0.1

      x1       x2  I(x1^2) 
3.531167 3.538512 1.009199 

5

এরপরে, একটি ইন্টারঅ্যাকশন সহ মডেল কিন্তু কোনও চতুর্ভুজ শর্ত নয়:

            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  0.02887    0.02975    0.97 0.333420    
x1           0.93157    0.04036   23.08  < 2e-16 ***
x2           1.04580    0.04039   25.89  < 2e-16 ***
x1:x2        0.08581    0.02451    3.50 0.000617 ***

Residual standard error: 0.2631 on 146 degrees of freedom
Multiple R-squared: 0.9815, Adjusted R-squared: 0.9811

      x1       x2    x1:x2 
3.506569 3.512599 1.004566 

সমস্ত ফলাফল আগের মত একই। উভয়ই সমানভাবে ভাল (ইন্টারঅ্যাকশন মডেলের খুব ক্ষুদ্র সুবিধার সাথে)।

অবশেষে, আসুন ইন্টারঅ্যাকশন এবং চতুর্ভুজ শর্তাদি উভয়ই অন্তর্ভুক্ত করুন :

            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  0.02572    0.03074   0.837    0.404    
x1           0.92911    0.04088  22.729   <2e-16 ***
x2           1.04771    0.04075  25.710   <2e-16 ***
I(x1^2)      0.01677    0.03926   0.427    0.670    
x1:x2        0.06973    0.04495   1.551    0.123    

Residual standard error: 0.2638 on 145 degrees of freedom
Multiple R-squared: 0.9815, Adjusted R-squared: 0.981 

      x1       x2  I(x1^2)    x1:x2 
3.577700 3.555465 3.374533 3.359040

এক্স1এক্স2এক্স12এক্স1এক্স2, উভয়ই পতাকা বাড়াতে যথেষ্ট বড় নয়।

আমরা যদি চতুর্ভুজীয় মডেল (প্রথমটি) এর ভিন্ন ভিন্ন আবিষ্কার সনাক্ত করার চেষ্টা করে থাকি তবে আমরা হতাশ হব:

ডায়াগনস্টিক প্লট

এই স্ক্র্যাটারপ্লোটের শিথিল মসৃণতায় কখনও এমন ইঙ্গিত পাওয়া যায় যে বাকী অংশগুলির আকারগুলি বাড়িয়ে দেয় |এক্স1|, তবে কেউ এই ইঙ্গিতটিকে গুরুত্ব সহকারে নেবে না।


9

ডেটার উত্সের ভিত্তিতে সর্বাধিক জ্ঞানটি কী তৈরি করে?

আমরা আপনার জন্য এই প্রশ্নের উত্তর দিতে পারি না, কম্পিউটার আপনার জন্য এই প্রশ্নের উত্তর দিতে পারে না। আমাদের এখনও পরিসংখ্যান সংক্রান্ত প্রোগ্রামের পরিবর্তে পরিসংখ্যানবিদদের প্রয়োজন কারণ এই জাতীয় প্রশ্নের কারণ। পরিসংখ্যানগুলি কেবল সংখ্যার ক্রাঞ্চিংয়ের চেয়ে আরও বেশি কিছু নয়, এটি প্রশ্ন এবং তথ্যগুলির উত্স বোঝার এবং কম্পিউটারটি যে ডেটা দেখায় তার বাইরে বিজ্ঞান এবং পটভূমি এবং অন্যান্য তথ্যের ভিত্তিতে সিদ্ধান্ত নিতে সক্ষম হয়। আপনার শিক্ষক সম্ভবত আশা করছেন যে আপনি এই কার্যভারের অংশ হিসাবে এটি বিবেচনা করবেন। যদি আমি এই জাতীয় কোনও সমস্যা অর্পণ করেছিলাম (এবং আমার আগেও রয়েছে) আমি আপনার উত্তরটির ন্যায্যতা সম্পর্কে আরও আগ্রহী হব যা আপনি আসলে পছন্দ করেছেন chose

এটি সম্ভবত আপনার বর্তমান বর্গের বাইরে, তবে একটি পদ্ধতির যদি কোনও মডেলকে অন্যের চেয়ে বেশি পছন্দ করার কোনও স্পষ্ট বৈজ্ঞানিক কারণ না পাওয়া যায় তবে মডেল গড় হয়, আপনি উভয় মডেল ফিট করে (এবং সম্ভবত বেশ কয়েকটি অন্যান্য মডেলও), তারপরে আপনি ভবিষ্যদ্বাণীগুলির একসাথে গড় করেন (প্রায়শই বিভিন্ন মডেলের ফিটের সদৃশতা দ্বারা ভারিত)

আরেকটি বিকল্প, যখন সম্ভব হয়, আরও ডেটা সংগ্রহ করা এবং যদি সম্ভব হয় তবে x মানগুলি বেছে নেওয়া যাতে এটি আরও স্পষ্ট হয়ে যায় যে অ-রৈখিক বনাম মিথস্ক্রিয়া প্রভাবগুলি কী।

নন-নেস্টেড মডেলগুলির (এআইসি, বিআইসিসি ইত্যাদি) ফিট করার তুলনায় কিছু সরঞ্জাম রয়েছে তবে এই ক্ষেত্রে তারা সম্ভবত কোথা থেকে ডেটা আসে এবং কোনটি সবচেয়ে বেশি অর্থবোধ করে তা বোঝার পক্ষে যথেষ্ট পার্থক্য দেখাবে না।


1

@ গ্রেগের পাশাপাশি আরও একটি সম্ভাবনা হ'ল উভয় পদকে অন্তর্ভুক্ত করা, যদিও এর একটি উল্লেখযোগ্য নয়। শুধুমাত্র পরিসংখ্যানগতভাবে উল্লেখযোগ্য পদগুলি অন্তর্ভুক্ত করা মহাবিশ্বের আইন নয়।


ধন্যবাদ পিটার এবং @ গ্রেগ। আমি অনুমান করি যে আমার পড়াশোনার এই পর্যায়ে আমি এমন প্রশ্নের উত্তরগুলির সন্ধান করছি যা কমপক্ষে কিছু গুণগত যুক্তির প্রয়োজন। যেহেতু চতুষ্কোণ পদটি বা ইন্টারঅ্যাকশন শব্দটি ভবিষ্যদ্বাণী বনামের অবশিষ্টাংশগুলি 'স্থির' হিসাবে যুক্ত হয়েছে, তাই কোনটি অন্তর্ভুক্ত করা উচিত তা নিশ্চিত ছিলাম না। আমার অবাক করে দিয়েছিল যে চতুর্ভুজ শব্দটির অন্তর্ভুক্তি ইন্টারঅ্যাকশন শব্দটিকে অ-তাৎপর্যপূর্ণভাবে উপস্থাপন করেছিল। আমি ভাবতাম যে যদি কোনও ইন্টারঅ্যাকশন হয় তবে এটি চতুর্ভুজ শব্দটি অন্তর্ভুক্ত ছিল কিনা তা নির্বিশেষে তা উল্লেখযোগ্য হবে।
তাল বাশান

1
হাই @ টালবাশন বিখ্যাত পরিসংখ্যানবিদ ডোনাল্ড কক্স একবার বলেছিলেন যে "কোনও রুটিন স্ট্যাটিস্টিকাল প্রশ্নই আসে না, কেবল প্রশ্নবিদ্ধ স্ট্যাটিস্টিকাল রুটিন"
পিটার ফ্লুম - মনিকা পুনরায়

@ পিটারফ্লম সম্ভবত আপনার অর্থ স্যার ডেভিড কক্স ??
মাইকেল আর চেরনিক

ওহো। হ্যাঁ, ডেভিড, ডোনাল্ড নয়। দুঃখিত।
পিটার ফ্লুম - মনিকা পুনরায়
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.