বহুবিচ্ছিন্নতা যখন পৃথক প্রতিক্রিয়াগুলি তাত্পর্যপূর্ণ হয় তবে ভিআইএফ কম থাকে


13

আমি 6 ভেরিয়েবল (আছে ) যে আমি ভবিষ্যদ্বাণী করা ব্যবহার করছি Y । আমার ডেটা বিশ্লেষণ সম্পাদন করার সময়, আমি প্রথমে একাধিক লিনিয়ার রিগ্রেশন চেষ্টা করেছি। এটি থেকে মাত্র দুটি পরিবর্তনশীল তাৎপর্যপূর্ণ ছিল। যাইহোক, যখন আমি প্রতিটি চলককে পৃথকভাবে y এর সাথে তুলনা করে একটি লিনিয়ার রিগ্রেশন চালাই, তখন একটি ব্যতীত সমস্ত তাৎপর্যপূর্ণ ছিল ( পি 0.01 এর চেয়ে কম 0.001 এর চেয়ে কম কোথাও)। এটি প্রস্তাবিত হয়েছিল যে এটি বহুবিধরনের কারণে হয়েছিল।x1...x6yyp

এটি সম্পর্কে আমার প্রাথমিক গবেষণাটি ভিআইএফ ব্যবহার করে বহুবিধ লাইন পরীক্ষা করার পরামর্শ দেয় । আমি আর থেকে উপযুক্ত প্যাকেজটি ডাউনলোড করেছি এবং ফলাফল প্রাপ্ত ভিআইএফগুলি দিয়ে শেষ করেছি: 3.35, 3.59, 2.64, 2.24 এবং 5.56। অনলাইনে বিভিন্ন উত্স অনুসারে, আপনার ভিআইএফগুলির সাথে বহুবিধ লাইন নিয়ে আপনার উদ্বেগ হওয়া উচিত এমনটি হয় 4 বা 5 এ।

আমার ডেটাটির জন্য এটি কী বোঝায় আমি এখন স্তব্ধ হয়ে পড়েছি। আমার বা আমার কি মাল্টিকোলাইনারিটি সমস্যা নেই? আমি যদি তা করি তবে আমার কীভাবে এগিয়ে যাওয়া উচিত? (আমি আরও ডেটা সংগ্রহ করতে পারি না, এবং ভেরিয়েবলগুলি এমন কোনও মডেলের অংশ যা স্পষ্টভাবে সম্পর্কিত নয়) যদি আমার এই সমস্যা না হয় তবে আমার ডেটা থেকে আমার কী নেওয়া উচিত, বিশেষত এই পরিবর্তনগুলি অত্যন্ত তাত্পর্যপূর্ণ তা এই সত্য স্বতন্ত্রভাবে, তবে একত্রিত হয়ে গেলে তা মোটেই তাৎপর্যপূর্ণ নয়।

সম্পাদনা: ডেটাसेट সম্পর্কে কিছু প্রশ্ন জিজ্ঞাসা করা হয়েছে, এবং তাই আমি প্রসারিত করতে চাই ...

এই বিশেষ ক্ষেত্রে, আমরা নির্দিষ্ট সামাজিক সংকেতগুলি (অঙ্গভঙ্গি, দৃষ্টিশক্তি, ইত্যাদি) অন্য কোনও কিউ তৈরির সম্ভাবনাকে কীভাবে প্রভাবিত করে তা বুঝতে চাইছি। আমরা আমাদের মডেলটিকে সমস্ত উল্লেখযোগ্য বৈশিষ্ট্য অন্তর্ভুক্ত করতে চাই, তাই অপ্রয়োজনীয় কিছু দেখাতে আমি অস্বস্তি বোধ করি।

এই মুহূর্তে কোন অনুমান নেই। বরং সমস্যাটি অবিসংবাদিত এবং কী কী বৈশিষ্ট্য গুরুত্বপূর্ণ তা আমরা আরও ভাল করে বুঝতে চাইছি। আমি যতদূর বলতে পারি, এই বৈশিষ্ট্যগুলি একে অপরের তুলনায় অপেক্ষাকৃত স্বতন্ত্র হওয়া উচিত (আপনি কেবল দৃষ্টিকোণ এবং অঙ্গভঙ্গিগুলি একই, বা একটির অন্যের উপসেটটি বলতে পারবেন না)। সমস্ত কিছুর জন্য পি মানগুলি জানাতে সক্ষম হওয়াই ভাল লাগবে, যেহেতু আমরা অন্যান্য গবেষকরা কী দেখেছে তা বোঝার জন্য চাই।

সম্পাদনা 2: যেহেতু এটি নীচের কোথাও উঠে এসেছে, আমার 24 হয়।n


ধরে নেওয়া যাক আপনি না multicollinearity আছে, তবে আপনি প্রসারিত করতে, যেমন @ rolando2, প্রস্তাব দেওয়া মডেলের উদ্দীষ্ট উদ্দেশ্যমূলকভাবে? ভবিষ্যদ্বাণীকারীদের সমস্তই অন্যান্য তদন্তকারীদের কাছে গুরুত্বপূর্ণ (এমন ক্ষেত্রে আপনি তাদের প্রত্যেকের জন্য তাত্পর্যপূর্ণ স্তরের প্রতিবেদন করতে চান) বা আপনি কেবল তাদের মধ্যে একটি বা দু'জনকে ফেলে দিতে পারেন?

@ জ্লোভেগ্রেন আমি উপরে কিছু তথ্য যুক্ত করেছি - আপনার যদি আরও তথ্যের প্রয়োজন হয় তবে আমাকে জানান।
cryptic_star

ব্যাখ্যামূলক ভেরিয়েবলগুলি কি অবিচ্ছিন্ন স্কেলে পরিমাপ করা হয়? সেক্ষেত্রে, পুনঃস্থাপনের জন্য এমন পদ্ধতি রয়েছে যা খুব বেশি কঠিন নয়। এগুলি যদি শ্রেণীবদ্ধ হয় তবে আমি জানি না তবে আমি আশা করি অন্য কেউ হবে (আমি এই সাইটে অনুরূপ প্রশ্ন জিজ্ঞাসা করেছি )।

@ জ্লোভেগ্রেন ছয়টি ভেরিয়েবলের মধ্যে পাঁচটি গণনা করা হয়।
cryptic_star

আরও একটি জিনিস, শুধু নিশ্চিত করা। গণনাগুলির একটি পরিষ্কার উপরের সীমা থাকে যা ঘন ঘন অর্জন করা হয়, বা যদি নীতিগতভাবে গণনার সর্বোচ্চ মূল্য নির্ধারিত হয়?

উত্তর:


18

কী চলতে পারে তা বোঝার জন্য, বর্ণিত পদ্ধতিতে আচরণ করে এমন ডেটা উত্পন্ন (এবং বিশ্লেষণ) করা শিক্ষামূলক।

সরলতার জন্য, আসুন সেই ষষ্ঠ স্বাধীন ভেরিয়েবলটি ভুলে যাই। সুতরাং, প্রশ্ন এক নির্ভরশীল ভেরিয়েবলের রিগ্রেশন বর্ণনা পাঁচটি স্বাধীন ভেরিয়েবল বিরুদ্ধে এক্স 1 , x 2 , x 3 , x 4 , x 5 , যাyx1,x2,x3,x4,x5

  • প্রতিটি সাধারণ রিগ্রেশন 0.01 থেকে 0.001 এর চেয়ে কম স্তরে গুরুত্বপূর্ণ ।yxi0.010.001

  • একাধিক রিগ্রেশন কেবলমাত্র x 1 এবং x 2 এর জন্য উল্লেখযোগ্য সহগের ফলন দেয় ।yx1++x5x1x2

  • সমস্ত ভেরিয়েন্স মুদ্রাস্ফীতি কারণগুলি (ভিআইএফ) কম, এটি নকশার ম্যাট্রিক্সে ভাল কন্ডিশনার নির্দেশ করে (এটি, x i এর মধ্যে সমলগ্নতার অভাব )।xi

আসুন নিম্নলিখিত হিসাবে এটি ঘটায়:

  1. জেনারেট করুন জন্য স্বাভাবিকভাবে বিতরণ মান এক্স 1 এবং এক্স 2 । (আমরা পরে n নির্বাচন করব ।)nx1x2n

  2. যাক যেখানে ε গড় স্বাধীন স্বাভাবিক ত্রুটি 0Trial এর জন্য উপযুক্ত মানক বিচ্যুতি খুঁজতে কিছু বিচার এবং ত্রুটি প্রয়োজন ; 1 / 100 কাজ করে জরিমানা (এবং বরং নাটকীয় হল: Y হয় অত্যন্ত ভাল সঙ্গে সম্পর্কিত এক্স 1 এবং এক্স 2 , যদিও এটি শুধুমাত্র পরিমিতরূপে সঙ্গে সম্পর্কিত এক্স 1 এবং এক্স 2 স্বতন্ত্রভাবে)।y=x1+x2+εε0ε1/100yx1x2x1x2

  3. যাক = এক্স 1 / 5 + + δ , = 3 , 4 , 5 , যেখানে δ স্বাধীন আদর্শ স্বাভাবিক ত্রুটি। এটা তৈরি করে এক্স 3 , x 4 , x 5 শুধুমাত্র সামান্য উপর নির্ভরশীল এক্স 1 । যাইহোক, x 1 এবং y এর মধ্যে শক্ত সম্পর্কের মাধ্যমে, এটি y এবং এই x j এর মধ্যে একটি ছোট সম্পর্ক স্থাপন করে ।xjx1/5+δj=3,4,5δx3,x4,x5x1x1yyxj

এখানে ঘষা আছে: যদি আমরা করতে বৃহৎ যথেষ্ট, এই সামান্য সম্পর্কযুক্তরূপে উল্লেখযোগ্য কোফিসিয়েন্টস পরিণাম ডেকে আনবে, যদিও Y প্রায় পুরোটাই শুধুমাত্র প্রথম দুই ভেরিয়েবল দ্বারা "ব্যাখ্যা"।ny

আমি দেখতে পেয়েছি যে রিপোর্ট করা পি-মানগুলি পুনঃপ্রজননের জন্য ঠিক কাজ করে works এখানে ছয়টি ভেরিয়েবলের একটি স্ক্যাটারপ্ল্লট ম্যাট্রিক্স রয়েছে:n=500

SPM

ডান কলামটি (বা নীচের সারি) পরিদর্শন করে আপনি দেখতে পাচ্ছেন যে এক্স এর 1 এবং x 2 এর সাথে এর একটি ভাল (ধনাত্মক) সম্পর্ক আছে তবে অন্যান্য ভেরিয়েবলের সাথে সামান্য আপাত সম্পর্ক রয়েছে lation এই ম্যাট্রিক্সের বাকী অংশটি পরিদর্শন করে আপনি দেখতে পাচ্ছেন যে স্বাধীন ভেরিয়েবল এক্স 1 , , এক্স 5 পারস্পরিক নিরবচ্ছিন্ন বলে মনে হচ্ছে (এলোমেলো δyx1x2x1,,x5δআমরা জানি যে ক্ষুদ্র নির্ভরশীলতাগুলি আছে তা মুখোশ করুন)) কোনও ব্যতিক্রমী ডেটা নেই - ভয়ঙ্করভাবে বহিরাগত বা উচ্চ উত্তোলনের সাথে কিছুই নেই। হিস্টোগ্রামগুলি দেখায় যে সমস্ত ছয়টি চলক আনুমানিকভাবে সাধারণত বিতরণ করা হয়, উপায় দ্বারা: এই ডেটাগুলি যতটা সম্ভব সম্ভবত "সাধারণ ভ্যানিলা" হিসাবে সাধারণ হিসাবে বিতরণ করা যায়।

রিগ্রেশনে বিরুদ্ধে এক্স 1 এবং এক্স 2 , পি-মান মূলত 0. পৃথক রিগ্রেশন হয় Y বিরুদ্ধে এক্স 3 , তারপর Y বিরুদ্ধে এক্স 4 , এবং Y বিরুদ্ধে এক্স 5 , পি-মান 0,0024, 0,0083 হয় , এবং 0.00064 যথাক্রমে: অর্থাৎ এগুলি "অত্যন্ত তাৎপর্যপূর্ণ"। তবে সম্পূর্ণ একাধিক রিগ্রেশনে, সংশ্লিষ্ট পি-মানগুলি যথাক্রমে .46, .36 এবং .52 এ স্ফীত হয়: মোটেই তাৎপর্যপূর্ণ নয়। এই জন্য কারণ যে একবার Y বিরুদ্ধে regressed হয়েছে এক্স 1 এবং এক্সyx1x2yx3yx4yx5yx1 , শুধুমাত্র জিনিস "ব্যাখ্যা" বামে অবশিষ্টাংশ, যা আনুমানিক হবে ত্রুটির অতি ক্ষুদ্র পরিমাণ ε , এবং এই ত্রুটি প্রায় পুরোপুরি অবশিষ্ট অসম্পর্কিত হয় এক্স আমি । ("প্রায়" সঠিক: সত্যিকার অর্থেই ছোট্ট একটি সম্পর্ক রয়েছে যা থেকে অনুমান করা হয় যে বাকী অংশগুলি x 1 এবং x 2 এর মান থেকে কিছু অংশে গণনা করা হয়েছিলএবং x i , i = 3 , 4 , 5 এর কিছু দুর্বলতা রয়েছে) সাথে সম্পর্ক এক্স 1 এবং এক্স 2 । এই অবশিষ্ট সম্পর্ক কার্যত সনাক্তকরণের অযোগ্য, যদিও, হিসাবে আমরা দেখেছি।)x2εxix1x2xii=3,4,5x1x2

ডিজাইনের ম্যাট্রিক্সের কন্ডিশনার সংখ্যাটি কেবল ২.১17: এটি খুব কম, উচ্চতর বহুবিশেষের কোনও ইঙ্গিত দেখাচ্ছে না। (কোলিনারিটির নিখুঁত অভাবটি 1 এর কন্ডিশনিং সংখ্যায় প্রতিফলিত হবে তবে বাস্তবে এটি কেবল কৃত্রিম ডেটা এবং নকশা করা পরীক্ষাগুলিতেই দেখা যায় -6--6 পরিসরে শর্তাধীন সংখ্যা (বা আরও বেশি ভেরিয়েবল সহ আরও উচ্চতর) অবিস্মরণীয়)) এটি সিমুলেশনটি সম্পূর্ণ করে: এটি সমস্যার প্রতিটি দিক সফলভাবে পুনরুত্পাদন করেছে।

এই বিশ্লেষণগুলির যে অফুরন্ত অন্তর্দৃষ্টি রয়েছে তার মধ্যে অন্তর্ভুক্ত রয়েছে

  1. পি-মানগুলি সরাসরি প্রান্তিকতা সম্পর্কে কিছু বলে না। তারা তথ্যের পরিমাণের উপর দৃ strongly়ভাবে নির্ভর করে।

  2. একাধিক রিগ্রেশন এবং পি-ভ্যালু সম্পর্কিত সম্পর্কগুলিতে পি-ভ্যালুগুলির মধ্যে সম্পর্ক (স্বতন্ত্র ভেরিয়েবলের সাবসেটগুলি জড়িত) জটিল এবং সাধারণত অবিশ্বাস্য।

ফলস্বরূপ, অন্যদের যুক্তি অনুসারে, পি-মানগুলি মডেল নির্বাচনের জন্য আপনার একক গাইড (বা এমনকি আপনার মূল গাইড) হওয়া উচিত নয়।


সম্পাদন করা

এই ঘটনাটি প্রকাশের জন্য পক্ষে 500 এর চেয়ে বেশি হওয়া বড় নয় । n500 প্রশ্নে অতিরিক্ত তথ্য দ্বারা অনুপ্রাণিত নিম্নলিখিত একটি ডেটাসেটের সঙ্গে একটি অনুরূপ ফ্যাশন নির্মাণ হয় (এই ক্ষেত্রে এক্স = 0.4 এক্স 1 + + 0.4 এক্স 2 + + δ জন্য = 3 , 4 , 5 )। এটি এক্স 1 - 2 এবং এক্স 3 - 5 এর মধ্যে 0.38 থেকে 0.73 এর পারস্পরিক সম্পর্ক তৈরি করেn=24xj=0.4x1+0.4x2+δj=3,4,5x12x35। ডিজাইনের ম্যাট্রিক্সের শর্ত সংখ্যা 9.05: কিছুটা কম তবে ভয়ঙ্কর নয়। ( থাম্বের কিছু নিয়ম বলেছে যে শর্তের সংখ্যা 10 এর চেয়ে বেশি ঠিক আছে)) এর বিপরীতে পৃথক সংস্থাগুলির পি-মানগুলি 0.002, 0.015 এবং 0.008: অত্যন্ত তাৎপর্যপূর্ণ থেকে তাৎপর্যপূর্ণ। সুতরাং, কিছু বহুবিশ্লেষ জড়িত, তবে এটি এত বড় নয় যে এটি পরিবর্তনের জন্য কেউ কাজ করবে। প্রাথমিক অন্তর্দৃষ্টি একই থাকেx3,x4,x5: তাত্পর্য এবং বহুবিধ লাইন বিভিন্ন জিনিস; তাদের মধ্যে কেবল হালকা গাণিতিক প্রতিবন্ধকতা রয়েছে; এমনকি একক ভেরিয়েবলের অন্তর্ভুক্তি বা বাদ দেওয়াও সম্ভব, এমনকি গুরুতর বহুবিধ লম্বা সমস্যা না হয়েও সমস্ত পি-মানগুলিতে গভীর প্রভাব ফেলতে পারে।

x1 x2 x3 x4 x5 y
-1.78256    -0.334959   -1.22672    -1.11643    0.233048    -2.12772
0.796957    -0.282075   1.11182 0.773499    0.954179    0.511363
0.956733    0.925203    1.65832 0.25006 -0.273526   1.89336
0.346049    0.0111112   1.57815 0.767076    1.48114 0.365872
-0.73198    -1.56574    -1.06783    -0.914841   -1.68338    -2.30272
0.221718    -0.175337   -0.0922871  1.25869 -1.05304    0.0268453
1.71033 0.0487565   -0.435238   -0.239226   1.08944 1.76248
0.936259    1.00507 1.56755 0.715845    1.50658 1.93177
-0.664651   0.531793    -0.150516   -0.577719   2.57178 -0.121927
-0.0847412  -1.14022    0.577469    0.694189    -1.02427    -1.2199
-1.30773    1.40016 -1.5949 0.506035    0.539175    0.0955259
-0.55336    1.93245 1.34462 1.15979 2.25317 1.38259
1.6934  0.192212    0.965777    0.283766    3.63855 1.86975
-0.715726   0.259011    -0.674307   0.864498    0.504759    -0.478025
-0.800315   -0.655506   0.0899015   -2.19869    -0.941662   -1.46332
-0.169604   -1.08992    -1.80457    -0.350718   0.818985    -1.2727
0.365721    1.10428 0.33128 -0.0163167  0.295945    1.48115
0.215779    2.233   0.33428 1.07424 0.815481    2.4511
1.07042 0.0490205   -0.195314   0.101451    -0.721812   1.11711
-0.478905   -0.438893   -1.54429    0.798461    -0.774219   -0.90456
1.2487  1.03267 0.958559    1.26925 1.31709 2.26846
-0.124634   -0.616711   0.334179    0.404281    0.531215    -0.747697
-1.82317    1.11467 0.407822    -0.937689   -1.90806    -0.723693
-1.34046    1.16957 0.271146    1.71505 0.910682    -0.176185

আমি এই ভেরিয়েবলগুলির মধ্যে সম্পর্ক এবং y এর পূর্বাভাস দেওয়ার ক্ষেত্রে তাদের গুরুত্বের বিষয়ে ব্যাখ্যা করার জন্য কাজ করছি তা উল্লেখ করে, কোলিনারিটির অভাব আমাকে প্রাথমিকভাবে একাধিক লিনিয়ার রিগ্রেশন আমাকে কী বলেছিল: কেবলমাত্র দুটি পরিবর্তনশীল গুরুত্বপূর্ণ? যদি ভেরিয়েবলগুলি কলিনারিটি দেখায়, তবে এর অর্থ কি বেশ কয়েকটি গুরুত্বপূর্ণ, তবে একই রকম তথ্য সরবরাহ করবে? আমি বিন্দুটি পুরোপুরি অনুপস্থিত কিনা তা দয়া করে আমাকে জানান - আমি কোনওভাবেই কোনও পরিসংখ্যান বিশেষজ্ঞ নই।
cryptic_star

ওহ, এবং আমি এটিকে আমার মূল পোস্টে যুক্ত করব, তবে আমার এন 24 হবে (মানবিক বিষয় কাজ করে, তাই এটি বেশ উচ্চতর)। আপনার পোস্টের উপর ভিত্তি করে, আমি ধরে নিতে পারি যে এই কারণেই বহুবিধ অনলাইন লোকেরা আরও বেশি ডেটা পাওয়ার পরামর্শ দেয় - পার্থক্যকে আরও ভালভাবে হাইলাইট করার জন্য।
cryptic_star

n=24

1
আপনার প্রথম মন্তব্যটি পুনরায় করুন: কোলাইনারিটি সুপারিশ করে এমন কিছু ব্যাখ্যামূলক ভেরিয়েবল (আইভি) অপ্রয়োজনীয় হতে পারে, তবে এটি অবশ্যই প্রয়োজন হয় না । আইভি ও নির্ভরশীল ভেরিয়েবলের (ডিভি) মধ্যে সম্পর্কগুলি কী বিষয়গুলি গুরুত্বপূর্ণ। আইভিগুলির মধ্যে একটির পক্ষে অন্য আইভিগুলির উপর নির্ভরশীল হওয়া সম্ভব, তবুও ডিভি সম্পর্কিত অনন্যভাবে দরকারী তথ্য থাকতে পারে। এটি একটি সমালোচনা ধারণা: একা আইভির মধ্যে সম্পর্কের কোনও পরিমাণ বিশ্লেষণই আপনাকে জানাতে যাচ্ছে না কোন পরিবর্তনশীল ডিভি-কে সবচেয়ে ভাল ব্যাখ্যা করে। কোলিনারিটির অভাব - একমাত্র আইভির সম্পত্তি - ডিভি সম্পর্কে কিছুই প্রকাশ করে না।
whuber

9

আমার বা আমার কি মাল্টিকোলাইনারিটি সমস্যা নেই? আমি যদি তা করি তবে আমার কীভাবে এগিয়ে যাওয়া উচিত?

এটি কোনও বা পরিস্থিতি নয়। এবং আমি "4 বা 5" নির্দেশিকা সম্পর্কে সন্দেহবাদী। আপনার প্রতিটি ভবিষ্যদ্বাণীকের জন্য, সহগের স্ট্যান্ডার্ড ত্রুটিটি 2.2 থেকে 5.6 গুনের মধ্যে বড় হবে যদি ভবিষ্যদ্বাণীকারী অন্যের সাথে সম্পর্কযুক্ত না হয়। এবং প্রদত্ত ভবিষ্যদ্বাণীকের যে অংশটি অন্যদের দ্বারা ব্যাখ্যা করা যায় না সেগুলি 1 / 2.2 থেকে 1 / 5.6 বা 18% থেকে 45% অবধি রয়েছে। সামগ্রিকভাবে, এটি কল্যানারিটির বেশ যথেষ্ট পরিমাণে বলে মনে হচ্ছে।

তবে আসুন এক মিনিটের জন্য পিছনে। আপনি কি সত্যিই * Y * এর ব্যাখ্যা দেওয়ার চেষ্টা করার বিপরীতে পূর্বাভাস দেওয়ার চেষ্টা করছেন ? যদি প্রাক্তন হয় তবে আমি মনে করি না যে অন্যরা যখন মডেলটিতে উপস্থিত থাকে তখন প্রদত্ত ভেরিয়েবলের তাত্পর্যপূর্ণ স্তরটির তাত্পর্যতা আপনার প্রয়োজন কিনা। আপনার কাজটি সত্যিকারের ব্যাখ্যা প্রয়োজন হলে তার চেয়ে অনেক সহজ।

যদি ব্যাখ্যাটি আপনার লক্ষ্য হয় তবে আপনাকে এই ভেরিয়েবলগুলি যেভাবে আন্তঃসম্পর্কিত হতে পারে সে বিষয়টি বিবেচনা করতে হবে - এমন কিছু বিষয় যা পরিসংখ্যান সম্পর্কিত তথ্যের চেয়েও বেশি প্রয়োজন। স্পষ্টতই তারা ওয়াইয়ের সাথে সম্পর্কিত যেভাবে ওভারল্যাপ করে , এবং এই সমান্তরালতা স্থাপন করা কঠিন করে তোলে, উদাহরণস্বরূপ, ওয়াইয়ের জন্য অ্যাকাউন্টিংয়ে তাদের র‌্যাঙ্কের গুরুত্বকে । এই পরিস্থিতিতে আপনার অনুসরণ করার জন্য সুস্পষ্ট কোন পথ নেই।

যাই হোক না কেন, আমি আশা করি আপনি ক্রসওয়েডিয়েশন পদ্ধতি বিবেচনা করছেন।


জন এর মতো এই উত্তরটিও উচ্চ সম্পর্কের সাথে লো-পি-মানগুলিকে বিভ্রান্ত করে। মনে রাখবেন: সহগের স্ট্যান্ডার্ড ত্রুটিগুলি ক্রমবর্ধমান পরিমাণে ডেটা ( ক্যাটারিস প্যারিবাস ) এর সাথে হ্রাস পায় , সুতরাং পর্যাপ্ত পর্যবেক্ষণ উপস্থিত থাকলে, নিম্ন পি-মানগুলি প্রায় কোনও সম্পর্কযুক্ত ডেটা দিয়ে অর্জন করা যায় provided
whuber

উচ্চ সম্পর্কের সাথে কম পি-মানগুলিকে বিভ্রান্ত করবেন? পাস দু টাউট!
রোল্যান্ডো 2

তারপরে দয়া করে ব্যাখ্যা করুন কীভাবে একটি কঠোরভাবে পি-মান ধারণাটি ("সহগরের স্ট্যান্ডার্ড ত্রুটিটি 2.2 থেকে 5.6 গুণগুণের মধ্যে বড় হবে যদি ভবিষ্যদ্বাণীকারী অন্যের সাথে সম্পর্কযুক্ত না হয়") আপনাকে এই সিদ্ধান্তে নিয়ে যায় "এটি বেশ সরল মনে হয় কলিনারিটির পরিমাণ, "যা পারস্পরিক সম্পর্কের সাথে দৃ strongly়ভাবে সম্পর্কিত (ভেরিয়েবলগুলি মানক করা হলে কোলাইনারিটির পদক্ষেপগুলি পারস্পরিক সম্পর্ক মেট্রিক্সের বৈশিষ্ট্য)।
হোয়বার

আমি এটাকে এই ভাবেই দেখি. যখন ভিআইএফ 5.6 হয়, তখন ভবিষ্যদ্বাণীকারীদের মধ্যে 82% বৈকল্পিকের জন্য অন্যান্য ভবিষ্যদ্বাণীকারী হিসাবে বিবেচিত হতে পারে। আমি দেখতে পাচ্ছি না কীভাবে এটি এন এর উপর নির্ভরশীল হতে পারে
Rolando2

1
এই হতাশাবাদী মূল্যায়নের প্রতিপক্ষ হিসাবে (যার অঙ্গগুলির নিয়মে কিছুটা ন্যায়সঙ্গততা রয়েছে যেমন ভেরিয়েবল হিসাবে 5-10 গুণ বেশি পর্যবেক্ষণের প্রয়োজন হয়), এটি লক্ষণীয় যে মডেলিং এবং ডেটা বিশ্লেষণের পুরো ক্ষেত্রগুলি বেশ কয়েকটি সমস্যার আশেপাশে বেড়েছে পর্যবেক্ষণ এবং অনেক ভবিষ্যদ্বাণী, যেমন ড্যাক (কম্পিউটার পরীক্ষার নকশা এবং বিশ্লেষণ)। সেমিনাল পেপারের জন্য রিসোর্সস- ক্যাকুয়ারিয়েলস.না. / পাঠ্য / আইএসএএফ / 1226.nsf/… দেখুন ।
whuber

6

আপনার বহুবিধ লাইন রয়েছে। আপনার প্রাথমিক বিশ্লেষণ এটি প্রমাণ করেছে। যতদূর সমস্যা হ'ল, এটি অন্য একটি প্রশ্ন যা আপনার ক্ষেত্রে অনেক উত্তর রয়েছে বলে মনে হয়।

আপনি যদি বেসিক সমস্যাটি আরও ভালভাবে পেতেন তবে এটি করা উচিত যে আরও কী করা উচিত? ...

মাল্টিকোলাইনারিটির সাথে আপনার প্রতিরোধের সহগগুলি আপনার মডেলের প্রতিটি ভেরিয়েবলের অনন্য (অনন্যের সাথে ভালই) অবদান সম্পর্কে। কিছু যদি একে অপরের সাথে সম্পর্কযুক্ত হয় তবে প্রতিটি স্বাক্ষরিত ব্যক্তির অনন্য অবদান ছোট। এটি সম্ভবত আংশিকভাবে কেন যখন তারা সবাই একসাথে থাকবেন তখন কিন্তু তা যখন একা ব্যবহৃত হয় তখন তা তাত্পর্যপূর্ণ নয়।

আপনার সম্ভবত প্রথমটি যা করা দরকার তা হল আপনার ভেরিয়েবলগুলির মধ্যে আন্তঃসংযোগের অর্থ কী তা বিবেচনা করা। উদাহরণস্বরূপ, আপনার কি ভেরিয়েবলগুলির একটি গুচ্ছ রয়েছে যা কেবল একই জিনিসটির জন্য দাঁড়িয়ে? আপনি কি কেবলমাত্র আপনার ভবিষ্যদ্বাণীকে দুর্বল আকারে পরিমাপ করতে এবং ঘটনামূলক সম্পর্কগুলি পেতে পেরেছিলেন? রিগ্রেশনটি ঠিক করার চেষ্টা করবেন না, আপনার ভেরিয়েবলগুলি বোঝার চেষ্টা করুন।

এক্স 1 এবং এক্স 2 এর মধ্যে খুব দৃ corre় সম্পর্কের সাথে বিবেচনা করুন, r = 0.90 বলুন। আপনি যদি মডেলটিতে এক্স 1 রাখেন এবং এটি একটি উল্লেখযোগ্য ভবিষ্যদ্বাণীকারী তবে একা এক্স 2 সহ অন্য একটি মডেল খুব সম্ভবত তাত্পর্যপূর্ণ হবে কারণ তারা প্রায় একই জিনিস। আপনি যদি তাদের এক সাথে মডেলটিতে রাখেন তবে তাদের মধ্যে অন্তত একটিরও ক্ষতিগ্রস্থ হতে হবে কারণ একাধিক প্রতিরোধ তাদের অনন্য অবদানগুলিতে সমাধান করতে চলেছে। তারা উভয় অ-তাৎপর্যপূর্ণ হতে পারে। তবে এটি বিন্দু নয়, বিন্দুটি স্বীকৃতি দিচ্ছে যে এগুলি কেন এত বেশি ওভারল্যাপ হয় এবং যদি তারা একে অপরের থেকে আলাদা কিছুও বলে এবং আপনার সেগুলি দরকার বা নাও? অন্য একজনের চেয়ে আপনার প্রতিক্রিয়ার ভেরিয়েবলের সাথে একটি আরও অর্থ অর্থপূর্ণ এবং আরও সম্পর্কিত একটি ধারণা প্রকাশ করে। হতে পারে আপনি সিদ্ধান্তে পৌঁছাতে পারবেন যে তারা বিভিন্ন স্তরের পরিবর্তনশীলতার সাথে একই জিনিস।

এছাড়াও, কোনও ধরণের মডেলগুলির দিকে তাকানোর সময়, তবে বিশেষত আন্তঃসংক্রান্ত ভবিষ্যদ্বাণীকারীদের সাথে, পি-মানগুলি একটি ভয়ানক উপায় তা বলার জন্য যে কোনও নতুন ভবিষ্যদ্বাণী কোনও অর্থবহ অবদান রাখে (যদি আপনি এটি করার চেষ্টা করছেন তবে ... নিশ্চিত নন আপনি 'চেষ্টা করার চেষ্টা করছি কারণ মনে হচ্ছে আপনি কেবল এ) রিগ্রেশনকে এ) সরল করার চেষ্টা করছেন, বা খ) আপনার ইচ্ছামতো উপায়টি সামনে আসবে ... যার কোনটিই সম্ভব নয়)। কোন ভবিষ্যদ্বাণীকারীদের আপনার রাখা উচিত এবং কোনটি অবদান রাখবে না তা নির্ধারণে সহায়তা করার জন্য আপনি সম্ভবত এআইসির দিকে নজর দেওয়া ভাল।


কম পি-মানগুলি কীভাবে বহুবিধ লাইন প্রদর্শন করে? দুটি ধারণা সম্পূর্ণ আলাদা। পর্যাপ্ত ডেটা সহ, আপনার কম পি-মান থাকতে পারে এবং প্রায় কোনও মিল নেই।
whuber

জন, আমি ঠিক এটাই প্রতিযোগিতা করছি: আপনি আপনার প্রথম বাক্যে এই সিদ্ধান্তে উপনীত হয়ে গেছেন যে ওপি যা বর্ণনা করে তা বোঝায় যে "আপনার বহুবিধ বর্ণ আছে"। তবে এটিই ওপি জানতে চায়: "আমি বা আমার কাছে মাল্টিকোলাইনারিটি সমস্যা নেই"? আমি যুক্তি দিচ্ছি যে সঠিক উত্তরটি "আপনি আমাদের যথেষ্ট পরিমাণে তথ্য দেননি, তবে সম্ভবত তা নয়" কারণ প্রশ্নটিতে বর্ণিত ঘটনাগুলি শর্তযুক্ত সমস্যার সাথে পুরোপুরি সামঞ্জস্যপূর্ণ। প্রকৃতপক্ষে, ওপি দ্বারা প্রতিবেদন করা কম ভিআইএফ-র পরামর্শ দেয় যে আপনার বক্তব্যটি মিথ্যা।
whuber

আমি তা কোথাও বলিনি। প্রাথমিক বিশ্লেষণ সম্পর্কে আমি যা বলেছিলাম সম্ভবত আপনি তা বোঝাতে চেয়েছেন। প্রাথমিক বিশ্লেষণটি ছিল যে অন্যান্য প্রভাবগুলি কী যুক্ত হয়েছিল তার উপর নির্ভর করে প্রভাবগুলি অনেক পরিবর্তন করে। এটি বহু-তাত্ক্ষণিকতার কারণে হয়েছিল (যদিও এটি এটি পরিমাণমতো দেয় না)। অবশ্যই তাৎপর্য একটি আলাদা বিষয়। আমি সত্যিই জানি না আপনি কী পাচ্ছেন?
জন

দুঃখিত আপডেট মন্তব্য করার জন্য, কিন্তু আপনার যাই হোক না কেন ভাল কাজ .... পাঠক, উপরের শেষ দুটি বিপরীত এবং এটি আমার দোষ। হুঁশ, আমি কেবল "সমস্যা" শব্দটির প্রতি মনোনিবেশ করেছি। মাল্টিকোল্লাইনারিটি এমন একটি জিনিস যা আপনি পরিমাণ নির্ধারণ করেন। এখানে কিছু. এটি নির্বিশেষে ভেরিয়েবলগুলি সম্পর্কে কঠোরভাবে চিন্তা করার পরামর্শ দেয়। এটি আরও প্রস্তাব করে যে যুক্ত ও পূর্বাভাসকারীদের যুক্ত বা অপসারণের সময় পরিবর্তিত হওয়ার কারণটি সেই বহুবিশেষের কারণে। প্রশ্নকারীর এটি একটি গণনা "সমস্যা" হওয়ায় এটি সম্পর্কে সত্যই উত্তর চেয়েছিল বলে আমি ধারণাটি পাইনি।
জন

এই প্রশ্নটি আমরা বিভিন্নভাবে ব্যাখ্যা করতে পারি, জন। যেহেতু আমি এখানে আমার মন্তব্যে সম্ভবত সমস্যাটি বিভ্রান্ত করতে চাই না, আমি আমার বক্তব্যটি ব্যাখ্যা করতে একটি উত্তর যুক্ত করেছি।
শুকনো

2

ব্যক্তিগতভাবে, আমি শর্ত সূচিপত্র এবং বৈকল্পিক ব্যাখ্যা টেবিল ব্যবহার করতাম কোলাইনারিটি বিশ্লেষণের জন্য।

আমি মডেল বিল্ডিংয়ের মানদণ্ড হিসাবে পি মানগুলিও ব্যবহার করব না, এবং যখন 6 আইভি সহ মডেলগুলি 1 এর সাথে মডেলগুলির সাথে তুলনা করি, আমি উভয়ই পরিবর্তনশীলটির জন্য প্যারামিটারের প্রভাব আকারে পরিবর্তনগুলি দেখব।

কিন্তু কোলাইনারিটি ছাড়াই আপনি অবশ্যই ফলাফলগুলি উল্লেখ করতে পারেন। কোলাইনারিটি কেবল এক্স ভেরিয়েবল এবং তাদের সম্পর্ক সম্পর্কে। একে অপরের সাথে দৃ strongly়তার সাথে সম্পর্ক না রেখে দুটি ভেরিয়েবল উভয়ের সাথেই দৃ strongly়তার সাথে সম্পর্কিত হতে পারে।


1
এটি আমার কাছে অপ্রতিরোধ্য বলে মনে হচ্ছে, দুটি ভেরিয়েবল একে অপরের সাথে দৃ strongly়তার সাথে সম্পর্ক না করেই ওয়াইয়ের সাথে দৃ strongly়তার সাথে সম্পর্কিত হতে পারে। আপনি আমাকে নির্দেশ করতে পারে এমন একটি উদাহরণ আছে, বা আরও দীর্ঘ ব্যাখ্যা?
cryptic_star

@ পিটার - ১- (১ / .6. =) সহ = %২% এর পূর্বের ভবিষ্যদ্বাণীকারীর পরিবর্তনের অন্যদের দ্বারা অন্যরা ব্যাখ্যা করেছেন, আপনি কেন বলছেন যে সেখানে কোনও মিল নেই?
Rolando2

3
x1x2y=x1+x2yx1x2x1x2

0

মাল্টিকোলাইনারিটির বিষয়ে বিভিন্ন থ্রেশহোল্ডগুলি সাধারণত 10 এর একটি ভিআইএফ এর চারপাশে রূপান্তরিত হয় যা অন্যান্য স্বতন্ত্র ভেরিয়েবল বনাম পরীক্ষিত ভেরিয়েবলের মধ্যে 0.90 এর অন্তর্নিহিত আর স্কয়ার মানের সাথে মিলিত হয়। আপনার ভেরিয়েবলের ভিআইএফগুলি প্রবেশযোগ্য দেখা যায় এবং আপনি এগুলি প্রযুক্তিগতভাবে কোনও মডেলে রাখতে পারেন।

তবুও, আমি ভেরিয়েবলগুলির সর্বোত্তম সমন্বয় এবং ভেরিয়েবলগুলি যুক্ত করে আরও কীভাবে ব্যাখ্যা (আর স্কয়ারে বর্ধমান বৃদ্ধি) পেতে পারি তা দেখার জন্য আমি একটি পদক্ষেপের নিবন্ধন পদ্ধতি ব্যবহার করব। আরবিট্রেটিং বেঞ্চমার্কটি অ্যাডজাস্টেড আর স্কোয়ার মান হওয়া উচিত যা ভেরিয়েবলগুলি যুক্ত করার জন্য মডেলটিকে দণ্ডিত করে আর স্কোয়ারের মানটি নিম্নতর দিকে সমন্বিত করে।

আপনার ভেরিয়েবলগুলি একে অপরের সাথে কিছুটা সম্পর্কযুক্ত। এটি অনিবার্য, এটি কেবলমাত্র ডিগ্রির বিষয়। আপনি যে ভিআইএফ-র উল্লেখ করেছেন তাতে প্রদত্ত, আমি স্বজ্ঞাতভাবে সন্দেহ করি যে আপনি সেরা 2 পরিবর্তনশীল সংমিশ্রণ থেকে তথ্য / ব্যাখ্যা বিটের বিশাল সংখ্যাগরিষ্ঠতা পাবেন। এবং, যে যুক্ত ভেরিয়েবলগুলি কেবলমাত্র প্রান্তিক বর্ধিত মান যুক্ত করতে পারে।

ধাপে ধাপে রিগ্রেশন প্রক্রিয়া দ্বারা নির্বাচিত ভেরিয়েবলগুলির সংমিশ্রনের দিকে তাকানোর সময়, আমি কী ভেরিয়েবলগুলি নির্বাচন করা হয় তাও দেখতে চাই এবং যদি তাদের রিগ্রেশন সহগ লক্ষণগুলি y এর সাথে তাদের সম্পর্কের সাথে সামঞ্জস্য হয়। যদি তা না হয় তবে এটি ভেরিয়েবলের মধ্যে বৈধ মিথস্ক্রিয়াজনিত কারণে হতে পারে। তবে, এটি মডেল ওভারফিটিংয়ের ফলেও হতে পারে এবং যে রিগ্রেশন কো-কোফিয়েনটিস উত্সাহী। এগুলি গাণিতিক ফিটকে প্রতিফলিত করে তবে অন্তর্নিহিত কার্যকারিতার দিক থেকে অর্থহীন।

আপনার ভেরিয়েবলগুলি নির্বাচন করার আরেকটি উপায় হ'ল যুক্তিগত দৃষ্টিকোণ থেকে সিদ্ধান্ত নেওয়া হয় কোনটি প্রধান 2 বা 3 ভেরিয়েবলগুলি মডেলের মধ্যে থাকা উচিত। আপনি সেগুলি দিয়ে শুরু করুন এবং তারপরে একটি ভেরিয়েবল যুক্ত করে আরও কত তথ্য পাবেন তা পরীক্ষা করে দেখুন। মূল প্রতিরোধের তুলনায় সামঞ্জস্য হওয়া আর স্কোয়ারটি পরীক্ষা করুন, স্পষ্টতই হোল্ড আউট পিরিয়ড সহ সমস্ত মডেল পরীক্ষা করুন। খুব শীঘ্রই, এটি আপনার সেরা মডেল কী তা স্পষ্ট হয়ে যাবে।


4
Radj2

আপনি যে সমস্যার সমাধান করেছেন সেগুলির অনেকগুলিই সাধারণত লিনিয়ার রেগ্রেশন মডেলগুলিতে সাধারণ। আমি নিশ্চিত নই যে এ জাতীয় প্রযুক্তিগত সমস্যাগুলি সাধারণভাবে সমস্ত ধাপে ধাপে রিগ্রেশন পদ্ধতি এবং লিনিয়ার রিগ্রেশন ফেলে দেওয়ার কারণ। আমি কেন অস্পষ্ট যে পদক্ষেপের জন্য রিগ্রেশন "এলোমেলো ভেরিয়েবলের ভিত্তিতে নির্বাচন করছে, যা অনেক সমস্যার সৃষ্টি করে।" স্টেপওয়াইস কোনও মডেলের মতোই সবচেয়ে উপযুক্ত ফিট করে। আমার কাছে যা বেশি গুরুত্বপূর্ণ বলে মনে হয় তা হল গাণিতিক ফিট যে সমস্যার সমাধান করছেন তার অন্তর্নিহিত তত্ত্ব বা যুক্তির সাথে মিল রয়েছে কিনা তা নিশ্চিত করা।
সিম্পা

3
R2Radj2Fp

কিন্তু, আমি নিশ্চিত যে আমরা একই জিনিস কথা বলছি না। আমি স্টিপওয়াইজ রেগ্রেশনটি দুটি উপায়ে ব্যবহার করছি। একটি হ'ল ম্যানুয়াল, আপনি সেরা রেজিস্ট্রার ব্যবহার করে একটি মডেল তৈরি করেন। এবং আপনি এটিতে 2 য় সেরা চলক ব্যবহার করে যুক্ত করুন যা প্রথম মডেলের ত্রুটিটিকে সর্বোত্তমভাবে ব্যাখ্যা করে। এবং, আপনার এআইসির স্কোর অবনতি না হওয়া পর্যন্ত আপনি চালিয়ে যান। আমি যে দ্বিতীয় পদ্ধতিটি ব্যবহার করেছি তা হ'ল এক্সএলস্ট্যাট সফ্টওয়্যার ব্যবহার করে যা প্রক্রিয়াটি স্বয়ংক্রিয় করে দেয় এবং থিয়েরি ফাহমি এবং তার দল দ্বারা বিকাশ করা হয়েছিল। তিনি তাঁর দলের অন্যান্যদের সাথে আমি গণিতে পিএইচডি বুঝতে পেরেছি। এবং, আমি বিশ্বাস করি না যে তারা আপনার উল্লিখিত সমস্ত ফাঁদে পড়ে যাবে।
সিম্পা

2
গায়েতন, আমি মনে করি @ গং যা বলার চেষ্টা করছে তা হ'ল ধাপের দিকের পদ্ধতিগুলি প্রাথমিক পরিসংখ্যানগত রিগ্রেশন কাঠামোর (ক্ষতি ফাংশন, পি-মান ইত্যাদি) মারাত্মক ক্ষতি করতে পারে। ফ্র্যাঙ্ক হ্যারেলের প্রতিক্রিয়া এবং মন্তব্যগুলি এখানে দেখুন । দণ্ডিত রিগ্রেশন, যেমন বিভিন্ন থ্রেডে আলোচনা করা হয়েছে, এটি একটি ভাল বিকল্প হতে পারে। "(...) সফ্টওয়্যার যা প্রক্রিয়াটিকে স্বয়ংক্রিয় করে তোলে" আমাকে আর এর স্মরণ করিয়ে দেয় fortune(224): এখানে কোনও ট্রল নেই, কেবল হাইলাইট করতে চান যে কোনও বিকল্প হিসাবে আপনাকে সফ্টওয়্যার স্বয়ংক্রিয়ভাবে কী দেয় (বা অফার করে) আপনাকে বিশ্বাস করার দরকার নেই।
chl

0

যদি আপনার ব্যাখ্যামূলক চলকগুলি ডেটা গণনা করা হয় এবং এটি সাধারণত বিতরণ করা হয় তা ধরে নেওয়া অযৌক্তিক না হয়, আপনি আর-র scaleকমান্ড ব্যবহার করে এগুলিকে মানক সাধারণ পরিবর্তনে রূপান্তর করতে পারেন । এটি করার ফলে প্রান্তিকতা হ্রাস করতে পারে। তবে এটি সম্ভবত পুরো সমস্যার সমাধান করবে না।

কোলিনারিটির বিশ্লেষণ ও মোকাবেলা করার জন্য আর কমান্ডগুলির একটি দরকারী ব্যাচ ফ্লোরিয়ান জায়েজারের ব্লগে পাওয়া যায় :

z. <- function (x) scale(x)
r. <- function (formula, ...) rstandard(lm(formula, ...))

z.ফাংশন একটি আদর্শ স্বাভাবিক variate মধ্যে একটি ভেক্টর পরিবর্তন করে। r.ফাংশন আয় মানুষের বিরুদ্ধে predictor regressing প্রমিত অবশিষ্টাংশ। আপনি মডেল বিচ্যুতিটিকে কার্যকরভাবে বিভিন্ন প্রান্তে বিভক্ত করতে এটি ব্যবহার করতে পারেন যাতে কেবলমাত্র কয়েকটি ভেরিয়েবলের সিনিয়র ট্র্যাঞ্চে অ্যাক্সেস থাকে, তারপরে পরবর্তী স্তরটি অবশিষ্টাংশগুলিতে পুনরায় স্থান দেওয়া হবে। (আমার হোমস্পানের পরিভাষার জন্য দুঃখিত) সুতরাং যদি ফর্মের কোনও মডেল হন

Y ~ A + B

মাল্টিকোলাইনারিটিতে ভুগছে, তারপরে আপনি যে কোনও একটিতে চালাতে পারেন

Y ~ A + r.(B)
Y ~ r.(A) + B

যাতে কেবলমাত্র "জুনিয়র ট্র্যাঞ্চ" ভেরিয়েবলের অবশিষ্টাংশগুলি ("সিনিয়র ট্র্যাঞ্চ" ভেরিয়েবলের বিরুদ্ধেই চাপ দেওয়া হয়) তখন মডেলটিতে লাগানো হয়। এইভাবে, আপনি মাল্টিকোলাইনারিটি থেকে রক্ষা পেয়েছেন তবে প্রতিবেদন করার জন্য প্যারামিটারগুলির আরও জটিল সেট রয়েছে।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.