রিগ্রেশন মডেল এবং স্থানিক স্বতঃসংশ্লিষ্ট


15

আমি দুটি স্বতন্ত্র ডাটাবেসের মধ্যে নির্ভরতা বৈধ করার জন্য ওএলএস এবং জিডব্লিউআর ব্যবহার করেছি। জিডব্লিউআর এর জন্য রেসিডুয়াল স্কোয়ারটি 0.82 এবং এর ফলে এটি দুটি ডেটাসেটের মধ্যে সম্পর্ক নির্ধারণের জন্য ব্যবহার করার জন্য সঠিক রিগ্রেশন মডেল তৈরি করে।

আমি যেটি জানতে চেয়েছিলাম, জিডব্লিউআর হ'ল স্থানীয় রিগ্রেশন এবং ওএলএস হ'ল বিশ্বব্যাপী রিগ্রেশন, যা কখন এবং কখন ব্যবহার করা উচিত?

এছাড়াও জিডব্লিউআর মডেলটির জন্য মরানের আইটি এলোমেলো হলে এর অর্থ কী?

উত্তর:


13

এই পদ্ধতিগুলি কি

যদিও ওএলএস এবং জিডব্লিউআর তাদের পরিসংখ্যান গঠনের অনেকগুলি অংশ ভাগ করে নিলেও সেগুলি বিভিন্ন উদ্দেশ্যে ব্যবহৃত হয়:

  • ওএলএস আনুষ্ঠানিকভাবে একটি নির্দিষ্ট ধরণের বিশ্বব্যাপী সম্পর্কের মডেল করে। এর সর্বাধিক আকারে, ডেটাসেটের প্রতিটি রেকর্ড (বা কেস) পরীক্ষামূলক দ্বারা সেট করা একটি মান, x, যা প্রায়শই "স্বতন্ত্র ভেরিয়েবল" নামে পরিচিত) এবং অন্য মান, y থাকে যা পর্যবেক্ষণ করা হয় ("নির্ভরশীল চলক") )। ওএলএস অনুমান করে যে y প্রায় হয়বিশেষত সরল উপায়ে x এর সাথে সম্পর্কিত: যথা: অজানা (অজানা) সংখ্যা 'ক' এবং 'বি' রয়েছে যার জন্য এক্স এর সমস্ত মানগুলির জন্য a + b * x y এর ভাল অনুমান হবে যেখানে পরীক্ষক আগ্রহী হতে পারে । "ভাল অনুমান" স্বীকার করে যে y এর মানগুলি এই জাতীয় যে কোনও গাণিতিক পূর্বাভাসের চেয়ে পৃথক হতে পারে এবং তা হতে পারে কারণ (1) প্রকৃতপক্ষে - প্রকৃতি খুব কমই গাণিতিক সমীকরণের মতো সহজ - এবং (2) y কে কিছু দিয়ে পরিমাপ করা হয় ত্রুটি. A এবং b এর মানগুলি অনুমান করার পাশাপাশি ওএলএস y এর পরিবর্তনের পরিমাণকেও মাপ দেয়। এটি ওএলএস প্যারামিটারগুলির পরিসংখ্যানগত তাত্পর্য স্থাপনের সক্ষমতা দেয় the

এখানে একটি ওএলএস ফিট রয়েছে:

এখানে চিত্র বর্ণনা লিখুন

  • স্থানীয় সম্পর্ক অন্বেষণ করতে জিডব্লিউআর ব্যবহার করা হয় । এই সেটিংটিতে এখনও (x, y) জোড়া রয়েছে, তবে এখন (1) সাধারণত, x এবং y উভয়ই পালন করা হয় - কোনও পরীক্ষক দ্বারা আগেই নির্ধারণ করা যায় না - এবং (2) প্রতিটি রেকর্ডের একটি স্থানিক স্থান রয়েছে, z । যে কোনও অবস্থানের জন্য, z (ডেটা উপলভ্য এমন একের জন্য প্রয়োজনীয় নয়), জিডব্লিউআর y = a (z) + b (z) আকারে y এবং x এর মধ্যে অবস্থান-নির্দিষ্ট সম্পর্কের অনুমান করতে পার্শ্ববর্তী ডেটা মানগুলিতে ওএলএস অ্যালগরিদম প্রয়োগ করে *এক্স. স্বরলিপি "(জেড)" জোর দেয় যে সহগ এবং ক এর অবস্থানগুলির মধ্যে পৃথক হয়। যেমন, জিডব্লিউআর হ'ল স্থানীয়ভাবে ওজনযুক্ত স্মুথারের একটি বিশেষ সংস্করণযার মধ্যে প্রতিবেশ নির্ধারণের জন্য কেবলমাত্র স্থানিক স্থানাঙ্কগুলি ব্যবহৃত হয়। তার আউটপুট করতে ব্যবহৃত হয় সুপারিশ একটি স্থানিক অঞ্চল জুড়ে x এবং y covary কীভাবে মান। এটি লক্ষণীয় যে প্রায়শই 'x' এবং 'y' এর মধ্যে কোনটি সমীকরণে স্বতন্ত্র পরিবর্তনশীল এবং নির্ভরশীল ভেরিয়েবলের ভূমিকা পালন করা উচিত তা বেছে নেওয়ার কোনও কারণ নেই, তবে আপনি যখন এই ভূমিকাটি স্যুইচ করবেন, ফলাফল পরিবর্তন হবে ! আনুষ্ঠানিক পদ্ধতি না করে জিডব্লিউআরকে অনুসন্ধানী হিসাবে বিবেচনা করা উচিত - ডেটা বোঝার জন্য একটি ভিজ্যুয়াল এবং ধারণাগত সহায়তা - এটি বহু কারণ হিসাবে বিবেচিত।

এখানে স্থানীয়ভাবে ওজনযুক্ত মসৃণ। লক্ষ্য করুন কীভাবে এটি ডেটাতে আপাত "উইগলস" অনুসরণ করতে পারে তবে প্রতিটি পয়েন্টের মধ্যে দিয়ে ঠিক পাস হয় না। (এটি পয়েন্টগুলির মধ্য দিয়ে যেতে বা ছোট উইগলগুলি অনুসরণ করতে, পদ্ধতিতে একটি সেটিংস পরিবর্তন করে তৈরি করা যেতে পারে, ঠিক যেমন GWR এর পদ্ধতিতে সেটিংস পরিবর্তন করে স্থানিক ডেটা কমবেশি অনুসরণ করতে পারে))

Lowess

স্বজ্ঞাতভাবে, ওএলএসকে (x, y) জোড়া এবং GWR এর স্ক্র্যাটারপ্লটকে একটি অনমনীয় আকার (যেমন একটি লাইন) ফিট করার জন্য সেই আকারটি নির্বিচারে বিচলিত করার জন্য ভাবেন।

তাদের মধ্যে নির্বাচন করা

বর্তমান ক্ষেত্রে, যদিও "দুটি স্বতন্ত্র ডাটাবেস" বলতে কী বোঝায় তা পরিষ্কার নয়, তবে মনে হয় যে ওএলএস বা জিডাব্লুআরআর উভয়ের মধ্যে একটি সম্পর্ক "বৈধতা" দেওয়ার জন্য অনুপযুক্ত হতে পারে inappropriate উদাহরণস্বরূপ, যদি ডাটাবেসগুলি একই স্থানে একই পরিমাণের স্বতন্ত্র পর্যবেক্ষণগুলি উপস্থাপন করে তবে (1) ওএলএস সম্ভবত অনুপযুক্ত কারণ x (একটি ডাটাবেসের মান) এবং y (অন্য ডাটাবেসের মান) উভয় হওয়া উচিত বিবিধ হিসাবে কল্পনা করা (স্থির এবং সঠিকভাবে উপস্থাপিত হিসাবে এক্স ভাবার পরিবর্তে) এবং (2) জিডাব্লুআরআর এক্স এবং ওয়াইয়ের মধ্যে সম্পর্ক অন্বেষণের জন্য জরিমানা , তবে এটি বৈধকরণের জন্য ব্যবহার করা যায় নাযেকোনো কিছু: এটি সম্পর্কের সন্ধানের গ্যারান্টিযুক্ত, যাই হোক না কেন। তদ্ব্যতীত, আগে যেমনটি মন্তব্য করেছিলেন, "দুটি ডাটাবেস" এর প্রতিসামগ্রী ভূমিকা নির্দেশ করে যে হয় হয় 'এক্স' এবং অন্যটি 'ওয়াই' হিসাবে বেছে নেওয়া যেতে পারে, যার ফলে দুটি সম্ভাব্য জিডাব্লুআর ফলাফলের পৃথক হওয়ার নিশ্চয়তা রয়েছে।

এখানে একই উপাত্তের স্থানীয় ওজনযুক্ত মসৃণ, এক্স এবং y এর ভূমিকাগুলি বিপরীত করে। এটি পূর্বের প্লটের সাথে তুলনা করুন: লক্ষ্য করুন যে সামগ্রিক ফিট কতটা স্টিপার এবং কীভাবে এটি বিশদে আলাদা হয়।

নিম্নমান 2

দুটি ডাটাবেস একই তথ্য সরবরাহ করছে বা তাদের আপেক্ষিক পক্ষপাত, বা আপেক্ষিক নির্ভুলতা নির্ধারণের জন্য বিভিন্ন কৌশল প্রয়োজন। প্রযুক্তির পছন্দটি ডেটাগুলির পরিসংখ্যানগত বৈশিষ্ট্য এবং বৈধকরণের উদ্দেশ্যগুলির উপর নির্ভর করে। উদাহরণ হিসাবে, রাসায়নিক পরিমাপের ডাটাবেসগুলি সাধারণত ক্রমাঙ্কন কৌশলগুলি ব্যবহার করে তুলনা করা হবে ।

মরানের আই

"জিডব্লিউআর মডেলের জন্য মরানের আমি" এর অর্থ কী তা বলা শক্ত। আমি অনুমান করি যে কোনও মরানের আই স্ট্যাটিস্টিক কোনও জিডব্লিউআর গণনার অবশিষ্টাংশের জন্য গণনা করা যেতে পারে। (অবশিষ্টাংশগুলি হ'ল প্রকৃত এবং লাগানো মানগুলির মধ্যে পার্থক্য)) মুরানের প্রথম স্থানিক পারস্পরিক সম্পর্কের একটি বিশ্বব্যাপী পরিমাপ। যদি এটি ছোট হয় তবে এটি পরামর্শ দেয় যে ওয়াই-মান এবং জিডাব্লুআরআর এক্স-মানগুলির সাথে ফিট করে তার মধ্যে পার্থক্য খুব কম বা কোনও স্থানিক পারস্পরিক সম্পর্ক রয়েছে। যখন জিডব্লিউআর তথ্যগুলিতে "টিউন করা হয়" (এটি কোনও বিন্দুর "প্রতিবেশী" আসলে কী তা সিদ্ধান্ত নেওয়ার সাথে জড়িত), অবশিষ্টাংশগুলিতে স্বল্প স্থানের পারস্পরিক সম্পর্ক আশা করা যায় কারণ জিডব্লিউআর (স্পষ্টভাবে) এক্স এবং ওয়াইয়ের মধ্যে যে কোনও স্থানিক পারস্পরিক সম্পর্ককে কাজে লাগায় এর অ্যালগরিদমের মান।


সুতরাং জিডব্লিউআর-তে আপনি বলেছিলেন যে ভেরিয়েবলগুলি বিপরীত করা পৃথক পৃথক ফলাফল দেয় তবে একটি, যা উচ্চতর অবশিষ্ট বর্গ দেয়, এর অর্থ এই নয় যে এটি উভয়ের মধ্যে দৃ stronger় সম্পর্ক দেখায়?
Sam007

স্যাম, কম অবশিষ্ট বর্গ নিজেই একটি শক্তিশালী সম্পর্ক নির্দেশ করে না। বিশেষত, আপনি যখন x এবং y এর ভূমিকাগুলি বিপরীত করেন, আপনি অবশিষ্টাংশগুলিও তুলনা করতে পারবেন না - তারা প্রায়শই বিভিন্ন ইউনিটে থাকে। (উদাহরণস্বরূপ, একটি বর্গাকার তাপমাত্রা এবং অন্যটি বৃষ্টিপাতের এক বর্গ পরিমাণ হতে পারে: কোনটি কম তা কীভাবে আপনি বলবেন?) আপনি সর্বদা কোনও মডেলের আরও বেশি পরামিতি যুক্ত করে একটি অবশিষ্টাংশ বর্গক্ষেত্রকে হ্রাস করতে পারেন , এমনকি সেগুলি অর্থহীন হলেও are : এই দিক থেকে অনেক দূরে যেতে "ওভারফিটিং" বলা হয়। কিছু অর্থে, একটি স্বল্প স্থানীয় পরিসীমা সহ জিডব্লিউআর হ'ল একধরণের ওভারফিটিং।
হোবার

2
আপনি আর-স্কোয়ার্ডের কথা ভাবছেন, স্যাম: এটি একটি অনুপাত। (আমি "রেসিডুয়াল স্কোয়ার্ড" বুঝতে পেরেছি ঠিক কী বলেছে তা বুঝতে পেরেছি: অবশিষ্টাংশের বর্গক্ষেত্রের সমষ্টি। বেশিরভাগ পরিসংখ্যান সফটওয়্যার এই পরিসংখ্যানটি আর-স্কোয়ার মানগুলির সাথে প্রতিবেদন করে।) তবে এটি এখনও বিপজ্জনক, এবং সাধারণত ভুল, বিভিন্ন মডেলের তুলনা করতে (যেমন: আর এর সাথে x এর বিপরীতে x এর সাথে y হিসাবে) আর- বর্গক্ষেত্রের শর্তাবলী: দেখুন stats.stackexchange.com/questions/13314 । কারণ GWR হয় অনুসন্ধানমূলক, তার জন্য দারুণ খোঁজার নিদর্শন এবং hypothesizing সম্পর্ক, কিন্তু (সাধারণত চর্চা, যাহাই হউক না কেন) এটি জন্য অনুপযুক্ত এর প্রতিপাদক একটি দাবি।
হোবার

1
বাহ যে সত্যিই সমস্ত পরিসংখ্যান ছিল। আসলে আমি যে কারণে এটি হার্ড খুঁজে পাচ্ছি তা হল কারণ পরিসংখ্যানগুলিতে আমার খুব খারাপ পটভূমি রয়েছে, সুতরাং আমি কেবল মডেলগুলির ফলাফলের উপর নির্ভর করি, তারা ঠিক কী বোঝায় তা না ছাড়াই। আর 2 এর বেশিরভাগ স্টাফ আমার মাথার উপর দিয়ে গেছে। আমাকে শুরু করতে এবং পরিসংখ্যানগুলিতে আমার ভিত্তি তৈরি করতে আপনি কি কিছু ভাল নতুন বইয়ের পরামর্শ দিতে পারেন?
Sam007

2
এগুলি ব্যবহার করে দেখুন: stats.stackexchange.com/questions/25506 , stats.stackexchange.com/questions/421 , এবং stats.stackexchange.com/questions/7165
হোবল

3

মডেলগুলির সাথে তুলনা করতে রিকোয়ার্ড ব্যবহার করা উচিত নয়। লগ লাইকহুড বা এআইসির মানগুলি ব্যবহার করুন।

জিডাব্লুআরআর যদি আপনার অবশিষ্টাংশগুলি এলোমেলো হয়, বা আমার ধারণা আপনার নির্দিষ্ট মডেলটির চেয়ে এলোমেলো (পরিসংখ্যানগতভাবে সিগ নয়) appear এটি অন্ততপক্ষে প্রস্তাব দেয় যে আপনার সাথে সম্পর্কিত কোন অবশিষ্টাংশ নেই এবং আপনার পরামর্শ দেওয়া উচিত যে আপনার কোনও বাদ দেওয়া ভেরিয়েবলগুলি নেই।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.