পেনশন: overall শর্তাধীন শর্তের পরিবর্তে সামগ্রিক অবশিষ্টাংশের স্বাভাবিকতা কেন পরীক্ষা করে ?


10

আমি বুঝতে পারি যে লিনিয়ার রিগ্রেশন এ ত্রুটিগুলি সাধারণত বিতরণ করা হবে বলে মনে করা হয়, y এর পূর্বাভাসিত মানের শর্তসাপেক্ষে। তারপরে আমরা অবশিষ্টাংশগুলিকে ত্রুটির জন্য এক ধরণের প্রক্সি হিসাবে দেখি।

এটা প্রায়ই ভালো আউটপুট জেনারেট করতে সুপারিশ করা হচ্ছে: এখানে চিত্র বর্ণনা লিখুন। যাইহোক, আমি বুঝতে পারি না যে প্রতিটি ডেটা পয়েন্টের জন্য অবশিষ্টাংশ পাওয়া এবং একক প্লটে একসাথে ম্যাশ করার পয়েন্টটি কী।

আমি বুঝতে পারি যে y এর প্রতিটি পূর্বাভাসকৃত মান অনুসারে আমাদের কাছে সাধারণ অবশিষ্টাংশ রয়েছে কিনা তা সঠিকভাবে নির্ধারণ করার জন্য আমাদের পর্যাপ্ত ডেটা পয়েন্ট থাকার সম্ভাবনা নেই।

তবে, আমাদের সাধারণ অবশিষ্টাংশগুলি সামগ্রিকভাবে পৃথক পৃথক এবং y এর প্রতিটি পূর্বাভাসিত মান অনুসারে সাধারণ অবশিষ্টাংশগুলির মডেল অনুমানের সাথে স্পষ্টভাবে সম্পর্কিত নয় কিনা তা প্রশ্ন নয়? মোটামুটি অ-স্বাভাবিক ছিল এমন সামগ্রিক অবশিষ্টাংশ থাকার সময় আমরা y এর প্রতিটি পূর্বাভাসিত মানটিতে সাধারণ অবশিষ্টাংশগুলি রাখতে পারি না?


1
ধারণার কিছু যোগ্যতা থাকতে পারে - সম্ভবত বুটস্ট্র্যাপিং এখানে সহায়তা করতে পারে (অবশিষ্টাংশের প্রতিলিপি পেতে)
সম্ভাব্যতাব্লোগিক

2
আপনি কি লিনিয়ার রিগ্রেশন এর জন্য একটি রেফারেন্স দিতে পারবেন ত্রুটিগুলি সাধারণত বিতরণ করা হবে বলে মনে করা হয়, y এর পূর্বাভাসিত মানের শর্তযুক্ত (যদি আপনার কোনও থাকে)?
রিচার্ড হার্ডি

আমি প্রশ্ন পোস্ট করার সময় আমার মনে কোনও বিশেষ উত্স ছিল না, তবে "মডেলিং অনুমান সম্পর্কে কীভাবে হয় যে প্রতিক্রিয়া পরিবর্তনশীলটি সাধারণত রেগ্রেশন লাইনের (যা শর্তাধীন গড়ের একটি অনুমান) এর চারদিকে বিতরণ করা হয়, ধ্রুবক বৈকল্পিকতার সাথে" থেকে এখানে । আমি এই সম্পর্কে ভুল হলে আরও প্রতিক্রিয়া স্বাগত জানাই।
ব্যবহারকারী1205901 - মনিকা

উত্তর:


17

মোটামুটি অ-স্বাভাবিক ছিল এমন সামগ্রিক অবশিষ্টাংশ থাকার সময় আমরা y এর প্রতিটি পূর্বাভাসিত মানটিতে সাধারণ অবশিষ্টাংশগুলি রাখতে পারি না?

না - কমপক্ষে, স্ট্যান্ডার্ড অনুমানের অধীনে নয় যে ত্রুটির বৈচিত্র স্থির রয়েছে।

সাধারণ বিতরণের মিশ্রণ হিসাবে আপনি সামগ্রিক অবশিষ্টাংশের বিতরণ সম্পর্কে চিন্তা করতে পারেন ( of প্রতিটি স্তরের জন্য একটি )। অনুমান দ্বারা, এই সমস্ত সাধারণ বিতরণের একই গড় (0) এবং একই বৈচিত্র রয়েছে। সুতরাং, নরমালগুলির এই মিশ্রণের বিতরণটি কেবল একটি সাধারণ বিতরণ।y^

সুতরাং এটি থেকে আমরা একটু sylogism গঠন করতে পারেন। পূর্বাভাসকারী এক্স এর মান প্রদত্ত পৃথক বিতরণগুলি যদি স্বাভাবিক হয় (এবং তাদের রূপগুলি সমান হয়), তবে সামগ্রিক অবশিষ্টাংশের বিতরণ স্বাভাবিক। সুতরাং যদি আমরা পর্যবেক্ষণ করি যে সামগ্রিক অবশিষ্টাংশের বিতরণ দৃশ্যত স্বাভাবিক নয় , তবে এর থেকে বোঝা যায় যে এক্স প্রদত্ত বিতরণগুলি সমান বৈচিত্রের সাথে স্বাভাবিক নয়। যা মানক অনুমানের লঙ্ঘন।


1
@ জ্যাক_ ওয়েস্টফল, আমি সে সম্পর্কে নিশ্চিত নই। আমরা জানি যে যৌথ গাউসীয় বিতরণযুক্ত ভেরিয়েবলের একটি সীমাবদ্ধ রৈখিক সংমিশ্রণটিতে একটি গাউসীয় বিতরণ থাকে। তবে কি অসীম সমন্বয়? অন্য কথায়, যে , কেন প্রয়োজনীয় স্বাভাবিক হওয়া উচিত ? এটি উপর নির্ভর করবে । নোট করুন যেহেতু , on বা কন্ডিশনার আসলে কিছুই পরিবর্তন করে না। p(ϵ)=p(ϵ|x)p(x)dxp(ϵ|x)p(ϵ)p(x)y^=β0+β1Xy^X
ডেল্টাভিও

এটা কি বলা যায় যে অ-স্বাভাবিক প্রান্তিকতা আমাদের অ-সাধারণ শর্তসাপেক্ষে "প্রত্যাখ্যান" করতে দেয়, তবে সেই সাধারণ প্রান্তিকতা আমাদেরকে সাধারণ শর্তসাপেক্ষে "মেনে নিতে" দেয় না?
শ্যাডট্যালকার

6
@ দেলতাভ, সাধারণ বিতরণে মাত্র 2 টি প্যারামিটার, গড় এবং বৈচিত্র রয়েছে। ত্রুটিটি যদি 1) স্বাভাবিক বিতরণ করা হয়, 2) গড় শূন্য সহ, এবং 3) বৈকল্পিক ধ্রুবক সহ, তবে মিশ্রণের কিছুই নেই। আপনার স্বীকৃতিতে । সুতরাং, উপাদানগুলি অবিচ্ছেদ্য থেকে বের হয়ে অবিচ্ছেদ্য একের সাথে সংহত হয় এবং অদৃশ্য হয়ে যায় এবং আপনি কেবলমাত্র স্বাভাবিক হয়ে যান। এর পি-মিশ্রণটি হ'ল । পি ( ϵ ) এন ( 0 , σ 2 ) এন ( 0 , σ 2 )p(ϵ|x)=p(ϵ)p(ϵ)N(0,σ2)N(0,σ2)
বিল

1
@Bill অপরিহার্য এখানে বিন্দু প্রয়োজন যে শক্তি আসলে পারে: । উত্তরটি যেভাবে বলা হয় তাতে এটি সমাহিত করা হয়ε | XN(0,σ2)εN(0,σ2)
ছায়াছবির

@ এসএসডেকট্রোল উত্তর থেকে: " ভবিষ্যদ্বাণীকারী এক্স এর মান প্রদত্ত স্বতন্ত্র বিতরণগুলি যদি স্বাভাবিক হয় (এবং তাদের রূপগুলি সমান হয়), তবে সামগ্রিক অবশিষ্টাংশের বিতরণ স্বাভাবিক " "আমি আরও কতটা পরিষ্কার হতে পারি তা নিশ্চিত নন?
জ্যাক ওয়েস্টফল

3

এটা করা হয়েছে বলেনযে ত্রুটিগুলি সমকামী এবং ক্রমিকভাবে অসম্পর্কিত হয় তখন y (ওএলএস) এর সর্বনিম্ন স্কোয়ারগুলি লিনিয়ার নিরপেক্ষ অনুমানকারীদের শ্রেণিতে অনুকূল হয়। হোমোসেসডাস্টিক রেসিডুয়ালের বিষয়ে, অবশিষ্টাংশের বৈচিত্রটি একই রকম যেখানে আমরা এক্স-অক্ষের উপর অবশিষ্টাংশের প্রকরণের পরিমাপ করব of উদাহরণস্বরূপ, ধরুন যে y-মানগুলি বাড়ানোর জন্য আমাদের পরিমাপের ত্রুটি আনুপাতিকভাবে বৃদ্ধি পায়। এরপরে আমরা রিগ্রেশন করার আগে সেইগুলি y-মানগুলির লগারিদম নিতে পারি। যদি এটি করা হয়ে থাকে, লগারিদম না নিয়ে আনুপাতিক ত্রুটি মডেলটি ফিট করার তুলনায় ফিটের মান বাড়ায়। সমকামিতা অর্জনের জন্য সাধারণত আমাদের y বা x- অক্ষের ডেটা, লোগারিদম (গুলি), বর্গক্ষেত্র বা বর্গমূলের গ্রহণ করতে হবে বা একটি ক্ষতিকারক প্রয়োগ করতে পারে। এর বিকল্প হ'ল ওয়েট ফাংশন ব্যবহার করা, (y-মডেল)2(ymodel)2y2 min হ্রাস করার চেয়ে ভাল কাজ করে ।(ymodel)2

অনেক কিছু বলার পরেও প্রায়শই দেখা যায় যে অবশিষ্টাংশগুলিকে আরও সমকামী তৈরি করা তাদেরকে আরও সাধারণভাবে বিতরণ করে তোলে তবে প্রায়শই হোমোসেসডেস্টিক সম্পত্তি আরও গুরুত্বপূর্ণ। এই পরেরটি নির্ভর করবে কেন আমরা প্রতিরোধ সম্পাদন করছি। উদাহরণস্বরূপ, যদি লগারিদম গ্রহণের চেয়ে ডেটাটির বর্গমূল বেশি বিতরণ করা হয় তবে ত্রুটিটি আনুপাতিক প্রকারের হয়, তবে জনসংখ্যা বা পরিমাপের মধ্যে পার্থক্য সনাক্ত করার জন্য লগারিদমের টি-টেস্টিং কার্যকর হবে তবে প্রত্যাশিত সন্ধানের জন্য মানটি আমাদের উপাত্তের বর্গমূল ব্যবহার করা উচিত, কারণ কেবলমাত্র ডেটা বর্গমূলই একটি প্রতিসম বন্টন যার জন্য গড়, মোড এবং মধ্যমান সমান আশা করা হয়।

তদুপরি, এটি প্রায়শই ঘটে থাকে যে আমরা এমন কোনও উত্তর চাই না যা আমাদের কমপক্ষে y- অক্ষরের ত্রুটিযুক্ত ভবিষ্যদ্বাণী দেয় এবং সেইসব চাপগুলি ভারী পক্ষপাতমূলক হতে পারে। উদাহরণস্বরূপ, কখনও কখনও আমরা এক্স এর মধ্যে কমপক্ষে ত্রুটির জন্য পুনরায় চাপ দিতে চাই। বা কখনও কখনও আমরা y এবং x এর মধ্যে সম্পর্ক উন্মোচন করার ইচ্ছা করি যা তখন কোনও রুটিন রিগ্রেশন সমস্যা নয়। এরপরে আমরা থেইল অর্থাত্ মিডিয়ান opeাল, রিগ্রেশন এবং এক্স এবং ওয়াই সর্বনিম্ন ত্রুটি রিগ্রেশন এর মধ্যে সহজতম আপস হিসাবে ব্যবহার করতে পারি। অথবা যদি আমরা জানি যে এক্স এবং y উভয়ের জন্য পুনরাবৃত্তি ব্যবস্থার বিভিন্নতা কী, আমরা ডেমিং রিগ্রেশন ব্যবহার করতে পারি। যখন আমাদের অনেক বেশি বিদেশী থাকে তখন থিল রিগ্রেশন ভাল হয়, যা সাধারণ পীড়নের ফলাফলের জন্য ভয়াবহ কাজ করে। এবং, মাঝারি opeাল রেজিস্ট্রেশনের জন্য, অবশিষ্টাংশগুলি সাধারণত বিতরণ করা হয় বা না তা গুরুত্ব দেয় না।

বিটিডাব্লু, অবশিষ্টাংশের স্বাভাবিকতা আমাদের প্রয়োজনীয় লিনিয়ার রিগ্রেশন সম্পর্কিত তথ্য দেয় না।উদাহরণস্বরূপ, ধরুন আমরা দুটি স্বতন্ত্র পরিমাপের পুনরাবৃত্তি পরিমাপ করছি। যেহেতু আমাদের স্বাধীনতা রয়েছে, প্রত্যাশিত পারস্পরিক সম্পর্কটি শূন্য, এবং রিগ্রেশন লাইন opeালু তখন কোনও কার্যকর withালু সহ কোনও এলোমেলো সংখ্যা হতে পারে। আমরা অবস্থানের অনুমান স্থাপনের জন্য পুনরায় পরিমাপ করি না, অর্থ্যাৎ গড় (বা মিডিয়ান (একটি শিখরের সাথে কচি বা বিটা বিতরণ) বা সাধারণভাবে কোনও জনসংখ্যার প্রত্যাশিত মান), এবং এর থেকে এক্স এবং তারতম্যের পরিবর্তনের গণনা করতে Y এ, যা তখন ডেমিং রিগ্রেশন বা যা-ই হোক না কেনের জন্য ব্যবহৃত হতে পারে। তদতিরিক্ত, অনুমান করা হয় যে সুপারপজিশনটি একইভাবে স্বাভাবিক হয় যদি আসল জনসংখ্যা স্বাভাবিক থাকে তবে আমাদের কোনও কার্যকর রৈখিক প্রতিরোধের দিকে পরিচালিত করে না। এটি আরও বহন করতে, ধরুন আমি তখন প্রাথমিক প্যারামিটারগুলিতে আলাদা হয়েছি এবং বিভিন্ন মন্টি কার্লো এক্স এবং ওয়াই-ভ্যালু ফাংশন উত্পন্ন লোকেশনগুলির সাথে একটি নতুন পরিমাপ স্থাপন করেছি এবং সেই ডেটাটি প্রথম রানের সাথে সংগৃহীত করব। তারপরে প্রতিটি এক্স-ভ্যালুতে অবশিষ্ট দিকগুলি y- দিকের দিকে স্বাভাবিক, তবে, এক্স-দিকনির্দেশে, হিস্টোগ্রামে দুটি শিখর থাকবে, যা ওএলএস অনুমানের সাথে একমত নয়, এবং আমাদের opeাল এবং আটকানো পক্ষপাতমূলক হবে কারণ একটি এক্স-অক্ষের সমান ব্যবধানের ডেটা নেই। তবে, জমে থাকা ডেটার রিগ্রেশনটির এখন একটি নির্দিষ্ট opeাল এবং আটকানো রয়েছে, যেখানে এটি আগে ছিল না। তদতিরিক্ত, কারণ আমরা কেবল পুনরাবৃত্তি নমুনা দিয়ে দুটি পয়েন্ট পরীক্ষা করছি, আমরা লিনিয়ারিটির জন্য পরীক্ষা করতে পারি না। প্রকৃতপক্ষে, সম্পর্কের সহগ একই কারণে নির্ভরযোগ্য পরিমাপ হবে না,

বিপরীতভাবে, কখনও কখনও এটি অতিরিক্ত হিসাবে ত্রুটিগুলির রেজিস্ট্রারগুলিতে শর্তসাপেক্ষে সাধারণ বিতরণ থাকে বলে ধরে নেওয়া হয়। এই ধৃষ্টতা OLS ঔজ্জ্বল্যের প্রেক্ষাপটে পদ্ধতি বৈধতার প্রয়োজন নেই, যদিও কিছু অতিরিক্ত সসীম-নমুনা বৈশিষ্ট্য ক্ষেত্রে যখন এটি কাজ করবে (বিশেষ করে পরীক্ষার অনুমানের এলাকায়) প্রতিষ্ঠিত করা যেতে পারে, দেখতে এখানে। তখন ওএলএস কখন ই সঠিক সংশোধন করবে? উদাহরণস্বরূপ, যদি আমরা ঠিক একই সময়ে প্রতিদিন বন্ধ হয়ে স্টকের মূল্যগুলি পরিমাপ করি তবে কোনও টি-অক্ষ (থিংক এক্স-অক্ষ) ভেরিয়েন্স নেই। তবে, সর্বশেষ বাণিজ্যের (নিষ্পত্তির) সময় এলোমেলোভাবে বিতরণ করা হত এবং ভেরিয়েবলের মধ্যে রিলেশনশিপ আবিষ্কারের জন্য রিগ্রেশনকে উভয় প্রকারকেই অন্তর্ভুক্ত করতে হবে। সেই পরিস্থিতিতে, y এর মধ্যে ওএলএস কেবলমাত্র ওয়াই-ভ্যালুতে ন্যূনতম ত্রুটিটি অনুমান করতে পারে, যা কোনও বন্দোবস্তের জন্য ব্যবসায়িক মূল্য বহির্ভূত করার জন্য একটি দরিদ্র পছন্দ হবে, কারণ সেই নিষ্পত্তির সময়টিই পূর্বাভাস দেওয়ার প্রয়োজন needs তদতিরিক্ত, সাধারণত বিতরণ করা ত্রুটি কোনও গামা প্রাইসিং মডেলের নিকৃষ্ট হতে পারে ।

কি ব্যাপার? ভাল, কিছু স্টক এক মিনিট কয়েকবার বাণিজ্য করে এবং অন্যরা প্রতিদিন বা এমনকি প্রতি সপ্তাহে বাণিজ্য করে না এবং এটি বরং আরও বড় সংখ্যাগত পার্থক্য আনতে পারে। সুতরাং এটি নির্ভর করে আমরা কোন তথ্যটি চাই। আমরা যদি জানতে চাই যে আগামীকাল বন্ধের সময় বাজারটি কেমন আচরণ করবে, এটি একটি ওএলএস "টাইপ" প্রশ্ন, তবে উত্তরটি অরৈখিক, অ-স্বাভাবিক অবশিষ্টাংশ হতে পারে এবং বহির্মুখের জন্য সঠিক বক্রতা প্রতিষ্ঠার জন্য ডেরিভেটিভস ফিট (এবং / অথবা উচ্চতর মুহুর্তের) সাথে একমত আকৃতির সহগের সমন্বয়যুক্ত একটি উপযুক্ত ফাংশনের প্রয়োজন হতে পারে । (একজন ডেরিভেটিভগুলির পাশাপাশি একটি ফাংশনও ফিট করতে পারে, উদাহরণস্বরূপ কিউবিক স্প্লাইস ব্যবহার করে, তাই ডেরাইভেটিভ চুক্তির ধারণাটি অবাক হওয়ার মতো হওয়া উচিত নয়, যদিও এটি খুব কমই অন্বেষণ করা হয়েছে)) আমরা কীভাবে অর্থ উপার্জন করব কিনা তা জানতে চাইলে কোনও নির্দিষ্ট স্টকে, তারপরে আমরা ওএলএস ব্যবহার করি না, কারণ সমস্যাটি তখন দ্বিবিভক্ত।


1
আপনি কি বলতে পারবেন যে বৈধ অনুমানের জন্য স্বাভাবিকতা যথেষ্ট তবে প্রয়োজনীয় নয়? কেন কেবল বিশেষভাবে heteroscedasticity জন্য পরীক্ষা না? নিশ্চয় একটি ভারী-লেজযুক্ত (উদাহরণস্বরূপ) অবশিষ্টাংশের প্রান্তিক বিতরণের অর্থ এই নয় যে শর্তযুক্ত স্বাভাবিকতা অনুমানটি ভুল, তাই না? তবুও ভারী লেজযুক্ত অবশিষ্টাংশ নকশা দ্বারা অবশিষ্টাংশগুলির জন্য স্বাভাবিকতার পরীক্ষাতে ব্যর্থ হবে।
শ্যাডট্যালকার

টি-টেস্টিংয়ের জন্য সমকামিতা প্রায়শই বেশি গুরুত্বপূর্ণ। আউটলিয়াররা 1.359 এসডি তৈরি করে >> এরপরে আইকিউআর টি-টেস্টিংয়ের শক্তি হ্রাস করে। তারপরে পুনরমিতিকরণ বা উইলকক্সন পরীক্ষার চেষ্টা করুন, যা বেশিরভাগ পরিস্থিতিতে (সম্ভবত যখন r> 0.9999 হয় না) বিতরণ প্রকার বা ভিন্ন ভিন্নতার ডিগ্রি নির্বিশেষে কাজ করে। প্রকৃতপক্ষে, যদি কেউ বেশ কয়েকটি অনুরূপ পরামিতি পরীক্ষা করে থাকে তবে উইলকক্সন বা টি-টেস্টিং কম এবং উচ্চতর সম্ভাব্যতাগুলি বাছাই করতে আরও ভাল কাজ করবে, তাই ডেটা নিজেই প্রায়শই ঘোষণা করে যে কোনটি বেশি দরকারী।
কার্ল

এটি 1.349 এসডি >> আইকিউআর করুন। 1.349 হল একটি আন্তঃআরেক্টিল রেঞ্জ (আইকিউআর) এর জন্য সাধারণ বিতরণে থাকা এসডি সংখ্যা। কিছু বিতরণ, যেমন কচী বিতরণ, বা দুই ডিগ্রি স্বাধীনতার সাথে শিক্ষার্থীর টি-তে কোনও এসডি নেই, বহিরাগতরা এটি মেরে ফেলে, তবে তাদের আইকিউআর রয়েছে এবং তারপরে কোনওটি অবস্থানের পরীক্ষার জন্য উইলকক্সন বা অন্যান্য ননপ্যারমেট্রিক পরীক্ষা ব্যবহার করে।
কার্ল

আরও চিন্তাভাবনা করার পরে (উত্তরে নতুন উপাদান দেখুন) ওয়াই-অক্ষের অবশিষ্টাংশগুলির স্বাভাবিকতা পাওয়া খুব ভাল তবে অপর্যাপ্ত।
কার্ল

ভারী লেজযুক্ত বিতরণগুলি রিগ্রেশন সমীকরণগুলিতে ভয়ঙ্কর কাজ করে। উদাহরণস্বরূপ, যদি এক ব্যক্তি আপনাকে পরীক্ষা একটি ডেটা সেটের সব সম্ভব ঢালে, এক সাধারণত ঢালে একটি কোশি বন্টন পায়, ওরফে Student's- টি স্বাধীনতার এক ডিগ্রী অর্জন। কচী বিতরণের জন্য, কোনও মুহূর্ত নেই। অর্থাৎ, কেউ একটি গড় এবং স্ট্যান্ডার্ড বিচ্যুতি গণনা করতে পারে এবং যার যত বেশি ডেটা থাকে তত বেশি ত্রুটিযুক্ত যার অর্থ হয় এবং মানক বিচ্যুতি হয়ে যায়। কচী বিতরণের প্রত্যাশিত মানটি হ'ল মিডিয়ান এবং একটি গড় গণনা করতে গেলে চূড়ান্ত মানগুলি সেন্সর করতে হবে।
কার্ল
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.