কেন আমরা সাধারণ ত্রুটির পরিবর্তে টি ত্রুটি ব্যবহার করব?


30

ইন এই অ্যান্ড্রু Gelman দ্বারা ব্লগ পোস্ট, সেখানে নিম্নলিখিত উত্তরণ হল:

50 বছর পূর্বে বায়েশিয়ান মডেলগুলি হতাশভাবে সহজ মনে হয় (অবশ্যই, সহজ সমস্যার জন্য), এবং আমি প্রত্যাশা করি যে আজকের বায়েশিয়ান মডেলগুলি হতাশাহীন সরল মনে হবে, তাই 50 বছর পরে। (কেবলমাত্র একটি সাধারণ উদাহরণের জন্য: আমাদের সম্ভবত সম্ভবত সর্বদা কোথাও সাধারণ ত্রুটির পরিবর্তে টি ব্যবহার করা উচিত, তবে পরিচিতি, অভ্যাস এবং গাণিতিক সুবিধার বাইরে আমরা এখনও এটি করি না These বিজ্ঞানের ক্ষেত্রে এটি ভাল কারণ হতে পারে as রাজনীতিতে রক্ষণশীলতার পক্ষে অনেক ভাল যুক্তি রয়েছে – তবে আমি মনে করি যে শেষ পর্যন্ত আমরা আরও জটিল মডেলগুলির সাথে স্বাচ্ছন্দ্যবোধ করার সাথে সাথে আমরা সেদিকেই এগিয়ে যাব))

কেন আমাদের "প্রায় সব জায়গায় সাধারণ ত্রুটির পরিবর্তে নিয়মিত টি ব্যবহার করা উচিত"?

উত্তর:


40

কারণ, সাধারণ ত্রুটিগুলি ধরে নেওয়া কার্যকরভাবে ধরে নেওয়া কার্যকর যে বৃহত ত্রুটিগুলি ঘটবে না! সাধারণ বিতরণে এত হালকা লেজ থাকে যে, বাইরে ত্রুটিগুলি স্ট্যান্ডার্ড বিচ্যুতির খুব কম সম্ভাবনা থাকে, বাইরে ত্রুটিগুলি কার্যকরভাবে অসম্ভব। বাস্তবে, এই ধারণাটি খুব কমই সত্য। ভালভাবে নকশা করা পরীক্ষাগুলি থেকে ছোট, পরিপাটি ডেটাসেটগুলি বিশ্লেষণ করার সময়, যদি আমরা অবশিষ্টাংশগুলির একটি ভাল বিশ্লেষণ করি তবে এটি খুব বেশি গুরুত্ব পাবে না। কম মানের ডেটা সহ, এটি আরও অনেক বেশি গুরুত্বপূর্ণ হতে পারে।±3±6

সম্ভাবনা-ভিত্তিক (বা বেইসিয়ান) পদ্ধতিগুলি ব্যবহার করার সময়, এই স্বাভাবিকতার প্রভাব (যেমন উপরে বলা হয়েছে, কার্যকরভাবে এটি "কোনও বড় ত্রুটি নয়" -সাম্পশন!) অনুমানকে খুব সামান্য দৃ little় করে তোলে। বিশ্লেষণের ফলাফলগুলি খুব বড় ত্রুটি দ্বারা প্রভাবিত হয়! এটি অবশ্যই হওয়া উচিত, যেহেতু "কোনও বৃহত ত্রুটি নেই" ধরে নেওয়া আমাদের পদ্ধতিগুলিকে বৃহত ত্রুটিগুলি ছোট ত্রুটি হিসাবে ব্যাখ্যা করতে বাধ্য করে এবং সমস্ত ত্রুটিগুলি আরও ছোট করে তুলতে কেবল গড় মানের পরামিতি সরিয়েই এটি ঘটতে পারে। এটি এড়ানোর একটি উপায় হ'ল তথাকথিত "শক্তসমর্থ পদ্ধতি" ব্যবহার করা, দেখুন http://web.archive.org/web/20160611192739/http://www.stats.ox.ac.uk/pub/StatMeth/Robust .pdf

তবে অ্যান্ড্রু গেলম্যান এ জন্য যাবেন না, যেহেতু শক্তিশালী পদ্ধতিগুলি সাধারণত উচ্চ-বেয়েসিয়ান উপায়ে উপস্থাপন করা হয়। সম্ভাবনা / bayesian মডেল টি-বিতরণ ত্রুটি ব্যবহার হিসাবে, শক্তসমর্থ পদ্ধতি প্রাপ্ত বিভিন্ন উপায় মনে -distribution স্বাভাবিকের চেয়ে গুরুতর মুদ্রার উলটা পিঠ আছে, তাই বড় ত্রুটি একটি বৃহত্তর অনুপাত জন্য করতে পারবেন। স্বাধীনতা প্যারামিটারের ডিগ্রী সংখ্যা অগ্রিম স্থির করা উচিত, তথ্য থেকে অনুমান করা না, যেহেতু এই ধরনের প্রাক্কলন পদ্ধতি (*) এর বলিষ্ঠতার বৈশিষ্ট্য ধ্বংস হবে (এটি একটি খুব কঠিন সমস্যা, জন্য সম্ভাবনা ফাংশন , স্বাধীনতার সংখ্যা ডিগ্রি, সীমাহীন হতে পারে, এটি খুব অদক্ষ (এমনকি অসঙ্গত) অনুমানকারীগুলির দিকে পরিচালিত করে)।tν

উদাহরণস্বরূপ, আপনি যদি মনে করেন (ভয় পেয়েছেন) যে দশটি পর্যবেক্ষণের মধ্যে 1 এর চেয়ে বেশি "বড় ত্রুটি" (3 এসডি এর উপরে) হতে পারে, তবে আপনি 2 ডিগ্রি স্বাধীনতার সাথে ডিস্ট্রিবিউশন ব্যবহার করতে পারেন , যদি এই সংখ্যাটি বৃদ্ধি করে তবে বড় ত্রুটির অনুপাত কম বলে মনে করা হয়।t

আমার লক্ষ্য করা উচিত যে আমি উপরে যা বলেছি তা স্বাধীন বিতরণ ত্রুটিযুক্ত মডেলগুলির জন্য । ত্রুটি বিতরণ হিসাবে মাল্টিভিয়ারেট বিতরণ (যা স্বতন্ত্র নয়) এর প্রস্তাবও এসেছে prop স্টিটিস্টিকা নেরল্যান্ডিকা (১৯৯)) খণ্ডে টিএস ব্রুশ, জে সি রবার্টসন এবং এএইচ ওয়েলশ রচিত "সম্রাটের নতুন জামা: মাল্টিভারিয়েট রিগ্রেশন মডেলের একটি সমালোচনা" পত্রিকায় সেই প্রস্তাবটি তীব্র সমালোচিত হয়েছে । 51, এনআর। 3, পৃষ্ঠা 269-286, যেখানে তারা দেখায় যে মাল্টিভিয়ারেট ত্রুটি বিতরণ স্বাভাবিক থেকে অনুভূতিযুক্ত । তবে সেই সমালোচনা স্বাধীন মডেলকে প্রভাবিত করে না । ttttt

(*) এটি উল্লেখ করে একটি রেফারেন্স হ'ল ভেনিয়েবলস এবং রিপলির এমএএসএস --- এস সহ আধুনিক প্রয়োগিত পরিসংখ্যান (চতুর্থ সংস্করণে ১১০ পৃষ্ঠায়)।


3
দুর্দান্ত উত্তর (+1)। মনে রাখবেন যে স্থির হয়ে গেলেও , অনুমানের সমীকরণগুলি অসুস্থ সংজ্ঞায়িত হয় যদি if তাই আমি বোঝাতে পারি যে জেলম্যান মানে প্যারামিটারের সাথে স্থির বিতরণ । এই সম্পর্কিত প্রশ্নের উত্তরে চিত্রিত হিসাবে এটি দৃ approach়তার উপর বরং দৃ strong় সীমাবদ্ধতা রাখে যা এই পদ্ধতির প্রত্যাশা করা যেতে পারে। νν2tνν>2
ব্যবহারকারীর 603

2
দুর্দান্ত উত্তর এবং মন্তব্য। তবে: ১. গেলম্যান একটি স্ট্যান্ডার্ড প্রক্রিয়া রক্ষা করছেন যা সাধারণ ত্রুটিগুলি ধরে নেওয়ার চেয়ে ভাল। সুতরাং, আমাদের ত্রুটির জন্য টি বিতরণের সাথে সাধারণ (সাধারণ ত্রুটিগুলি) তুলনা করা উচিত। ২. ব্যবহারকারী by০৩ দ্বারা লিঙ্কযুক্ত সম্পর্কিত প্রশ্নে, আমাদের লক্ষ করা উচিত যে যদি QE এর পূর্বের তথ্য থাকে তবে আমাদের এটি ব্যবহার করা উচিত। বায়েস পূর্বের তথ্যের সাথে অসাধারণ। এবং এক্সপ্লেরিয়ালটিতে, আমাদের কাছে পূর্বের তথ্য রয়েছে যা ব্যবহৃত হয় না। ৩. পূর্ববর্তী ভবিষ্যদ্বাণীমূলক চেকগুলি সহ আমরা d know that the model proposed isnযথেষ্ট ভাল না।
মানোয়েল গাল্ডিনো

1
@Neil জি: হ্যাঁ, কিন্তু কোশি হয় ! অবশ্যই কোন ভারী-লেজ বন্টন অবশ্যই ব্যবহার করার জন্য আরও অনেক বিশ্লেষণ প্রয়োজন। t1
কেজেটিল বি হালওয়ারসন

1
না, টি-বিতরণই একমাত্র পছন্দ কারণ টি-বিতরণ গাউসীয় মডেলটির পূর্ববর্তী ভবিষ্যদ্বাণী। গেলম্যান কেবল এলোমেলোভাবে টি-বিতরণ বাছাই করছিলেন না।
নীল জি

1
দেখুন: মারফি, কেভিন পি। "গাউসীয় বিতরণের কনজুগেট বায়েশিয়ান বিশ্লেষণ।" Def 1.2-22 (2007): 16. তিনি টি-বিতরণকে গাউসীয় মডেলের উত্তরোত্তর ভবিষ্যদ্বাণী হিসাবে গ্রহণ করেছেন। এটি কেবল মডেলারের কোনও ভারী-লেজযুক্ত বিতরণ পছন্দ করার বিষয়টি নয়।
নীল জি

10

এটি কেবল "ভারী লেজ" এর বিষয় নয় - প্রচুর পরিমাণে বিতরণ রয়েছে যা বেল আকারযুক্ত এবং ভারী লেজ রয়েছে।

টি বিতরণ গাউসীয় মডেলটির পূর্ববর্তী ভবিষ্যদ্বাণীপূর্ণ। যদি আপনি কোনও গাউসীয় অনুমান করেন তবে আপনার সীমাবদ্ধ প্রমাণ রয়েছে, তবে ফলাফলটি মডেল অগত্যা অ-কেন্দ্রীয় স্কেলড টি-বিতরণ পূর্বাভাস তৈরি করে। সীমাতে, আপনি যে পরিমাণ প্রমাণের অনন্ততায় চলে গেছেন, আপনি গাউসীয় ভবিষ্যদ্বাণীগুলি শেষ করেছেন যেহেতু টি বিতরণের সীমা গাউসিয়ান।

কেন এমন হয়? কারণ সীমিত পরিমাণে প্রমাণ সহ, আপনার মডেলের প্যারামিটারগুলিতে অনিশ্চয়তা রয়েছে। গাউসীয় মডেলটির ক্ষেত্রে, অনিশ্চয়তা কেবলমাত্র বৈচিত্রকে বাড়িয়ে তুলবে (অর্থাত্, পরিচিত বৈকল্পিকের সাথে গাউসের উত্তরোত্তর ভবিষ্যদ্বাণীটি এখনও গাউসিয়ান)। তবে বৈকল্পিকতা সম্পর্কে অনিশ্চয়তা হ'ল ভারী লেজগুলির কারণ। যদি মডেলটি সীমাহীন প্রমাণ সহ প্রশিক্ষণ দেওয়া হয় তবে তারতম্য (বা গড়) সম্পর্কে কোনও অনিশ্চয়তা আর নেই এবং আপনি গাউসিয়ান পূর্বাভাস দেওয়ার জন্য আপনার মডেলটি ব্যবহার করতে পারেন।

এই যুক্তি গাউসির একটি মডেলের জন্য প্রযোজ্য। এটি এমন একটি প্যারামিটারের ক্ষেত্রেও প্রযোজ্য যা অনুমান করা হয় যার সম্ভাবনাগুলি গাউসিয়ান। সীমাবদ্ধ ডেটা দেওয়া, প্যারামিটার সম্পর্কে অনিশ্চয়তা টি-বিতরণ করা হয়েছে। যেখানেই সাধারণ অনুমান (অজানা গড় এবং বৈকল্পিকতা সহ) এবং সীমাবদ্ধ ডেটা রয়েছে সেখানে টি-বিতরণকৃত পূর্ববর্তী ভবিষ্যদ্বাণী রয়েছে।

বায়েশিয়ান মডেলগুলির জন্য একই রকম উত্তরোত্তর বিতরণ রয়েছে। গেলম্যান পরামর্শ দিচ্ছেন যে আমাদের সেগুলি ব্যবহার করা উচিত। তার উদ্বেগ যথেষ্ট প্রমাণ দ্বারা হ্রাস করা হবে।


আপনি কিছু উল্লেখ সহ এটি ব্যাক আপ করতে পারেন?
কেজেটিল বি হালওয়ারসন

2
@ কেজেটিভালভর্সেন: মারফি, কেভিন পি। "গাউসীয় বন্টন সম্পর্কে কনজিগেট বায়েশিয়ান বিশ্লেষণ।" Def 1.2σ2 (2007): 16.
নিল জি

আকর্ষণীয় দৃষ্টিকোণ, আমি এই আগে কখনও শুনিনি। সুতরাং টি-বিতরণ ত্রুটিগুলিও কি টি-বিতরণ পূর্বাভাসের দিকে পরিচালিত করে? আমার কাছে এটি গাউসিয়ান ত্রুটিগুলি ব্যবহার করা চালিয়ে যাওয়ার পক্ষে পক্ষে যুক্তি । আপনি শর্তসাপেক্ষে বিদেশী প্রত্যাশা না করা হলে শর্তসাপেক্ষ ত্রুটি মডেলটিকে তাদের অনুমতি দেওয়ার দরকার নেই। এটি অনুমানের পরিমাণে যে সমস্ত বাহ্যিক-নেস ভবিষ্যদ্বাণীকারীদের বহিরাগত মান থেকে আসে। আমি মনে করি না যে অনেক ক্ষেত্রেই অনুমানটি এত খারাপ is এবং নিখুঁত নান্দনিক ভিত্তিতে, শর্তসাপেক্ষ এবং প্রান্তিক বিতরণগুলি কেন মিলে যেতে হবে তা আমি দেখতে পাই না
ছায়াতলকার

@ এসএসডেকট্রোল "টি-বিতরণ ত্রুটিগুলিও কি টি-বিতরণের পূর্বাভাস দেয়?" আমি জানি না, তবে আমি তা মনে করি না। আমার জন্য, টি-টেস্ট কেন কাজ করে তার একটি স্বজ্ঞাত বোঝার জন্য এই দৃষ্টিকোণটি খুব কার্যকর।
নীল জি
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.