"আরএমএসইয়ের 2.5" বারের উপর ভিত্তি করে আউটলিয়ারগুলি বাদ দেওয়া হচ্ছে


13

ইন Kahneman এবং Deaton (2010) , লেখক নিম্নলিখিত লিখুন:

এই রিগ্রেশনটি 0.67852 এর মূল মূল স্কোয়ার ত্রুটি (আরএমএসই) সহ 37% বৈকল্পিকতা ব্যাখ্যা করে। আউটলিয়ার এবং অব্যর্থ আয়কর প্রতিবেদনগুলি অপসারণ করার জন্য, আমরা পর্যবেক্ষণগুলি বাদ দিয়েছিলাম যাতে লগ ইনকাম এবং তার পূর্বাভাসের মধ্যে পার্থক্যের নিখুঁত মান আরএমএসইয়ের 2.5 গুন অতিক্রম করে।

এটি কি সাধারণ অনুশীলন? এটি করার পিছনে স্বজ্ঞাততা কী? কোনও মডেলকে ভিত্তি করে আউটলেটর সংজ্ঞা দেওয়া কিছুটা অদ্ভুত বলে মনে হচ্ছে যা প্রথমে ভালভাবে নির্দিষ্ট করা যায় না। আপনার মডেল প্রকৃত মূল্যবোধকে কতটা ভালভাবে পূর্বাভাস দেয় তার চেয়ে বেশি কী তাত্পর্যপূর্ণ ভিত্তির উপর নির্ভর করে বাইরের লোকদের নির্ধারণ করা উচিত নয়?


: ড্যানিয়েল Kahneman, অ্যাঙ্গাস Deaton (2010): উচ্চ আয় জীবনের মূল্যায়ন কিন্তু মানসিক মঙ্গল উন্নত। জাতীয় বিজ্ঞান একাডেমির কার্যক্রম সেপ্টেম্বর 2010, 107 (38) 16489-16493; ডিওআই: 10.1073 / pnas.1011492107


1
আপনি যখন কোনও কাগজ থেকে উদ্ধৃতি দিবেন, সর্বদা একটি রেফারেন্স দিন যা পৃষ্ঠা নম্বরটি অন্তর্ভুক্ত করে ।
বেন - মনিকা পুনরায়

7
এটি 'সাধারণ অনুশীলন' কিনা তা আমি বলতে পারি না, তবে আমি আশা করি না। 'আউটলিয়ার্স' এর স্বয়ংক্রিয় অপসারণ মূলত একটি খারাপ ধারণা is হতে পারে আপনার মডেল বা অপসারণের মানদণ্ড ভাল নয়, হতে পারে নতুন কিছু চলছে (মন্দা শুরু, নতুন সম্ভাবনা জাগ্রত) যা আপনাকে এড়ানো উচিত নয়। // আপনি যদি ডেটা এন্ট্রি ত্রুটি বা সরঞ্জামের ব্যর্থতার জন্য সন্দেহজনক মানটি ট্র্যাক করতে পারেন বা মানটি যদি কেবল চার্টের বাইরে থাকে তবে (16'2 "লম্বা মানুষ, লোক ডাব্লু / 61 বিলিয়াত ঘন্টা গত মঙ্গলবার 25 মিনিট ফ্লাইটে রয়েছে) এসএফও-
ওআরডি) .কিন্তু

7
এই পদ্ধতির পরিসংখ্যানগত বৈধতা তারা আরএমএসই-এর জন্য যে দশমিক দশমিক দশমিক দশমিক দশমিক দশমিক দশমিক দশমিক দশমিক দশমিক দশমিক দশমিক দশমিক দশমিক দশমিক দশমিক দশমিক দশমিক দশমিক দশমিক দশমিক দশমিক দশমিক দশমিক দশমিক দশমিক দশমিক দশমিক এক অঙ্ক বর্জন করে।
ফ্রান্সস রোডেনবার্গ

এটি কয়েক মাস আগে জিজ্ঞাসা করা প্রশ্নের একটি অপরিশোধিত / বীরত্ব অনুমানের সমাধানের মতো মনে হচ্ছে: stats.stackexchange.com/questions/390051/…
অ্যাড্রিয়ান

উত্তর:


30

এই ডেটা বাদ দেওয়ার কারণটি উদ্ধৃতিতে ঠিক সেখানে বর্ণিত হয়েছে: যথা, "আউটলিয়ার এবং অবর্ণনীয় আয়ের প্রতিবেদনগুলি অপসারণ"। এই দুটি জিনিসকে তারা একত্রে উল্লেখ করার অর্থ এই যে তারা স্বীকার করছে যে তাদের কমপক্ষে কিছু বহিরাগত অবর্ণনীয় মূল্যবোধ নয় এবং যে কোনও ক্ষেত্রে তারা কেন উচ্চ বাকী মূল্যবোধকে "অবর্ণনীয়" বিবেচনা করা উচিত তার পক্ষে কোনও যুক্তি দেয় না "আয় মূল্য। এটি করে, তারা কার্যকরভাবে ডেটা পয়েন্টগুলি সরিয়ে ফেলছে কারণ অবশিষ্টাংশগুলি তাদের রিগ্রেশন মডেল থেকে প্রত্যাশার চেয়ে বেশি। আমি যেমন এখানে অন্য উত্তরে বলেছি , এটি আপনার মডেল অনুমানের সাথে সামঞ্জস্য করার জন্য বাস্তবতার প্রয়োজনের সাথে তুলনামূলক, এবং বাস্তবতার সেই অংশগুলিকে উপেক্ষা করে যেগুলি অনুমানের সাথে সম্মতিযুক্ত নয়।

এটি একটি সাধারণ অনুশীলন হোক বা না হোক এটি একটি ভয়াবহ অনুশীলন। এটি ঘটে কারণ বহির্মুখী ডেটা পয়েন্টগুলি মোকাবেলা করা শক্ত এবং বিশ্লেষক সেগুলি সঠিকভাবে মডেল করতে রাজি নয় (উদাহরণস্বরূপ, এমন একটি মডেল ব্যবহার করে যা ত্রুটির শর্তে উচ্চতর কুর্তোসিসকে মঞ্জুরি দেয়) তাই তারা কেবল বাস্তবের অংশগুলি সরিয়ে দেয় যা না করে তাদের পরিসংখ্যানের মডেলিংয়ের দক্ষতার সাথে সামঞ্জস্য করুন। এই অনুশীলনটি পরিসংখ্যানগতভাবে অবাঞ্ছিত এবং এটি এমন সূচনাগুলিতে নিয়ে যায় যেগুলি ত্রুটি শর্তাবলী পদ্ধতিগতভাবে ভেরিয়েন্স এবং কুর্তোসিসকে কম দেখায়। এই কাগজের লেখকরা রিপোর্ট করেছেন যে তারা এই তথ্য বহিরাগতদের অপসারণের কারণে তাদের ডেটাগুলির 3.22% ফেলেছে (পৃষ্ঠা 16490)। যেহেতু এই ডেটা পয়েন্টগুলির বেশিরভাগই খুব উচ্চ আয়ের হত তাই উচ্চ আয়ের প্রভাব সম্পর্কে (যা তাদের কাগজের লক্ষ্য) সম্পর্কে দৃ rob় সিদ্ধান্ত নেওয়ার দক্ষতার উপর এই যথেষ্ট সন্দেহ তৈরি করে।


ড্যানিয়েল কাহনমানের সমালোচনা করার সাহস আপনার কতটা ! জোকস একদিকে, সেগুলি খুব ভাল পয়েন্ট +1।
টিম

11
কাহনমান একজন খুব সূক্ষ্ম মনোবিদ, যার বইগুলি আমি সাধারণত উপভোগ করেছি এবং সহায়ক বলে মনে করেছি। তাদের প্রত্যেকের পঞ্চাশটি নোবেল পুরষ্কার থাকতে পারে --- "আউটলিয়ার" গণ-অপসারণ একটি ভয়াবহ পরিসংখ্যান অনুশীলন এই সত্যটি পরিবর্তন করবে না।
বেন - মনিকা পুনরায়

3
স্বাভাবিকভাবেই আমি আপনার সাথে একমত। আমি যে প্রয়োজন বলার অপেক্ষা রাখে না।
নিক কক্স

1
@ নিককক্স আপনি তথাকথিত "নোবেল স্মৃতি পুরষ্কার" বলতে চাইছেন : যেমনটা আমি নিশ্চিত আপনি জানেন যে এটি নোবেল দ্বারা প্রতিষ্ঠিত হয়নি এবং তার সাথে সত্যিকারের কোনও সম্পর্ক নেই। অফিসিয়াল নামটি আপাতদৃষ্টিতে "আলভ্রেড নোবেলের মেমোরি ইন ইকোনমিক সায়েন্সেসে সেরেইজেস রিক্সব্যাঙ্ক প্রাইজ"।
অ্যামিবা বলেছেন মনিকা পুনরায়

1
আপনি নিশ্চিত যে আমি এটি জানি এবং আপনি সত্যই সঠিক। সর্বদা কর্তৃত্বমূলক ইজেএমআর একবার আমার সম্পর্কে এই পোস্টটি চালিয়েছিল "না, সে কখনই নোবেল জিতবে না", অর্থাত্ এই পুরস্কারটি।
নিক কক্স
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.