একজন আউটলারের কঠোর সংজ্ঞা?


44

লোকেরা প্রায়শই পরিসংখ্যানগুলিতে বিদেশীদের সাথে ডিল করার বিষয়ে কথা বলে talk যে বিষয়টি আমাকে সম্পর্কে বিরক্ত করে তা হ'ল আমি যতদূর বলতে পারি, একজন বহিরাগতের সংজ্ঞা সম্পূর্ণরূপে বিষয়গত। উদাহরণস্বরূপ, যদি কিছু এলোমেলো ভেরিয়েবলের সত্যিকারের বিতরণটি খুব ভারী-লেজযুক্ত বা বিমোডাল হয় তবে বহিরাগতদের সনাক্ত করার জন্য কোনও মানক দৃশ্যায়ন বা সংক্ষিপ্ত পরিসংখ্যান ভুলভাবে আপনার যে নমুনাটি থেকে নমুনা নিতে চান সেটি বিতরণের অংশগুলি সরিয়ে ফেলবে। একজন আউটলারের একটি কঠোর সংজ্ঞা কী, যদি এর উপস্থিতি থাকে এবং কীভাবে বহিরাগতদের অযৌক্তিক পরিমাণে সাবজেক্টিভিটি কোনও বিশ্লেষণে না পরিচয় করিয়ে মোকাবেলা করা যায়?


আপনি যদি কোনও নির্দিষ্ট বিতরণের জন্য জানতে চান তবে আপনার উদাহরণ সম্পর্কে জিজ্ঞাসা করুন। এটি বিভিন্ন পরিস্থিতিতে আলাদা হবে।
জন

8
ঠিক আছে, আমি প্রত্যাশা করব যে আপনি rigorous definition of an outlierযখন একটি unreasonable amounts of subjectivityউদ্দেশ্য উপায়ে সংজ্ঞা দিতে সক্ষম হবেন ;-), ধন্যবাদ
খাওয়া

1
তবে সংজ্ঞাটি অন্তর্নিহিত বিতরণ এবং পরিস্থিতি দ্বারা পৃথক হতে পারে। আমি ± 1.5 আইকিউআর, বা 3 এসডি বা এই জাতীয় কিছু বলতে পারি। প্রতিক্রিয়া সময় এবং যথার্থতা বলুন, আমি যদি দুটি ধরণের ব্যবস্থা গ্রহণ করি তবে আমি একেবারে আলাদা পদ্ধতি গ্রহণ করতে পারি। নির্ভুলতার স্তরে আমি আরটি এর শর্তযুক্ত বলতে পারি। এগুলি সবই ভাল এবং গাণিতিকভাবে কঠোর হতে পারে এবং এর বিভিন্ন অ্যাপ্লিকেশন এবং অর্থ থাকতে পারে।
জন

2
আউটলেটরের অনেকগুলি কঠোর সংজ্ঞা রয়েছে। তবে তাদের মধ্যে পছন্দটি নির্বিচারে মনে হতে পারে। তবে আমি মনে করি এটি ভ্রান্ত ধারণার একটি অংশ যে পরিসংখ্যান এমন একটি বিষয় যেখানে প্রতিটি সমস্যার একটির সঠিক উত্তর থাকে।
পিটার ফ্লুম - মনিকা পুনরায়

উত্তর:


23

যতক্ষণ না আপনার ডেটা জ্ঞাত বৈশিষ্ট্য সহ একটি পরিচিত বিতরণ থেকে আসে, আপনি দৃ out়তার সাথে একটি আউটলেটরকে এমন ইভেন্ট হিসাবে সংজ্ঞায়িত করতে পারেন যা পর্যবেক্ষণ প্রক্রিয়া দ্বারা উত্পন্ন হওয়ার সম্ভাবনা খুব কম (যদি আপনি "খুব বেশি সম্ভাবনা" অ-কঠোর বলে মনে করেন, তবে সমস্ত অনুমান পরীক্ষা করা হয়)।

যাইহোক, এই পদ্ধতির দুটি স্তরে সমস্যাযুক্ত: এটি ধরে নেওয়া হয় যে তথ্যগুলি পরিচিত বৈশিষ্ট্যগুলির সাথে একটি পরিচিত বিতরণ থেকে আসে এবং এটি ঝুঁকি নিয়ে আসে যে কিছু icalন্দ্রজালিক ত্রুটিগুলি দ্বারা সেট করা আপনার ডেটাতে পাচার হওয়া ডেটা পয়েন্ট হিসাবে বহিরাগতদের দেখা হয়।

Magন্দ্রজালিক ডেটা ত্রুটির অভাবে, সমস্ত ডেটা আপনার পরীক্ষায় আসে এবং সুতরাং প্রকৃতপক্ষে বিদেশী থাকা সম্ভব নয়, কেবল অদ্ভুত ফলাফল। এগুলি রেকর্ডিং ত্রুটিগুলি থেকে উদ্ভূত হতে পারে (উদাহরণস্বরূপ ৪০০০ ডলারে একটি 400000 শয়নকক্ষ ঘর), পদ্ধতিগত পরিমাপের সমস্যাগুলি (চিত্র বিশ্লেষণ অ্যালগরিদম যদি বিস্তৃত অঞ্চলটি যদি সীমান্তের খুব কাছে থাকে তবে রিপোর্ট করে) পরীক্ষামূলক সমস্যাগুলি (কখনও কখনও স্ফটিকগুলি সমাধানের বাইরে চলে যায়, যা খুব উচ্চ সংকেত দেয়) বা আপনার সিস্টেমের বৈশিষ্ট্যগুলি (একটি ঘর কখনও কখনও দু'জনের পরিবর্তে তিনটিতে বিভক্ত হতে পারে), তবে এগুলি এমন একটি পদ্ধতির ফলাফলও হতে পারে যা কেউ কখনও বিবেচনা করে না কারণ এটি বিরল এবং আপনি গবেষণা করছেন, যার অর্থ হ'ল আপনি যে কিছু স্টাফ করেন তা কেবল এখনও জানা যায়নি।

আদর্শভাবে, আপনি প্রতিটি আউটলারের তদন্ত করতে সময় নেন এবং আপনার মডেলটি কেন ফিট করে না তা বুঝতে পেরে এটি কেবল আপনার ডেটা সেট থেকে সরিয়ে ফেলুন। এটি সময়সাপেক্ষ এবং বিষয়গত কারণ যেগুলি পরীক্ষাগুলির উপর নির্ভরশীল, তবে বিকল্পটি আরও খারাপ: আপনি যদি বুঝতে না পারেন যে বহিরাগতরা কোথা থেকে এসেছিল, তবে আপনার ফলাফলগুলি "গণ্ডগোল" দেওয়া আপনার ফলাফলগুলির মধ্যে বেছে নিতে পারে, বা আপনার বোঝার অভাব আড়াল করতে কিছু "গাণিতিকভাবে কঠোর" পদ্ধতির সংজ্ঞা দেওয়া হচ্ছে। অন্য কথায়, "গাণিতিক কঠোরতা" অনুসরণ করে আপনি কোনও উল্লেখযোগ্য প্রভাব না পাওয়া এবং স্বর্গে না নামার মধ্যে নির্বাচন করেন।

সম্পাদনা

আপনার সমস্ত কিছু যদি কোথা থেকে এসেছে তা না জেনে সংখ্যার একটি তালিকা হয়, তবে কিছু ডেটা পয়েন্ট আউটলেটর কিনা তা জানার আপনার কোনও উপায় নেই, কারণ আপনি সবসময় এমন একটি বিতরণ ধরে নিতে পারেন যেখানে সমস্ত ডেটা ইনলিয়ার থাকে।


3
সমস্ত আউটলিয়ার অবশ্য একটি পরীক্ষা থেকে উত্পন্ন হয় না। আমি একটি বিশাল ডেটাসেটের সাথে কাজ করেছি যা কোনও অঞ্চলে রিয়েল-এস্টেট তথ্য সংগ্রহের সাথে জড়িত (বিক্রয়মূল্য, শয়নকক্ষের সংখ্যা, বর্গক্ষেত্র ইত্যাদি) এবং এখন এবং পরে, সেখানে ডেটা প্রবেশের ভুল হবে এবং আমার একটি থাকবে 400,000 শয়নকক্ষের ঘর 4 ডলারে যায়, বা এর মতো কিছু অযৌক্তিক। আমি মনে করব যে কোনও আউটলেট নির্ধারণের লক্ষ্যটির অংশটি হ'ল এটি ডেটা থেকে উত্পন্ন করা সম্ভব কিনা, বা এটি যদি কেবল প্রবেশের ত্রুটি ছিল see
ক্রিস্টোফার অ্যাডেন

2
@ ক্রিস্টোফার অ্যাডেন: আমি পরীক্ষামূলক প্রক্রিয়ার সেই অংশটি বিবেচনা করব। মূলত, আউটলিয়ারগুলি অপসারণ করতে সক্ষম হতে আপনাকে বুঝতে হবে কীভাবে ডেটা তৈরি করা হয়েছিল, অর্থাত্ কোনও ভাল কারণ ছাড়াই বিদেশী অপসারণ নয় no অন্যথায় আপনি কেবল আপনার ডেটা স্টাইলাইজ করছেন। আমি কিছুটা ভাল প্রতিফলিত করতে আমার উত্তর সম্পাদনা করেছি।
জোনাস

এটি পুরোপুরি যুক্তিসঙ্গত, তবে ধরে নেওয়া হয়েছে যে সত্য বন্টন কী তা সম্পর্কে আপনার কাছে ইতিমধ্যে পূর্বের জ্ঞান রয়েছে। আমি যেখানে আপনি না এমন দৃশ্যের ক্ষেত্রে আরও বেশি চিন্তাভাবনা করছিলাম এবং এটি খুব ভারী লেজযুক্ত বা বিমোডাল হতে পারে।
dsimcha

@ ডিডিমচা: আমি মনে করি না আপনি সেই ক্ষেত্রে আউটলিয়ারদের সনাক্ত করতে পারবেন (আমার সম্পাদনাটিও দেখুন)।
জোনাস

2
@ ডিডিমচা - আপনার সর্বদা পূর্বের জ্ঞান থাকে! আপনি কিভাবে তথ্য দেওয়া হয়েছিল? আপনি সবসময় সবসময় যে কত জানি। ডেটা ম্যাজিকালি শুধু দেখায় না। এবং আপনি সর্বদা স্থায়ী অনুমান করতে পারেন। এই অনুমানগুলির উপর ভিত্তি করে "আউটলিয়ার্স" মূলত আপনাকে একটি ধারণা দেয় যে আপনার অনুমানগুলির মধ্যে কিছু ভুল। "আউটলেটর" (যা সর্বদা আপেক্ষিক) অধ্যয়ন করে আপনি আপনার মডেলটি উন্নত করতে পারেন।
সম্ভাব্যতাব্লোগিক

13

আপনি সঠিক যে আউটলিয়ারগুলি অপসারণমূলক আচরণের মতো দেখাতে পারে তবে এর অর্থ এটি ভুল নয়। আপনার ডেটা বিশ্লেষণ সম্পর্কিত প্রতিটি সিদ্ধান্তের জন্য বাধ্যতামূলকভাবে সর্বদা একটি কঠোর গাণিতিক কারণ থাকা আবশ্যক হ'ল প্রায়শই কৃত্রিম কঠোরতার পাতলা পর্দা যা কোনওভাবেই বিষয়গত অনুশীলনে পরিণত হয়। এটি বিশেষভাবে সত্য যদি আপনি প্রতিটি পরিস্থিতি জুড়ে একই গাণিতিক ন্যায়সঙ্গততা প্রয়োগ করতে চান। (যদি প্রতিটি কিছুর জন্য বুলেটপ্রুফ স্পষ্ট গাণিতিক নিয়ম থাকে তবে আপনার কোনও পরিসংখ্যানবিদ প্রয়োজন হবে না))

উদাহরণস্বরূপ, আপনার দীর্ঘ লেজ বন্টন পরিস্থিতিতে, কেবলমাত্র সংখ্যার থেকে সিদ্ধান্ত নেওয়ার কোনও গ্যারান্টিযুক্ত পদ্ধতি নেই যে আপনি আউটলিরদের সাথে সুদের অন্তর্নিহিত বিতরণ পেয়েছেন বা অপ্রত্যাচারীদের সাথে কেবলমাত্র একটির অংশ হিসাবে সুদের দুটি অন্তর্নিহিত বিতরণ পেয়েছেন কিনা। অথবা, স্বর্গ নিষিদ্ধ, কেবলমাত্র ডেটা প্রকৃত বিতরণ।

আপনি যত বেশি ডেটা সংগ্রহ করবেন তত বেশি আপনি বিতরণের নিম্ন সম্ভাবনা অঞ্চলে into আপনি যদি 20 টি নমুনা সংগ্রহ করেন তবে এটি 3.5 এর জেড স্কোর সহ একটি মান পাবেন very আপনি যদি 10,000 টি নমুনা সংগ্রহ করেন তবে সম্ভবত এটির একটি পাবেন এবং এটি বিতরণের একটি প্রাকৃতিক অংশ। উপরের দিক থেকে দেওয়া, আপনি কীভাবে সিদ্ধান্ত নেবেন যেহেতু কিছু বাদ দেওয়ার পক্ষে চরম?

বিশ্লেষণের জন্য সাধারণভাবে সর্বোত্তম পদ্ধতি নির্বাচন করা প্রায়শই বিষয়গত হয়। এটি অযৌক্তিকভাবে বিষয়গত কিনা তা সিদ্ধান্তের ব্যাখ্যা এবং আউটলেটারের উপর নির্ভর করে।


+1 বার্নেট এবং লুইস, যিনি বহিরাগতদের উপর বইটি লিখেছিলেন , তিনি বলেছিলেন যে "উপাত্তের সংকলনের একজন আউটলেট [ একটি পর্যবেক্ষণ (বা পর্যবেক্ষণের উপসেট) যা এই তথ্যের সেটগুলির বাকী অংশের সাথে অসামঞ্জস্যপূর্ণ বলে মনে হয় " [পি তে । 7]। তারা অব্যাহত রেখেছে, "পর্যবেক্ষকের পক্ষ থেকে কিছু পর্যবেক্ষণ ... যাচাই-বাছাইয়ের জন্য বাছাই করা হয়েছে কিনা তা বিষয়ভিত্তিক বিচারের বিষয়। ... 'আউটলেটর' এর বৈশিষ্ট্যটি পর্যবেক্ষকের উপর এর প্রভাব ... "
whuber

"বই" এখানে কিছুটা অস্পষ্ট। আমি বার্নেট এবং লুইসকে শীর্ষস্থানীয় মনোগ্রাফ হিসাবে বিবেচনা করব, তবে এটি বিদেশীদের জন্য একমাত্র বই নয়। amazon.com/Outlier-Analysis-Charru-C-Agargar/dp/1461463955 সাম্প্রতিকতম। ডিএম হকিন্সের একটি পুরানো বইও রয়েছে।
নিক কক্স

9

আমি মনে করি না যে ডেটা বাড়িয়ে অন্তর্নিহিত প্রক্রিয়াটির একটি মডেল ধরে না নিয়ে কোনও আউটলেটারের সংজ্ঞা দেওয়া সম্ভব। এই জাতীয় মডেল ব্যতীত আমাদের কাছে কোনও রেফারেন্সের ফ্রেম নেই যে ডেটাটি ব্যাহত বা "ভুল" কিনা decide একজন আউটলারের সংজ্ঞা যেটি আমি কার্যকর পেয়েছি তা হ'ল আউটলেটর এমন একটি পর্যবেক্ষণ (বা পর্যবেক্ষণ) যা অন্যথায় ভাল সম্পাদন করে এমন কোনও মডেলের সাথে পুনরায় মিলিত হতে পারে না।


2
হুম ... তার ইডিএ পাঠ্যে জন টুকি কোনও মডেল ব্যবহার না করেই নির্দিষ্ট করে বিদেশী সংজ্ঞায়িত করেছেন।
whuber

7
আপনি কোনও মডেল ছাড়াই আউটলিয়ারদের সংজ্ঞা দিতে পারেন, তবে আমি এই জাতীয় সংজ্ঞাটি অপ্রয়োজনীয় বলে খুঁজে পেয়েছি। বিটিডাব্লু, মডেল অনুসারে, আমি অগত্যা কোনও পরিসংখ্যানের মডেল বোঝাতে চাই না যা স্পষ্টভাবে ডেটার সাথে মানানসই হয়েছে। আউটলারের কোনও সংজ্ঞা আপনাকে কোন ধরণের মান দেখতে প্রত্যাশা করে এবং কোন ধরণের মান আপনি দেখার আশা করেন না সে সম্পর্কে কিছুটা ধারণা নেওয়া দরকার to আমি মনে করি যদি এই অনুমানগুলি (অর্থাত্ মডেল) স্পষ্ট করে দেওয়া হয় তবে এটি আরও ভাল। এখানে এ বিষয়টিও রয়েছে যে ইডিএতে আপনি ডেটা অন্বেষণ করছেন, চূড়ান্ত মডেল ফিট করার চেয়ে কোনও বহিরাগতের আপনার সংজ্ঞা ইডিএর পক্ষে খুব আলাদা হতে পারে।
ডিকরান মার্শুপিয়াল

6

এখানে অনেক দুর্দান্ত উত্তর রয়েছে। তবে, আমি এটি উল্লেখ করতে চাই যে দুটি প্রশ্ন বিভ্রান্ত হচ্ছে। প্রথমটি হ'ল, 'আউটলেটর কী?' এবং আরও নির্দিষ্টভাবে এর একটি "কঠোর সংজ্ঞা" দিতে। এটি সহজ:

আউটলেটর এমন একটি ডেটা পয়েন্ট যা আপনার পড়াশোনার উদ্দেশ্যে / আপনার বাকী ডেটা থেকে আলাদা জনসংখ্যা / বিতরণ / ডেটা উত্পন্ন প্রক্রিয়া থেকে আসে।

দ্বিতীয় প্রশ্নটি হল 'আমি কীভাবে জানি / সনাক্ত করব যে ডেটা পয়েন্টটি আউটলেটর?' দুর্ভাগ্যক্রমে, এটি খুব কঠিন। তবে, এখানে দেওয়া উত্তরগুলি (যা সত্যিই খুব ভাল, এবং যা আমি উন্নত করতে পারি না) সেই কার্যটির সাথে যথেষ্ট সহায়ক হবে।


1
এটি একটি চিন্তাভাবনামূলক উত্তর। সুতরাং, ধরুন আমি একটি সাধারণ ডিস্ট্রিবিউশন থেকে আইডি মান উত্পন্ন করি - এগুলি প্রায় থেকে বিস্তৃত হতে পারে - এবং একটি সাধারণ বিতরণ থেকে আরও একটি মান উত্পন্ন করে এবং এটি সমান হয় (যার জন্য মধ্যে সম্ভাবনা রয়েছে)। এটি অতিরিক্ত সম্ভাব্য নয় যে অতিরিক্ত একজন আউটলেট হতে সংকল্পবদ্ধ হবে। আপনি কি দাবি করেন যে এটি সত্যই? আপনার উদ্ধৃতি আমাকে তা ভাবতে বাধ্য করে, তবে কীভাবে এটি ব্যবহারিকভাবে কার্যকর করা যায় তা আমি দেখছি না। ( 0 , 1 ) - 2.5 2.5 ( 4 , 1 ) 2 1 40 299(0,1)2.52.5(4,1)21402
হোয়বার

1
@ শুভ, হ্যাঁ আমি বলে ফেললাম বলে হয় একটি Outlier, যদিও আপনি এটা লক্ষ্য না হবে (যা, আমি সন্দেহ হল, আপনি কার্যকরীভাবে কর্মক্ষম দ্বারা কি বোঝাতে চেয়েছেন)।
গুং - মনিকা পুনরায়

1
আপনি যে পার্থক্য করছেন তা আমি প্রশংসা করি। আমি কেবল আপনার সংজ্ঞা এবং এই থ্রেডের বহিরাগতদের অন্যান্য সংজ্ঞা বা বিবরণের মধ্যে তীব্র বিপরীতটি নির্দেশ করতে চেয়েছিলাম। আপনার মনে হয় না এটি সন্তোষজনক ব্যবহারিক পদ্ধতিতে পরিচালিত হতে পারে: আপনাকে সর্বদা এটি মেনে নিতে হবে যে আপনার ডেটাসেটের একটি বিশাল অংশ "বাহ্যিক" হতে পারে তবে এটি সনাক্ত বা সমাধান করার কোনও উপায় ছাড়াই।
হোবার

@ শুভেচ্ছা, আমি আন্তরিকভাবে একমত। আমি এটিকে হাইপোথিসিস টেস্টিংয়ের মতো স্বাচ্ছন্দ্যপূর্ণ দেখতে পাচ্ছি, যেখানে (উদাহরণস্বরূপ) 2 টি গোষ্ঠী খুব সামান্য, অন্বেষণযোগ্য পরিমাণে পৃথক হতে পারে বা মাঝারি পরিমাণে পৃথক হতে পারে, তবে আপনি যে নমুনাগুলি দিয়ে শেষ করেছেন সেটি একা সুযোগের সাথে খুব মিল ছিল; তবুও, তাত্ত্বিক দৃষ্টিকোণ থেকে এটি বোঝার এবং পার্থক্য বজায় রাখার পক্ষে মূল্যবান।
গুং - মনিকা পুনরায়

1
@ হুবুহু, আপনি ঠিক বলেছেন কিছু এই পার্থক্য তৈরি করে, তবে অনেকেই এই ধারণাগুলি সম্পর্কে পরিষ্কার নয়। আমার অবস্থান হ'ল দূষিত ব্যতীত "আউটলেট" এর অর্থবহ বাস্তবতা নেই । তবুও, যদি আপনার ফলাফলগুলি একা তাদের দ্বারা চালিত হয় (তারা 'প্রকৃত' হয় কি না) এই বিষয়টি নিয়ে লোকেরা / পরিবর্তে বিষয়টি চিন্তা করা উচিত, এবং সুতরাং আপনার ফলাফলগুলি খুব নাজুক। সংক্ষেপে, আপনার জনসংখ্যার যে বিন্দু (গুলি) নিয়ে উদ্বেগ হওয়ার কোনও কারণ নেই এবং অনন্যভাবে আপনার ফলাফলগুলি চালাচ্ছেন না; একবার আপনি ডাব্লু / 2 সমস্যাগুলি সমাধান করেছেন, "আউটলেট" এর কিছুই নেই to
গুং - মনিকা পুনরায়

6

সংজ্ঞা 1: ইতিমধ্যে উল্লিখিত হিসাবে, একই প্রক্রিয়া (প্রক্রিয়া এ বলুন) প্রতিফলিত করে এমন একটি গ্রুপের উপাত্ত একটি পর্যবেক্ষণ (বা পর্যবেক্ষণের একটি সেট) যা প্রক্রিয়া এ এর ​​ফলাফল হওয়ার সম্ভাবনা কম is

এই সংজ্ঞাটি অবশ্যই প্রক্রিয়া এ এর ​​সম্ভাবনা কার্যকারিতা (অতএব একটি মডেল) এবং একটি সম্ভাব্যতা নির্ধারণের (যেমন কোথায় থামাতে হবে ...) স্থির করার সম্ভাবনা সম্পর্কে একটি অনুমান জড়িত। এই সংজ্ঞাটি আমি এখানে যে উত্তর দিয়েছি তার মূলে রয়েছে । এটা আরো ধারনা সংক্রান্ত পরীক্ষা হাইপোথিসিস তাত্পর্য অথবা হইয়া ধার্মিকতা

সংজ্ঞা 2 একটি আউটলিয়ার হয় একটি পর্যবেক্ষণ পর্যবেক্ষণ একটি গ্রুপ যেমন যখন একটি প্রদত্ত মডেলের পর্যবেক্ষণ গ্রুপ মডেলিং সঠিকতা বেশি যে যদি মুছে ফেলেছি এবং আলাদাভাবে (ক মিশ্রণ দিয়ে চিকিত্সা করা হয়, আমি উল্লেখ চেতনায় এখানে )।জি xxGx

এই সংজ্ঞায় একটি "প্রদত্ত মডেল" এবং নির্ভুলতার একটি পরিমাপ জড়িত। আমি মনে করি এই সংজ্ঞাটি ব্যবহারিক দিক থেকে আরও বেশি এবং বহিরাগতদের উত্সতে আরও বেশি। আদিতে, আউটলেট সনাক্তকরণ শক্তিশালী পরিসংখ্যানগুলির একটি সরঞ্জাম ছিল ।

স্পষ্টতই এই সংজ্ঞাগুলি খুব অনুরূপ তৈরি করা যেতে পারে যদি আপনি বুঝতে পারেন যে প্রথম সংজ্ঞাতে সম্ভাবনা গণনা করাতে কোনও স্কোরের মডেলিং এবং গণনা জড়িত :)


2

একজন আউটলেটর এমন একটি ডেটা পয়েন্ট যা আমার পক্ষে অসুবিধে হয় না, এই তথ্যটি উত্পন্ন করার প্রক্রিয়া সম্পর্কে আমার বর্তমান উপলব্ধি দেওয়া হয়েছে।

আমি বিশ্বাস করি এই সংজ্ঞাটি যতটা কঠোর হতে পারে।


জন টুকির সংজ্ঞাটির সাথে এটির বিপরীতে (তিনি "বাইরের" শব্দটি ব্যবহার করেছেন): "আমরা যখন কিছু মানের মানকে দেখি তখন আমরা কিছু মানকে অন্যদের থেকে অনেক দূরে বিভ্রান্ত হিসাবে দেখি। ... এর একটি নিয়ম থাকা সুবিধাজনক থাম্ব যা "বাহ্যিক" ... হিসাবে নির্দিষ্ট মানগুলি খুঁজে তোলে ... "পরে তিনি এটিকে সংক্ষিপ্তসার হিসাবে ... ... স্বতন্ত্র মানগুলির সনাক্তকরণ যা অস্বাভাবিক হতে পারে" " [ইডিএ, দ্বিতীয় অধ্যায়]। তিনি পুরো বই জুড়ে জোর দিয়েছিলেন যে আমরা "একটি প্রক্রিয়া বোঝার" ভান করার পরিবর্তে ডেটা বর্ণনা করছি এবং একাধিক বৈধ বিবরণ সর্বদা সম্ভব।
whuber

একইভাবে, "আউটলিয়াররা হ'ল নমুনা মান যা নমুনার সিংহভাগের তুলনায় বিস্মিত হয়" (ডব্লিউএন ভেনিয়েবলস এবং বিডি রিপ্লি। 2002. এস। নিউ ইয়র্ক: স্প্রঞ্জার, পি .১১১) এর সাথে আধুনিক প্রয়োগের পরিসংখ্যান । যাইহোক, অবাক করা দর্শকের মনে এবং ডেটার কিছু স্বচ্ছ বা স্পষ্ট মডেলের উপর নির্ভরশীল। আরও একটি মডেল থাকতে পারে যার অধীনে আউটলেট মোটেও অবাক হয় না, বলুন, তথ্যটি স্বাভাবিকের চেয়ে লগনরমাল বা গামা।
নিক কক্স

@ নিক যা বার্নেট এবং লুইসের সাথে সামঞ্জস্যপূর্ণ, আমি জন এর উত্তরের মন্তব্যে উদ্ধৃত করেছি ।
whuber

@ শুভ: আপনি "কনট্রাস্ট এটি" বলুন, যার অর্থ আমার মনে হয় আপনি একমত নন তবে আমি নিশ্চিত নই। আমি সেই মডেল-গঠনটি যুক্তিযুক্ত করব - অন্তর্নিহিত এবং নির্বোধ, সম্ভবত - সেই কারণেই আমরা তথ্যগুলিতে নিদর্শনগুলি দেখি, বা চাঁদে মানুষ বা বিদেশী li মডেলটির কোনও পদার্থবিজ্ঞান / রসায়ন / অর্থনৈতিক ভিত্তি নাও থাকতে পারে তবে আমরা একটি মডেলকে অনুমান করেছি। অন্যথায়, অবাক হওয়ার কিছু নেই, "বাইরের" নেই।
ওয়েইন

Tukey সনির্বন্ধ যে হয় বর্ণনা ডেটা আমরা অগত্যা নেই মডেলিং তাদের। ডেটা বর্ণনা অন্তর্ভুক্ত করার জন্য আপনার "মডেল" এর সংজ্ঞাটি প্রসারিত করা ন্যায্য, তবে তারপরে শব্দটি প্রায় কার্যকর হয়ে উঠবে। টুকির দৃষ্টিকোণ থেকে (যেমন আমি এটি ব্যাখ্যা করি, অবশ্যই) মুখ নষ্ট হওয়ার বিষয়ে কোনও উদ্বেগ নেই এবং নেই সুবিধাবোধের কোনও প্রশ্নও নেই। সুতরাং, যদিও আমি আপনার অনুপ্রেরণাকে সম্মান করি, তবুও আমি মনে করি যে আপনার দৃষ্টিভঙ্গি ("মুখের সঞ্চয়" এবং "অসুবিধার" প্রতিফলিত হিসাবে) এই প্রশ্নের অন্যান্য পদ্ধতির তুলনায় কম গঠনমূলক।
whuber

0

একটি নূন্যতম সেট উপাদান হিসাবে একটি আউটলেট সংজ্ঞায়িত যা একটি ডেটাসেটফ আকার এন থেকে অপসারণ করা আবশ্যক সমস্ত% (2 level n -1) এর 95% আস্থা স্তরে পরিচালিত RUM পরীক্ষার সাথে 100% সম্মতি নিশ্চিত করার জন্য ডেটা। আরএমএম পরীক্ষার সংজ্ঞায়নের জন্য আরডি (সেপ্টেম্বর 2010) ব্যবহার করে পিডিএফ-তে ফিটিং ডেটা সম্পর্কিত করিয়ান এবং ডুডউইক্জ পাঠ্যটি দেখুন।


-2

আউটলিয়াররা কেবল ঘনত্ববাদী অঞ্চলে গুরুত্বপূর্ণ। যদি কোনও একক ডেটাপয়েন্ট আপনার মডেলটিতে পক্ষপাতিত্ব যুক্ত করে যা আপনার তত্ত্ব দ্বারা পূর্বনির্ধারিত অন্তর্নিহিত বিতরণ দ্বারা সংজ্ঞায়িত করা হয়, তবে এটি সেই মডেলের পক্ষে বহিরাগত। সাবজেক্টিভিটি এই সত্যে নিহিত যে যদি আপনার তত্ত্বটি যদি কোনও ভিন্ন মডেল ধারণ করে, তবে আপনার কাছে বহিরাগত হিসাবে আলাদা পয়েন্ট থাকতে পারে set


1
আপনি কি দাবি করছেন যে বহিরাগতরা বেইসিয়ান ডেটা বিশ্লেষণে গুরুত্বহীন?
whuber
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.