বহিরাগতদের পতাকাঙ্কিত করা রায় রায় নয় (বা কোনও ক্ষেত্রে এক হওয়ার দরকার নেই)। একটি পরিসংখ্যানগত মডেল দেওয়া, outliers একটি সুনির্দিষ্ট, উদ্দেশ্য সংজ্ঞা আছে: তারা পর্যবেক্ষণ যে সংখ্যাগরিষ্ঠ তথ্য প্যাটার্ন অনুসরণ করে না । এ জাতীয় পর্যবেক্ষণগুলি কোনও বিশ্লেষণের সূচনায় আলাদা করা দরকার কারণ কেবলমাত্র তথ্যের সর্বাধিক থেকে তাদের দূরত্ব নিশ্চিত করে যে তারা সর্বাধিক সম্ভাবনার (বা অন্য কোনও উত্তল ক্ষতি ফাংশন) দ্বারা সজ্জিত যে কোনও মাল্টিভেরিয়েবল মডেলের উপর তুলনামূলকভাবে টানতে পারে।
এটা তোলে নির্দেশ গুরুত্বপূর্ণ যে মাল্টিভেরিয়েবল Outlier গুলি কেবল নির্ভরযোগ্যভাবে অন্তত বর্গ ফিট (অথবা অন্য কোন মডেল এমএল দ্বারা আনুমানিক, বা অন্য কোন উত্তল ক্ষতি ফাংশন) থেকে অবশিষ্টাংশ ব্যবহার সনাক্ত করা যাবে না। সহজ কথায় বলতে গেলে, মাল্টিভেরিয়েবল আউটলিয়াররা কেবলমাত্র তাদের অবশিষ্টাংশগুলি একটি মডেল থেকে নির্ভরযোগ্যভাবে সনাক্ত করতে পারে যা তাদের দ্বারা চালিত হওয়ার মতো সংবেদনশীল নয় এমন একটি প্রাক্কলন পদ্ধতি ব্যবহার করে লাগানো হয় model
প্রত্যাশাবাদীরা কোনও ধ্রুপদী ফিটের অবশিষ্টাংশে প্রয়োজনীয় প্রমাণ পাবে এমন বিশ্বাস কোথাও না কোথাও প্রমাণের পরিমাপ হিসাবে পি-ভ্যালু ব্যাখ্যা করা বা পক্ষপাতদুষ্ট নমুনা থেকে জনসংখ্যার প্রতি অনুকরণ আঁকার মতো পরিসংখ্যান নং-এর ন্যূনতম। সম্ভবত এটির চেয়ে অনেক বেশি বয়স্ক: গাউস নিজেই গোলমাল পর্যবেক্ষণ থেকে একটি সাধারণ বিতরণের প্যারামিটারগুলি অনুমান করার জন্য মিডিয়েন এবং পাগলের মতো (ক্লাসিকাল গড় এবং স্ট্যান্ডার্ড বিচ্যুতির পরিবর্তে) মতো শক্তিশালী অনুমানকারী ব্যবহারের সুপারিশ করেছিলেন going এখন পর্যন্ত পাগলের (1) ভাগের ধারাবাহিকতা ফ্যাক্টর অর্জন করা।
বাস্তব ডেটার উপর ভিত্তি করে একটি সাধারণ ভিজ্যুয়াল উদাহরণ দেওয়ার জন্য, কুখ্যাত সিওয়াইজি স্টার ডেটা বিবেচনা করুন । এখানে লাল রেখাটি সর্বনিম্ন বর্গক্ষেত্রের ফিটকে চিত্রিত করে, নীল রেখাটি একটি শক্তিশালী রৈখিক রিগ্রেশন ফিট ব্যবহার করে প্রাপ্ত ফিট। এখানে শক্তিশালী ফিট হ'ল ফাস্টএলটিএস (২) ফিট, এলএস ফিটের একটি বিকল্প যা বহিরাগতদের সনাক্ত করতে ব্যবহার করা যেতে পারে (কারণ এটি একটি অনুমান পদ্ধতি ব্যবহার করে যা নিশ্চিত করে যে অনুমানের সহগের উপর কোনও পর্যবেক্ষণের প্রভাব সীমাবদ্ধ) is এটি পুনরুত্পাদন করার জন্য আর কোডটি হ'ল:
library(robustbase)
data(starsCYG)
plot(starsCYG)
lm.stars <- lm(log.light ~ log.Te, data = starsCYG)
abline(lm.stars$coef,col="red",lwd=2)
lts.stars <- ltsReg(log.light ~ log.Te, data = starsCYG)
abline(lts.stars$coef,col="blue",lwd=2)
মজার বিষয় হল, বাম দিকের 4 টি বাহ্যিক পর্যবেক্ষণগুলিতেও এলএস ফিট এবং এলএস ফিটের অবশিষ্টাংশগুলির কিউকিউ প্লট (বা তাদের থেকে প্রাপ্ত ডায়াগনস্টিক সরঞ্জামগুলির যেমন কুকের দূরত্ব বা dfbeta) সমস্যাযুক্ত হিসাবে এগুলির কোনওটি দেখাতে ব্যর্থ। এটি প্রকৃতপক্ষে আদর্শ: এলএস অনুমানকে এমনভাবে টানতে দু'র বেশি বিদেশী (নমুনা আকার নির্বিশেষে) প্রয়োজন হয় না যাতে বহিরাগতরা একটি অবশিষ্ট প্লটটিতে দাঁড়াতে না পারে। একে মাস্কিং এফেক্ট বলেএবং এটি ভাল নথিভুক্ত করা হয়। সম্ভবত সিওয়াইস্টার্স ডেটাসেট সম্পর্কে উল্লেখযোগ্য একমাত্র বিষয় হ'ল এটি দ্বিবিভক্ত (তাই আমরা দৃust় ফিটের ফলাফলটি নিশ্চিত করতে ভিজ্যুয়াল ইন্সপেকশন ব্যবহার করতে পারি) এবং বাম দিকে এই চারটি পর্যবেক্ষণ কেন এত অস্বাভাবিক, সে সম্পর্কে আসলেই একটি ভাল ব্যাখ্যা রয়েছে।
এটি বিটিডব্লিউ, নিয়মের চেয়ে ব্যতিক্রম: ছোট নমুনা এবং কয়েকটি ভেরিয়েবলের সাথে জড়িত ছোট পাইলট অধ্যয়ন ব্যতীত এবং যেখানে পরিসংখ্যান বিশ্লেষণকারী ব্যক্তিও ডেটা সংগ্রহের প্রক্রিয়ায় জড়িত ছিল, আমি সে ক্ষেত্রে এর আগে কখনও বিশ্বাস করি নি যেখানে পূর্বের বিশ্বাস বহিরাগতদের পরিচয়টি সত্য ছিল। এটি যাচাই করা সহজ উপায়। বিদেশী সনাক্তকারী অ্যালগরিদম বা গবেষকের অন্ত্রে অনুভূতি ব্যবহার করে আউটলিয়ারদের চিহ্নিত করা হয়েছে কিনা তা বিবেচনা না করেই, বহিরাগতরা এমন সংজ্ঞা পর্যবেক্ষণ করে যেগুলি এলএস ফিট থেকে প্রাপ্ত সহগের উপর একটি অস্বাভাবিক লিভারেজ (বা 'টান') রয়েছে। অন্য কথায়, আউটলিয়াররা এমন পর্যবেক্ষণ যাঁদের নমুনা থেকে অপসারণ করা এলএস ফিটকে মারাত্মকভাবে প্রভাবিত করে।
যদিও আমি কখনও ব্যক্তিগতভাবে এটির অভিজ্ঞতা লাভ করি নি, সাহিত্যে এমন কিছু ভাল ডকুমেন্টেড কেস রয়েছে যেখানে পর্যবেক্ষকরা আউটলিয়ার হিসাবে আউটিলার হিসাবে চিহ্নিত হিসাবে চিহ্নিত করেছিলেন অ্যালগরিদমের পরে যেগুলি ত্রুটিযুক্ত ছিল বা অন্য কোনও প্রক্রিয়া দ্বারা উত্পন্ন হয়েছিল। যাই হোক না কেন, বৈজ্ঞানিকভাবে warranted বা বুদ্ধিমান না শুধুমাত্র যদি বিদেশিদের কোনওভাবে বোঝা বা ব্যাখ্যা করা যায় তবে তাদের অপসারণ করা। যদি পর্যবেক্ষণের একটি ছোট্ট ক্যাবাল এতক্ষণে ডেটার প্রধান অংশ থেকে সরিয়ে ফেলা হয় যে এটি এককভাবে একটি পরিসংখ্যান পদ্ধতির ফলাফলগুলি নিজেই টানতে পারে তবে এটিই বুদ্ধিমান (এবং আমি প্রাকৃতিক যোগ করতে পারি) নির্বিশেষে এটিকে চিকিত্সা করা বা না করা এই ডেটা পয়েন্টগুলি অন্যান্য কারণে সন্দেহজনক বলে মনে হয় না।
(1): স্টিফেন এম স্টিলার, পরিসংখ্যানের ইতিহাস: 1900 সালের আগে অনিশ্চয়তার পরিমাপ দেখুন।
(২): বড় ডেটা সেটগুলির জন্য কম্পিউটিং এলটিএস রেজিস্ট্রেশন (২০০ 2006) পি জে রুসিয়েউ, কে ভ্যান ড্রাইসেন।
(3): উচ্চ-ব্রেকডাউন শক্তিশালী মাল্টিভারিয়েট পদ্ধতিগুলি (২০০৮)। হুবার্ট এম।, রুশিউ পিজে এবং ভ্যান অ্যালস্ট এস উত্স: পরিসংখ্যানবিদ। সী। খণ্ড 23, 92-119।