যতক্ষণ না আপনার ডেটা জ্ঞাত বৈশিষ্ট্য সহ একটি পরিচিত বিতরণ থেকে আসে, আপনি দৃ out়তার সাথে একটি আউটলেটরকে এমন ইভেন্ট হিসাবে সংজ্ঞায়িত করতে পারেন যা পর্যবেক্ষণ প্রক্রিয়া দ্বারা উত্পন্ন হওয়ার সম্ভাবনা খুব কম (যদি আপনি "খুব বেশি সম্ভাবনা" অ-কঠোর বলে মনে করেন, তবে সমস্ত অনুমান পরীক্ষা করা হয়)।
যাইহোক, এই পদ্ধতির দুটি স্তরে সমস্যাযুক্ত: এটি ধরে নেওয়া হয় যে তথ্যগুলি পরিচিত বৈশিষ্ট্যগুলির সাথে একটি পরিচিত বিতরণ থেকে আসে এবং এটি ঝুঁকি নিয়ে আসে যে কিছু icalন্দ্রজালিক ত্রুটিগুলি দ্বারা সেট করা আপনার ডেটাতে পাচার হওয়া ডেটা পয়েন্ট হিসাবে বহিরাগতদের দেখা হয়।
Magন্দ্রজালিক ডেটা ত্রুটির অভাবে, সমস্ত ডেটা আপনার পরীক্ষায় আসে এবং সুতরাং প্রকৃতপক্ষে বিদেশী থাকা সম্ভব নয়, কেবল অদ্ভুত ফলাফল। এগুলি রেকর্ডিং ত্রুটিগুলি থেকে উদ্ভূত হতে পারে (উদাহরণস্বরূপ ৪০০০ ডলারে একটি 400000 শয়নকক্ষ ঘর), পদ্ধতিগত পরিমাপের সমস্যাগুলি (চিত্র বিশ্লেষণ অ্যালগরিদম যদি বিস্তৃত অঞ্চলটি যদি সীমান্তের খুব কাছে থাকে তবে রিপোর্ট করে) পরীক্ষামূলক সমস্যাগুলি (কখনও কখনও স্ফটিকগুলি সমাধানের বাইরে চলে যায়, যা খুব উচ্চ সংকেত দেয়) বা আপনার সিস্টেমের বৈশিষ্ট্যগুলি (একটি ঘর কখনও কখনও দু'জনের পরিবর্তে তিনটিতে বিভক্ত হতে পারে), তবে এগুলি এমন একটি পদ্ধতির ফলাফলও হতে পারে যা কেউ কখনও বিবেচনা করে না কারণ এটি বিরল এবং আপনি গবেষণা করছেন, যার অর্থ হ'ল আপনি যে কিছু স্টাফ করেন তা কেবল এখনও জানা যায়নি।
আদর্শভাবে, আপনি প্রতিটি আউটলারের তদন্ত করতে সময় নেন এবং আপনার মডেলটি কেন ফিট করে না তা বুঝতে পেরে এটি কেবল আপনার ডেটা সেট থেকে সরিয়ে ফেলুন। এটি সময়সাপেক্ষ এবং বিষয়গত কারণ যেগুলি পরীক্ষাগুলির উপর নির্ভরশীল, তবে বিকল্পটি আরও খারাপ: আপনি যদি বুঝতে না পারেন যে বহিরাগতরা কোথা থেকে এসেছিল, তবে আপনার ফলাফলগুলি "গণ্ডগোল" দেওয়া আপনার ফলাফলগুলির মধ্যে বেছে নিতে পারে, বা আপনার বোঝার অভাব আড়াল করতে কিছু "গাণিতিকভাবে কঠোর" পদ্ধতির সংজ্ঞা দেওয়া হচ্ছে। অন্য কথায়, "গাণিতিক কঠোরতা" অনুসরণ করে আপনি কোনও উল্লেখযোগ্য প্রভাব না পাওয়া এবং স্বর্গে না নামার মধ্যে নির্বাচন করেন।
সম্পাদনা
আপনার সমস্ত কিছু যদি কোথা থেকে এসেছে তা না জেনে সংখ্যার একটি তালিকা হয়, তবে কিছু ডেটা পয়েন্ট আউটলেটর কিনা তা জানার আপনার কোনও উপায় নেই, কারণ আপনি সবসময় এমন একটি বিতরণ ধরে নিতে পারেন যেখানে সমস্ত ডেটা ইনলিয়ার থাকে।