এটিকে সম্বোধন করার আগে, এটি স্বীকার করা জরুরী যে "প্রয়োগকারীদের অপসারণ" এর পরিসংখ্যানগত অপব্যবহারটি প্রয়োগ করা অনেকগুলি পরিসংখ্যানের পাঠ্যবিদ্যায় ভুলভাবে প্রবর্তিত হয়েছে। Ditionতিহ্যগতভাবে, আউটলিয়ারগুলি উচ্চ উত্তোলন, উচ্চ প্রভাব পর্যবেক্ষণ হিসাবে সংজ্ঞায়িত হয়। ডেটা বিশ্লেষণে এই জাতীয় পর্যবেক্ষণগুলি সনাক্ত করতে এবং করা উচিত, তবে কেবলমাত্র শর্তাদি এই পর্যবেক্ষণগুলি অপসারণের পরোয়ানা দেয় না। একটি "সত্য আউটলেটর" একটি উচ্চ লিভারেজ / উচ্চ প্রভাব পর্যবেক্ষণ যা পরীক্ষামূলক ডিজাইনের প্রতিরূপগুলির সাথে সঙ্গতিপূর্ণ নয়। এটিকে পর্যবেক্ষণ হিসাবে বিবেচনা করার জন্য সেই জনসংখ্যার বিশিষ্ট জ্ঞান এবং "ডেটা তৈরির প্রক্রিয়া" এর পিছনে বিজ্ঞানের প্রয়োজন। সর্বাধিক গুরুত্বপূর্ণ দিকটি হ'ল আপনার সম্ভাব্য আউটলিয়ারদের অ্যাপ্ররিওরি সনাক্ত করতে সক্ষম হওয়া উচিত ।
জিনিসগুলির বুটস্ট্র্যাপিং দিকটি হিসাবে, বুটস্ট্র্যাপটি নমুনা জনসংখ্যার থেকে স্বতন্ত্র, পুনরাবৃত্তি আঁকানোকে অনুকরণ করে। যদি আপনি আপনার বিশ্লেষণ পরিকল্পনায় বর্জনীয় মানদণ্ডটিকে পূর্বনির্ধারিত করেন তবে আপনার পৃথক বুটস্ট্র্যাপ নমুনা বিতরণে বাদ দেওয়া মানগুলি ছেড়ে দেওয়া উচিত । এটি আপনার ডেটা স্যাম্পল করার পরে ব্যতিক্রম প্রয়োগের কারণে পাওয়ার ক্ষতির দায়বদ্ধ হবে। তবে, যদি কোনও পূর্বনির্ধারিত বর্জনীয় মানদণ্ড না থাকে এবং পোস্ট হকের সিদ্ধান্তটি ব্যবহার করে আউটলিয়ারগুলি অপসারণ করা হয় , কারণ আমি স্পষ্টতই এর বিরুদ্ধে পদক্ষেপ নিচ্ছি, তবে এই মানগুলি অপসারণের ফলে অপসারণকারীদের অপসারণের ফলে ঘটে যাওয়া একই ত্রুটিগুলি প্রচার করবে।
100 জন ব্যক্তির একটি অনাস্থিহীন সহজ এলোমেলো নমুনায় সম্পদ এবং সুখ সম্পর্কে একটি গবেষণা বিবেচনা করুন। যদি আমরা এই বিবৃতিটি গ্রহণ করি, "জনসংখ্যার 1% বিশ্বব্যাপী 90% সম্পদ ধারণ করে", তবে আমরা গড়ে একটি অত্যন্ত প্রভাবশালী মান পর্যবেক্ষণ করব। আরও ধরুন যে, জীবনের একটি মৌলিক গুণকে সমর্থন করার বাইরে, বৃহত্তর আয়ের (ননকন্ট্যান্ট লিনিয়ার ট্রেন্ড) এর জন্য অতিরিক্ত কোনও সুখের কারণ ছিল না। সুতরাং এই স্বতন্ত্র এছাড়াও উচ্চ উত্তোলন হয়।
অপ্রয়োজনীয় ডেটাতে সর্বনিম্ন স্কোয়ার রিগ্রেশন সহগ ফিট করে এমন একটি জনসংখ্যার গড় এই ডেটাতে প্রথম অর্ডার প্রবণতার গড় অনুমান করে। এটি নমুনায় আমাদের 1 জন ব্যক্তি দ্বারা ভারীভাবে তত্পর হয়ে উঠেছে যার সুখ মধ্যম আয়ের স্তরের সাথে সুসংগত। আমরা যদি এই ব্যক্তিকে অপসারণ করি তবে সর্বনিম্ন স্কোয়ারগুলির রিগ্রেশন opeাল অনেক বড়, তবে রেজিস্ট্রারের বৈকল্পিকতা হ্রাস পেয়েছে, সুতরাং সমিতি সম্পর্কে অনুমান প্রায় একই। এটি করার ক্ষেত্রে অসুবিধাটি হ'ল আমি এমন শর্তগুলি পূর্বনির্ধারিত করি নি যেখানে ব্যক্তিদের বাদ দেওয়া হবে। অন্য গবেষক যদি এই অধ্যয়নের নকশাটির অনুলিপি করেন তবে তারা গড়ে এক উচ্চ আয়ের নমুনা দিতেন, মাঝারিভাবে সুখী ব্যক্তি, এবং আমার "ছাঁটা" ফলাফলের সাথে অসামঞ্জস্যপূর্ণ ফলাফলগুলি অর্জন করতেন।
আমরা যদি মাঝারি আয়ের সুখ সমিতিতে আগ্রহী হয়ে থাকি , তবে আমাদের পূর্বনির্ধারিত হওয়া উচিত ছিল, যেমন, "বার্ষিক গৃহস্থালির আয়ের তুলনায়। 100,000 ডলারের চেয়ে আয়ের ব্যক্তিদের তুলনা করুন"। সুতরাং আউটলেট সরানো আমাদের এমন কোনও সংস্থার অনুমানের কারণ ঘটায় যা আমরা বর্ণনা করতে পারি না, সুতরাং পি-মানগুলি অর্থহীন।
অন্যদিকে, ভ্রান্ত ক্যালকুলেটেড চিকিত্সা সরঞ্জাম এবং স্বতঃস্ফূর্ত স্ব-প্রতিবেদন করা জরিপের মিথ্যা অপসারণ করা যেতে পারে। প্রকৃত বিশ্লেষণ হওয়ার আগে বর্জনীয় মানদণ্ডটি আরও সঠিকভাবে বর্ণনা করা যেতে পারে, এই জাতীয় বিশ্লেষণের ফলাফল আরও কার্যকর এবং সঙ্গতিপূর্ণ হবে।