এটি এমন একটি অঞ্চল যেখানে পরিভাষায় কিছুটা অসঙ্গতি রয়েছে যা কিছু পরিসংখ্যানগত আলোচনাকে বিভ্রান্ত করার দুর্ভাগ্যজনক প্রভাব ফেলে। একটি " অন্তর্নিহিত এর ধারণা"সাধারণত ত্রুটিযুক্ত এমন কোনও ডেটা মানকে বোঝাতে ব্যবহৃত হয় (যেমন, পরিমাপের ত্রুটির সাপেক্ষে) তবে সঠিকভাবে পরিমাপক মানগুলির বিতরণের" অভ্যন্তরীণ "ক্ষেত্রে রয়েছে this এই সংজ্ঞা অনুসারে ইনলারটি দুটি দিক রয়েছে: (1 ) এটি মানগুলির প্রাসঙ্গিক বিতরণের অভ্যন্তরের অভ্যন্তরে রয়েছে এবং (২) এটি একটি ভ্রান্ত মান, বিপরীতভাবে, "আউটলেটর" এর সাথে সম্পর্কিত ধারণাটি সাধারণত এর ডেলগুলির কাছে যে কোনও ডেটা মানকে বোঝাতে ব্যবহৃত হয় used বিতরণ, তবে কোনও তাত্পর্যপূর্ণ দিক ছাড়াই ধরে নেওয়া যায় যে এটি ত্রুটিযুক্ত This এই পরিভাষার অধীনে, "ইনিলার্স" এবং "আউটলিয়ার্স" এর মিলনসমস্ত ডেটা বা এমনকি সমস্ত ভ্রান্ত ডেটার সাথে সামঞ্জস্য করে না।
বিদেশিদের সাথে লেনদেন: আমি এখানে এবং এখানে অন্যান্য প্রশ্নে আউটলিয়ারদের সাথে ডিল করার বিষয়ে আলোচনা করেছি , তবে সুবিধার জন্য, আমি এখানে এই মন্তব্যগুলির কয়েকটি পুনরাবৃত্তি করব। আউটলিয়াররা হ'ল এমন পয়েন্ট যা বিতরণে অন্যান্য পয়েন্টগুলির থেকে বেশ কিছুটা দূরে থাকে এবং কিছু "ধরে নেওয়া" বন্টন ফর্মের সাথে ডেটা পয়েন্টের তুলনা করে একটি "আউটলার" নির্ণয় করা হয়। যদিও আউটলিয়াররা মাঝেমধ্যে পরিমাপের ত্রুটির কারণ হতে পারে, ডেটা উচ্চ কুরটোসিস (যেমন, ফ্যাট টেইল) দিয়ে একটি বিতরণ অনুসরণ করলেও বহিরাগতদের নির্ণয় ঘটতে পারে তবে বিশ্লেষক ডেটা পয়েন্টগুলির সাথে কম কার্টোসিস (যেমন, সাধারণ বিতরণ)।
আউটিলার টেস্টগুলিতে "আউটলিয়ার" পতাকাঙ্কিত করার অর্থ হ'ল অর্থ যে আপনি যে মডেল বিতরণটি ব্যবহার করছেন তা পর্যবেক্ষণ করা ডেটার সঠিকভাবে উপস্থাপনের জন্য পর্যাপ্ত পরিমাণে লেজ নেই। এটি হতে পারে কারণ কিছু ডেটাতে পরিমাপের ত্রুটি রয়েছে বা এটি কেবল ফ্যাট লেজযুক্ত বিতরণ হতে পারে। যদি না ভাবার কোনও কারণ না থাকে যে ধরে নেওয়া মডেল ফর্ম থেকে বিচ্যুতি পরিমাপের ত্রুটির প্রমাণ তৈরি করে (যার জন্য বন্টন অনুমানের জন্য তাত্ত্বিক ভিত্তির প্রয়োজন হবে), বহিরাগতদের উপস্থিতির অর্থ সাধারণত আপনার মোড়কে মোটা দিয়ে একটি বিতরণ ব্যবহার করার জন্য আপনার মডেলটি পরিবর্তন করা উচিত মুদ্রার উলটা পিঠ। অন্তর্নিহিত বিতরণের অংশ যা পরিমাপ ত্রুটি এবং উচ্চ কুর্তোসিসের মধ্যে পার্থক্য করা সহজাতভাবে কঠিন difficult
ইনিলারদের সাথে ডিলিং (যার মধ্যে সত্যিকার অর্থে তাদের সাথে লেনদেন করা জড়িত না ): যদি না আপনার কাছে পরিমাপের ত্রুটি চিহ্নিত করে এমন বাহ্যিক তথ্যের উত্স না থাকে তবে "ইনিলার্স" সনাক্ত করা মূলত অসম্ভব। সংজ্ঞা অনুসারে, এগুলি ডেটা পয়েন্ট যা বিতরণের "অভ্যন্তরীণ" অংশে রয়েছে, যেখানে অন্যান্য অন্যান্য ডেটা দেখা যায়। সুতরাং, পরীক্ষাগুলি দ্বারা এটি সনাক্ত করা যায় না যা অন্যান্য ডেটা পয়েন্ট থেকে "অবনমন" বলে এমন ডেটা সন্ধান করে। (কিছু ক্ষেত্রে আপনি "ইনলিয়ার্স" সনাক্ত করতে পারেন যা কোনও বিতরণের অভ্যন্তরের অন্তর্নিহিত বলে মনে হয় তবে বিতরণের আরও জটিল প্রতিনিধিত্বের বিষয়ে বিবেচনা করা হলে এটি আসলে "আউটলিয়ার" হয় this এক্ষেত্রে বিন্দুটি আসলে বহিরাগত,
কিছু বিরল ক্ষেত্রে আপনার কাছে তথ্যের একটি বাহ্যিক উত্স থাকতে পারে যা আপনার ডেটার একটি উপসেটকে পরিমাপের ত্রুটির সাপেক্ষে চিহ্নিত করে (উদাহরণস্বরূপ, যদি আপনি একটি বড় সমীক্ষা চালিয়ে যাচ্ছেন এবং আপনি জানতে পারেন যে আপনার জরিপকারীদের মধ্যে একটি মাত্র তাদের ডেটা তৈরি করছে )। এই ক্ষেত্রে, বিতরণটির অভ্যন্তরের অভ্যন্তরে থাকা সাবসেটের যে কোনও ডেটা পয়েন্টগুলি "ইনলিয়ার্স" এবং বহিরাগত তথ্যের মাধ্যমে পরিমাপের ত্রুটির সাপেক্ষে পরিচিত। এই ক্ষেত্রে আপনি সাধারণত ভ্রান্ত হিসাবে পরিচিত সমস্ত ডেটা মুছে ফেলবেন, এমনকি যদি এর কিছু "ইনলিয়ার্স" হয় যা বিতরণের অভ্যন্তরে থাকে যেখানে আপনি এটি প্রত্যাশা করবেন। এখানে বক্তব্যটি হ'ল কোনও ডেটা পয়েন্টটি বিতরণের লেজগুলিতে না থাকলেও ভুল হতে পারে।