ডেটা থেকে আউটলিয়ারগুলি অপসারণ করা কি ঠিক আছে?


33

আমি একটি ডেটাসেট থেকে আউটলিয়ারগুলি সরানোর জন্য একটি উপায় অনুসন্ধান করেছি এবং আমি এই প্রশ্নটি পেয়েছি ।

তবে এই প্রশ্নের কয়েকটি মন্তব্য এবং উত্তরে লোকেরা উল্লেখ করেছে যে তথ্য থেকে বহিরাগতদের অপসারণ করা খারাপ অভ্যাস।

আমার ডেটাসেটে আমার বেশ কয়েকটি আউটলিয়ার রয়েছে যা খুব সম্ভবত পরিমাপের ত্রুটির কারণে। এমনকি তাদের কিছু না থাকলেও আমার কাছে কেস কেস এটি চেক করার কোনও উপায় নেই কারণ অনেকগুলি ডেটা পয়েন্ট রয়েছে। এটি কি কেবল বিদেশী অপসারণের চেয়ে পরিসংখ্যানগতভাবে বৈধ? বা, যদি না হয় তবে এর আর কী সমাধান হতে পারে?

আমি যদি এই পয়েন্টগুলি কেবল সেখানে রেখে যাই তবে এগুলি উদাহরণকে এমনভাবে প্রভাবিত করে যা বাস্তবতার প্রতিফলন করে না (কারণ তাদের বেশিরভাগ ক্ষেত্রে ত্রুটি রয়েছে)।

সম্পাদনা: আমি ত্বকের পরিবাহী ডেটা নিয়ে কাজ করছি। বেশিরভাগ চূড়ান্ত মানগুলি কারও কাছে তারে টানার মতো শৈল্পিক কারণে।

এডিআইটি 2: ডেটা বিশ্লেষণে আমার প্রধান আগ্রহটি হ'ল দুটি গ্রুপের মধ্যে কোনও পার্থক্য আছে কিনা তা নির্ধারণ করা


3
এবং আপনি কি করতে চান? ডেটা সারসংক্ষেপ? ভবিষ্যদ্বাণীমূলক বিশ্লেষণ? ডেটা ভিজ্যুয়ালাইজেশন? প্রমাণ করে যে দুটি গ্রুপের মধ্যে (না) উল্লেখযোগ্য পার্থক্য রয়েছে? সমস্ত ডেটা সাফ করার মতো কোনও সাধারণ উত্তর নেই।
পাইওটর মিগডাল


5
আমি একজন প্রকৌশলী যিনি প্রচুর পরিসংখ্যান নিয়ে কাজ করেন। এটি একটি অস্বীকৃতি এবং একটি স্বীকারোক্তি ছিল মানে আমার পণ্য সরবরাহ করতে হবে। আমাদের কেবলমাত্র "খারাপ" পয়েন্টগুলি পুরোপুরি মুছে ফেলার অনুমতি দেওয়া হয়। আপনি কি প্রমাণ করতে পারেন যে এটি কোনও তারের দিকে টানছিল? যদি আপনি বেশ কয়েকটি উদ্দেশ্যমূলক ব্যবস্থা পান তবে আপনি সেখানে আবদ্ধ এবং ক্লাস্টার করতে পারেন। তারপরে আপনি ক্লাস্টারে ডেটা বিভক্ত করতে পারেন (টানা বনাম নন-পুল) এবং এটি আর বিদেশীদের সম্পর্কে নয় isn't মূল কারণটি আপনি যদি প্রমাণ করতে না পারেন তবে আপনাকে অবশ্যই এটি অবশ্যই ধরে রাখতে হবে। এটি বিভিন্নতার সাথে কথা বলে এবং এটি বিশ্লেষণের একটি বড় অংশ। পছন্দ না হলে আপনি এ থেকে মুক্তি পেতে পারবেন না।
এনগ্রিস্টুডেন্ট - মনিকা

4
আমি মনে করি আপনি ভুল শেষ দ্বারা শুরু। প্রথম প্রশ্নটি আপনি প্রথম স্থানে থাকা বিদেশীদের কীভাবে সনাক্ত করবেন?
ব্যবহারকারী 60

5
নির্বিচারে চিহ্নিত আউটলিয়ারদের নির্বিচারে অপসারণের পরিবর্তে আপনার মতো কিছু বিবেচনা করা ভাল হতে পারে যেহেতু "যেহেতু আমারে তারে টানছে এমন সমস্যাগুলি থেকে আমার দূষণ রয়েছে, আমি কোন পদ্ধতি ব্যবহার করতে পারি যা এই জাতীয় দূষণ দ্বারা খারাপ প্রভাবিত হয় না?"
গ্লেন_বি -রিনস্টেট মনিকা

উত্তর:


26

আমি মূল বিশ্লেষণে কোনও আউটলেটরকে বাদ দেওয়ার প্রস্তাব দিই না (যদি না আপনি সত্যই ইতিবাচক হন তবে সেগুলি ভুল হয়ে থাকে)। আপনি এটি সংবেদনশীলতা বিশ্লেষণে করতে পারেন, যদিও এবং দুটি বিশ্লেষণের ফলাফলের সাথে তুলনা করতে পারেন। বিজ্ঞানের ক্ষেত্রে, প্রায়শই আপনি এই জাতীয় বহিরাগতদের দিকে মনোনিবেশ করার সময় আপনি ঠিক নতুন জিনিস আবিষ্কার করেন।

আরও বিশদভাবে জানাতে, কেবল একটি ছাঁচের সাথে তার পরীক্ষাগুলির দুর্ঘটনাক্রমে দূষণের ভিত্তিতে পেনিসিলিনের সিমিনাল ফ্লেমিংয়ের আবিষ্কার সম্পর্কে কেবল চিন্তা করুন:

http://www.abpischools.org.uk/page/modules/infectiousdiseases_timeline/timeline6.cfm?coSiteNavigation_allTopic=1

নিকট অতীতের বা বর্তমানের দিকে তাকানো, আউটলেট সনাক্তকরণটি প্রায়শই বায়োমেডিক্যাল বিজ্ঞানের উদ্ভাবনের জন্য ব্যবহৃত হয়। উদাহরণস্বরূপ নীচের নিবন্ধগুলি দেখুন (কিছু উপযুক্ত আর কোড সহ):

http://www.la-press.com/a-comparison-of-methods-for-data-driven-cancer-outlier-discovery-and-a-article-a2599-abstract?article_id=2599

http://www.ncbi.nlm.nih.gov/pmc/articles/PMC3394880/

http://journals.plos.org/plosone/article?id=10.1371/journal.pone.0102678

শেষ অবধি, যদি আপনার কাছে কিছু ডেটা বাদ দেওয়ার যুক্তিসঙ্গত ভিত্তি থাকে, তবে আপনি এটি প্রাথমিকভাবে নয়, সংবেদনশীলতা বিশ্লেষণে করতে পারেন। উদাহরণস্বরূপ আপনি সমস্ত মান বাদ দিতে পারেন যা জৈবিকভাবে প্রশ্রয়যোগ্য নয় (যেমন সেপটিক রোগীর 48 ডিগ্রি সেলসিয়াস তাপমাত্রা)। একইভাবে, আপনি চলাচলের নিদর্শনগুলি হ্রাস করতে, কোনও প্রদত্ত রোগীর জন্য সমস্ত প্রথম এবং শেষ পরিমাপ বাদ দিতে পারেন। তবে খেয়াল করুন যে আপনি যদি এই পোস্ট-হক (কোনও পূর্বনির্ধারিত মানদণ্ডের উপর ভিত্তি করে না) করেন তবে ডেটা ম্যাসেজের ক্ষেত্রে এটি ঝুঁকিপূর্ণ।


5
সম্মত হন, তবে আমি উত্তরটি কোনওভাবে সংক্ষেপে এটির উত্তর খুঁজে পেতে পারি। হতে পারে আপনি একটি কাজের উদাহরণ সরবরাহ করতে পারেন বা দেখিয়ে দিতে পারেন কেন এবং কীভাবে কীভাবে নতুন জিনিসগুলি আবিষ্কার করা যেতে পারে? এটি প্রথম দর্শনে এটি সুস্পষ্ট নাও হতে পারে।
টিম

26

একটি বিকল্প হ'ল আউটলিয়ারদের বাদ দেওয়া, তবে আইএমএইচও এটিই এমন কিছু যা আপনি কেবল তখনই করতে পারেন যখন আপনি প্রায় তর্ক করতে পারেন (প্রায় নিশ্চিতভাবে) কেন এই জাতীয় পয়েন্টগুলি অবৈধ (যেমন পরিমাপের সরঞ্জামগুলি ভেঙে গেছে, পরিমাপের পদ্ধতিটি কোনও কারণে অবিশ্বাস্য ছিল, ...)। যেমন ফ্রিকোয়েন্সি ডোমেন পরিমাপের ক্ষেত্রে, ডিসি প্রায়শই ফেলে দেওয়া হয় যেহেতু অনেকগুলি বিভিন্ন পদ DC কে অবদান রাখে, প্রায়শই আপনি যে ঘটনাটি পর্যবেক্ষণ করার চেষ্টা করছেন তার সাথে সম্পর্কিত নয়।

আউটলিয়ারগুলি অপসারণের ক্ষেত্রে সমস্যাটি হ'ল কোন পয়েন্টগুলি আউটলিয়ারগুলি তা নির্ধারণ করার জন্য আপনার কাছে "ভাল ডেটা" কী বা না তা একটি ভাল মডেল থাকা দরকার। আপনি যদি মডেল সম্পর্কে অনিশ্চিত হন (কোনটি উপাদানগুলি অন্তর্ভুক্ত করা উচিত, মডেলটির কাঠামোটি কী, কোলাহলটির অনুমানগুলি কী ...,) তবে আপনি আপনার প্রবাসী সম্পর্কে নিশ্চিত হতে পারবেন না। এই আউটলিয়াররা কেবলমাত্র নমুনাগুলি হতে পারে যা আপনাকে জানাতে চেষ্টা করছে যে আপনার মডেলটি ভুল। অন্য কথায়: আউটলিয়ারগুলি অপসারণ আপনাকে নতুন অন্তর্দৃষ্টি পাওয়ার অনুমতি না দিয়ে আপনার (ভুল!) মডেলটিকে আরও শক্তিশালী করবে!

অন্য বিকল্প, শক্তিশালী পরিসংখ্যান ব্যবহার করা হয়। উদাহরণস্বরূপ গড় ও মানক বিচ্যুতি আউটলিয়ারদের কাছে সংবেদনশীল, "অবস্থান" এবং "স্প্রেড" এর অন্যান্য মেট্রিক আরও দৃ rob়। যেমন গড়ের পরিবর্তে মিডিয়ান ব্যবহার করুন। স্ট্যান্ডার্ড বিচ্যুতির পরিবর্তে আন্ত-কোয়ার্টাইল রেঞ্জ ব্যবহার করুন। স্ট্যান্ডার্ড সর্বনিম্ন-স্কোয়ার রিগ্রেশন পরিবর্তে আপনি শক্তিশালী রিগ্রেশন ব্যবহার করতে পারেন। এই সমস্ত শক্তিশালী পদ্ধতি আউটলিয়ারদের এক বা অন্য উপায়ে জোর দেয়, তবে তারা সাধারণত আউটিলার ডেটা পুরোপুরি সরিয়ে দেয় না (অর্থাত ভাল জিনিস)।


5
দুর্দান্ত উত্তর। বেশিরভাগ লোকেরা বুঝতে পারেন না যে প্রতিটি কৌশল প্রতিটি ধরণের ডেটার জন্য উপযুক্ত নয় । আউটলিয়ারদের দ্বারা চালিত ডেটাগুলির গড়ের দিকে মনোনিবেশ করা দুর্ভাগ্যজনক ফলাফলগুলির মধ্যে একটি। এগুলির মতো উত্তরগুলি থেকে তারা যত বেশি জাগ্রত কলগুলি পাবে, সবার জন্য তত ভাল।
রমটসচো

16

ভেবেছিলাম আমি আউটলিয়ারদের অপসারণ সম্পর্কে একটি সতর্কতা কাহিনী যোগ করব:

পোলার ওজোন স্তরের গর্তের সাথে সমস্যাটি মনে আছে? ওজোন ঘনত্বকে পরিমাপ করার জন্য মেরুটির উপরে কক্ষপথে একটি উপগ্রহ স্থাপন করা হয়েছিল। কয়েক বছর ধরে উপগ্রহের পোস্ট-প্রসেসড ডেটা জানায় যে পোলার ওজোনটি সাধারণ স্তরে উপস্থিত ছিল, যদিও অন্যান্য উত্সগুলি পরিষ্কারভাবে দেখিয়েছিল যে ওজোনটি অনুপস্থিত ছিল। অবশেষে কেউ আবার স্যাটেলাইট সফ্টওয়্যারটি পরীক্ষা করে ফিরে গেল। দেখা গেল যে কেউ সাধারণত historicalতিহাসিক স্তর সম্পর্কে কোনও কাঁচা পরিমাপ প্রত্যাশিত পরিসরের মধ্যে ছিল কিনা তা পরীক্ষা করতে কোডটি লিখেছিল এবং ধরে নিতে পারে যে এই পরিসরের বাইরের কোনও পরিমাপ কেবল একটি সরঞ্জাম 'স্পাইক' (যেমন একটি বাহক), অটো- মান সংশোধন করা । ভাগ্যক্রমে তারা কাঁচা পরিমাপ রেকর্ডও করেছিল; তাদের পরীক্ষা করে তারা দেখতে পেল যে সমস্ত গর্তটি ছড়িয়ে পড়েছে reported


12
ঘটনার একটি উল্লেখ উল্লেখ করা ভাল : তারা কেন আগে ঘটনাটি আবিষ্কার করেনি? দুর্ভাগ্যক্রমে, টমস ডেটা বিশ্লেষণ সফ্টওয়্যারটি প্রত্যাশিত পরিমাপ থেকে ব্যাপকভাবে বিচ্যুত হয়েছে এমন ডেটা পয়েন্টগুলিকে পতাকাঙ্কিত এবং আলাদা করে রাখার জন্য প্রোগ্রাম করা হয়েছিল এবং তাই প্রাথমিক ব্যবস্থাগুলি যা অ্যালার্ম বন্ধ করে দেওয়া উচিত ছিল তা কেবল উপেক্ষা করা হয়েছিল। সংক্ষেপে, টমস টিম বহু বছর আগে ওজোন হ্রাস শনাক্ত করতে ব্যর্থ হয়েছিল কারণ এটি বিজ্ঞানীদের প্রত্যাশার চেয়ে অনেক বেশি গুরুতর ছিল।
জনি

3
এটি একটি মহান গল্প। এবং এটির পুনরাবৃত্তি আমার কাছে, তবে আমার কাছে math.uni-augsburg.de/stochastik/pukelsheim/1990c.pdf দৃ .়তার সাথে এটিকে একটি ভুল বোঝাবুঝির ভিত্তিতে রূপকথার পরিচয় দেয়। ঘটনাক্রমে লক্ষ করুন যে দুটি খুঁটি রয়েছে বলে "পোলার ওজোন স্তর" এর জন্য পুনরায় লেখার প্রয়োজন।
নিক কক্স

3
অনুমোদনযোগ্য অ্যাকাউন্ট খ্রিস্টিও দেখুন। এম। 2001. ওজোন স্তর একটি বিজ্ঞানের দৃষ্টিভঙ্গির দর্শন। ক্যামব্রিজ: কেমব্রিজ ইউপি
নিক কক্স

7

বিশ্লেষণ থেকে অপসারণের জন্য 'আউটিলার' হ'ল একসাথে ডেটা সংগ্রহ করার জন্য একটি সুবিধাজনক শব্দ যা আপনার প্রক্রিয়াটি যেমন দেখতে প্রত্যাশিত তা ফিট করে না।

আমি কখনই (পরে সাবধান) বিদেশী অপসারণের পরামর্শ দেব না । আমার ব্যাকগ্রাউন্ডটি পরিসংখ্যান প্রক্রিয়া নিয়ন্ত্রণ, তাই প্রায়শই স্বয়ংক্রিয়ভাবে উত্পন্ন সময়-সিরিজের ডেটাগুলির বড় পরিমাণের সাথে লেনদেন হয় যা ডেটা এবং বিতরণের উপর নির্ভর করে রান চার্ট / মুভিং বক্স প্লট / ইত্যাদি ব্যবহার করে প্রক্রিয়া করা হয়।

বিদেশিদের কাছে জিনিসটি হ'ল তারা সর্বদা আপনার 'প্রক্রিয়া' সম্পর্কিত তথ্য সরবরাহ করবেন। প্রায়শই আপনি একটি প্রক্রিয়া হিসাবে যা ভাবছেন তা আসলে অনেকগুলি প্রক্রিয়া এবং এটির জন্য আপনি এটি ক্রেডিট দেওয়ার চেয়ে অনেক জটিল।

আপনার প্রশ্নের উদাহরণ ব্যবহার করে, আমি পরামর্শ দেব যে সেখানে 'প্রক্রিয়া' সংখ্যক হতে পারে। বিভিন্ন কারণে হতে পারে ...

  • একটি কন্ডাক্টেন্স ডিভাইস দ্বারা নেওয়া নমুনা
  • পরিবাহী ডিভাইসের মধ্যে নেওয়া নমুনা
  • যখন বিষয়টি একটি অনুসন্ধান সরিয়ে ফেলবে
  • যখন বিষয়টি সরানো হয়েছিল
  • কোনও বিষয়ের ত্বকের মধ্যে তাদের দেহ জুড়ে বা বিভিন্ন নমুনা দিবসের (চুল, আর্দ্রতা, তেল ইত্যাদি) মধ্যে পার্থক্য
  • বিষয়গুলির মধ্যে পার্থক্য
  • কর্মীদের মধ্যে পরিমাপ এবং তারতম্য গ্রহণকারী ব্যক্তির প্রশিক্ষণ

এই সমস্ত প্রক্রিয়া ডেটাতে অতিরিক্ত প্রকারের উত্পাদন ঘটায় এবং সম্ভবত বোধগম্যকে সরায় এবং বিতরণের আকার পরিবর্তন করে। এর মধ্যে অনেকগুলি আপনি আলাদা প্রক্রিয়াতে আলাদা করতে পারবেন না be

সুতরাং ডেটা পয়েন্টগুলি 'আউটলিয়ার' হিসাবে মুছে ফেলার ধারণাটিতে যাচ্ছি ... আমি কেবল তখনই ডেটা পয়েন্টগুলি সরিয়ে ফেলব, যখন আমি অবশ্যই তাদের নির্দিষ্ট কোনও প্রক্রিয়াতে নির্দিষ্ট করতে পারি যা আমি আমার বিশ্লেষণে অন্তর্ভুক্ত করতে চাই না। তারপরে আপনাকে নিশ্চিত করতে হবে যে অন্তর্ভুক্তির কারণগুলি আপনার বিশ্লেষণের অংশ হিসাবে রেকর্ড করা আছে, সুতরাং এটি সুস্পষ্ট। আপনার ডেটা সংগ্রহের সময় পর্যবেক্ষণের মাধ্যমে অতিরিক্ত নোট নেওয়ার মূল বিষয় হ'ল এট্রিবিউটটি ধরে নিবেন না।

আমি আপনার বক্তব্যকে চ্যালেঞ্জ জানাব 'কারণ তাদের বেশিরভাগই ত্রুটি', কারণ এটি ত্রুটি নয়, তবে আপনার পরিমাপের মধ্যে পৃথক হিসাবে চিহ্নিত হওয়া আলাদা প্রক্রিয়ার অংশ মাত্র of

আপনার উদাহরণে, আমি ডেটা পয়েন্টগুলি বাদ দেওয়া যুক্তিসঙ্গত বলে মনে করি যা আপনি বিশ্লেষণ করতে চান না এমন একটি পৃথক প্রক্রিয়াতে দায়ী করতে পারেন।


6

আপনি যদি বিদেশিদের অপসারণ করেন তবে বেশিরভাগ পরিস্থিতিতে আপনার ডকুমেন্ট করতে হবে যে আপনি এটি করছেন এবং কেন করছেন। এটি যদি কোনও বৈজ্ঞানিক কাগজ বা নিয়ামক উদ্দেশ্যে হয় তবে এর ফলে আপনার চূড়ান্ত পরিসংখ্যান ছাড় এবং / বা প্রত্যাখ্যান হতে পারে।

আরও ভাল সমাধান হ'ল আপনি যখন মনে করেন যে আপনি খারাপ ডেটা পেয়েছেন (যেমন লোকে যখন তারগুলি টানেন) তখন চিহ্নিত করুন এবং লোকে যখন তারগুলি টানছে তখন সনাক্ত করুন এবং সেই কারণে ডেটাটি টানুন। এটি সম্ভবত কিছু 'ভাল' ডেটা পয়েন্ট বাদ পড়ার ফলস্বরূপ ঘটবে, তবে বিশ্লেষণের শেষের পরিবর্তে আপনার কাছে সেই তথ্য পয়েন্টগুলিকে ট্যাগ করার এবং ছাড় দেওয়ার এক 'সত্য' কারণ রয়েছে। যতক্ষণ আপনি এটি পরিষ্কার এবং স্বচ্ছভাবে করেন, তৃতীয় পক্ষের কাছে এটি গ্রহণযোগ্য হওয়ার সম্ভাবনা অনেক বেশি। যদি আপনি টানা তারের সাথে সম্পর্কিত ডেটা পয়েন্টগুলি সরিয়ে ফেলেন এবং আপনি এখনও আউটলিয়ার পেয়ে থাকেন তবে সম্ভাব্য উপসংহারটি টানা তারগুলি (কেবলমাত্র) সমস্যা নয় - পরবর্তী সমস্যাটি আপনার পরীক্ষামূলক নকশা বা আপনার তত্ত্বের সাথে হতে পারে।

আমার বিএসসি শেষ করতে বিশ্ববিদ্যালয়ে ফিরে যখন আমার মা প্রথম পরীক্ষণ করেছিলেন তার মধ্যে একটি ছিল যেখানে একটি প্রক্রিয়া কীভাবে কাজ করে সে সম্পর্কে শিক্ষার্থীদের একটি 'খারাপ' তত্ত্ব দেওয়া হয়েছিল এবং তারপরে একটি পরীক্ষা চালানোর জন্য বলা হয়েছিল। ফলস্বরূপ 'খারাপ' ডেটা পয়েন্টগুলি মোছা বা সংশোধনকারী শিক্ষার্থীরা এই নিয়োগটি ব্যর্থ করে। যারা সঠিকভাবে রিপোর্ট করেছেন যে তাদের ডেটা (খারাপ) তত্ত্ব দ্বারা পূর্বাভাসিত ফলাফলগুলির সাথে দ্বিমত পোষণ করেছে, পাস করেছে। অ্যাসাইনমেন্টের বিষয়টি হ'ল শিক্ষার্থীদের তাদের ডেটা 'ফিক্স' না করা (মিথ্যা কথা বলা) শেখানো ছিল যখন এটি প্রত্যাশিত ছিল না।

সংক্ষিপ্তসার: আপনি যদি খারাপ ডেটা তৈরি করে থাকেন তবে ডেটা নয়, নিজের পরীক্ষা ঠিক করুন।


5

এটি অবশ্যই একটি নৈতিক দ্বিধা। একদিকে, আপনি কেন কয়েকটি সন্দেহজনক ডেটা পয়েন্টগুলি আপনার মডেলের ফিটনেসটি ডেটাগুলির বেশিরভাগ অংশে নষ্ট করতে দেবেন? অন্যদিকে, আপনার মডেলটির বাস্তবতার ধারণার সাথে একমত নয় এমন পর্যবেক্ষণগুলি মুছে ফেলা একটি ধরণের সেন্সরশিপ। এগন এর বক্তব্য, এই আউটলিয়াররা আপনাকে সেই বাস্তবতা সম্পর্কে কিছু বলার চেষ্টা করতে পারে।

পরিসংখ্যানবিদ স্টিভ ম্যাকএচারনের উপস্থাপনায় তিনি আউটলিয়ারদের "[অধ্যয়নের অধীনে ঘটনার প্রতিনিধিত্বকারী নয়]" হিসাবে সংজ্ঞায়িত করেছেন, "এই দৃষ্টিভঙ্গির অধীনে, যদি আপনি মনে করেন যে এই সন্দেহজনক ডেটা পয়েন্টগুলি আপনি যে চামড়া পরিচালনার ঘটনাটি অধ্যয়নের চেষ্টা করছেন তার প্রতিনিধি না , সম্ভবত তারা বিশ্লেষণের অন্তর্ভুক্ত না। অথবা যদি তাদের থাকতে দেওয়া হয় তবে এমন একটি পদ্ধতি ব্যবহার করা উচিত যা তাদের প্রভাবকে সীমাবদ্ধ করে। সেই একই উপস্থাপনায় ম্যাকএচারন শক্তিশালী পদ্ধতির উদাহরণ দিয়েছিলেন এবং আমি মনে করি যে এই কয়েকটি উদাহরণে, অপসারণকারীদের সাথে ধ্রুপদী পদ্ধতিগুলি সর্বদা অন্তর্ভুক্ত থাকা বিদেশীদের সাথে শক্তিশালী বিশ্লেষণের সাথে একমত হয়। ব্যক্তিগতভাবে, আমি ধ্রুপদী কৌশলগুলির সাথে কাজ করার ঝোঁক রাখি যার সাথে আমি সবচেয়ে আরামদায়ক এবং বহির্মুখী মোছার নৈতিক অনিশ্চয়তার সাথে বাঁচি।


8
বাক্সে, হান্টার এবং হান্টারে: "পরীক্ষকদের জন্য পরিসংখ্যান" তারা বলে যে রাসায়নিক শিল্পে, বহিরাগতরা প্রায়শই নতুন পেটেন্ট নিয়ে আসে । আপনি কি আপনার নতুন পেটেন্টটি ফেলে দিতে চান?
কেজিটিল বি হলওয়ার্সন

2
না, আমি কোনও পেটেন্ট মিস করতে চাই না। তবে আমি আমার মডেলটিকে "কেউ তারে টানছে accom" রাখার চেষ্টা করে বারোটি চক্র স্পিন করতে চাই না। এটি প্রায় অবশ্যই অধ্যয়নের অধীনে ঘটনা নয়। আমি সুযোগ হিসাবে বহিরাগতদের ধারণাটি পছন্দ করি এবং সোজা মুছে ফেলার জন্য একটি কথা বলে রাখা হ'ল কমপক্ষে কোডটি সেই মুছে ফেলার নথিপত্র সরবরাহ করবে, তবে শক্ত পদ্ধতিতে বিদেশী কেবল অন্য ধরণের পয়েন্টের সাথে সহাবস্থান করে।
বেন ওগোরেক

2
আপনি ঠিক বলেছেন যে নির্দিষ্ট পরিস্থিতিতে অবশ্যই বিবেচনা করা উচিত। আউটিলার প্রত্যাখ্যানের জন্য যা করা উচিত নয় তা হ'ল কিছু প্রসঙ্গমুক্ত "বিধি" প্রয়োগ করা। এ জাতীয় কোনও ভাল নিয়ম নেই।
কেজেটিল বি হালওয়ারসেন

1
প্রসঙ্গের শক্তি সম্পর্কে আমার প্রিয় বক্তব্যটি এই প্রশ্নের দ্বারা চিত্রিত হয়, "স্নিকাররা কি স্বাস্থ্যবান?" ঠিক আছে, যদি আপনি তিন দিনের জন্য অরণ্যে হারিয়ে গিয়েছিলেন এবং আপনি কিছুটা মাটিতে পেয়েছেন তবে দেখা যাচ্ছে যে তারা সর্বোপরি স্বাস্থ্যকর। এখানকার জনপ্রিয় উত্তরগুলি আমাদের বলছে বলে মনে হচ্ছে, "স্নিকার্স বার কখনই খাবেন না, যদি না আপনি নিশ্চিত হন যে আপনি না মরেন তবেই আপনি মারা যাবেন।"
বেন ওগোরেক

0

যদি আমি ১০০ জনের একটি এলোমেলো নমুনা পরিচালনা করি এবং সেই লোকগুলির মধ্যে একটি বিল গেটস হিসাবে ঘটে থাকে তবে আমি যতদূর বলতে পারি বিল গেটস জনসংখ্যার ১ / ১০ ম প্রতিনিধি।

ছাঁটাই করা গড় আমাকে গড় লটারির উপার্জন $ 0 বলে দেয়।


অস্বাভাবিক কিছুই নয়, ছাঁটাইযুক্ত গড়টি স্কিউ বিতরণের জন্য উপযুক্ত নয়।
ইয়ভেস দাউস্ট

-2

অবশ্যই আপনার বহিরাগতদের অপসারণ করা উচিত, যেমন সংজ্ঞা অনুসারে তারা তদন্তের অধীনে বিতরণটি অনুসরণ করে না এবং এটি একটি পরজীবী ঘটনা।

আসল প্রশ্নটি হল "আমি কীভাবে নির্ভরযোগ্যভাবে বিদেশীদের সনাক্ত করতে পারি"!


What if such a distribution is Cauchy?
AdamO

@AdamO: the real question remains, of course.
Yves Daoust

Why this downvote ?
Yves Daoust

3
(-1) because I don't think this is an adequate contribution informed by theory, example, or practice. What is a "parasitic phenomenon" but a poetic understanding of data? In dealing with blood pressures, urinary sodiums, and neurologic imaging, I see "outliers" on a day-to-day basis which are representative of the population under consideration. Removing them can be a significant source of bias. To say they are a "parasitic phenomenon" is suggestively and deceptively enabling a risky statistical practice.
AdamO

@adam: you are just advocating to keep the inliers, which I fully agree with.
Yves Daoust
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.