একাধিক রিগ্রেশন করার সময় স্ট্যাটিস্টিকাল সফ্টওয়্যার দ্বারা আউটলিয়ার হিসাবে চিহ্নিত হওয়া কেসগুলি মুছবেন কিনা?


23

আমি একাধিক রিগ্রেশন বিশ্লেষণ সম্পাদন করছি এবং আমার ডেটা থেকে বহিরাগতদের মুছে ফেলা উচিত কিনা তা সম্পর্কে আমি নিশ্চিত নই। আমি যে ডেটা সম্পর্কে উদ্বিগ্ন সেগুলি এসপিএসএস বক্সপ্লটগুলিতে "চেনাশোনা" হিসাবে প্রদর্শিত হবে, তবে কোনও নক্ষত্রমুখে নেই (যা আমাকে মনে করে যে তারা 'খারাপ নয়')। আমি যে কেসগুলির জন্য উদ্বিগ্ন তাগুলি আউটপুটে "কেসওয়ারওয়াই ডায়াগনস্টিক্স" টেবিলের অধীনে উপস্থিত হয় - সুতরাং এই মামলাগুলি মুছে ফেলা উচিত?


আপনাকে অনেক ধন্যবাদ চার্লি এবং এপিগ্রাড। আপনি কি দয়া করে সুপারিশ করতে পারেন এসপিএসএসের কোন গ্রাফটি যাচাই করার জন্য আমি তাকিয়ে আছি সেখানে অবশিষ্টাংশে বিদেশী আছে কিনা? স্ক্যাটারপ্লট দেখতে বেশ অগোছালো! আমার যেমন ডেটা নিয়ে কোনও সমস্যা নেই (যেমন সেগুলিতে ভুলভাবে প্রবেশ করা হয়নি) আমি কেবল মনে করি যে আমার কিছু অংশীদারদের আমার কিছু স্কেলের উপর উচ্চতর স্কোর ছিল, কারণ তারা সামাজিকভাবে অনেক বেশি উদ্বেগ ছিল যে বাকি নমুনা।
আনন

3
এক্স অক্ষ এবং y অক্ষের অবশিষ্টাংশগুলিতে আপনার y এর পূর্বাভাসিত মান (যেটি আপনি অনুমান করেন সেই মডেল অনুসারে দেওয়া হয়) প্লট করা উচিত। Y এর পূর্বাভাসিত মানের পরিবর্তে, আপনি আপনার অক্ষর / স্বতন্ত্র ভেরিয়েবলগুলিকে এক্স অক্ষের উপরে রাখতে পারেন। এক্স এক্সে আলাদা আলাদা প্রেডেক্টর সহ আপনি বেশ কয়েকটি প্লট তৈরি করতে পারেন, এটি দেখার জন্য কোন এক্স মানটি বহিরাগত আচরণের দিকে পরিচালিত করছে। আবার, আমি বহিরাগত অপসারণের বিরুদ্ধে সাবধানতা অবলম্বন করব; পরিবর্তে, কেন আউটলেটর ঘটছে তা বিশ্লেষণ করুন।
চার্লি

1
চার্লির বক্তব্য প্রতিধ্বনিত করা, এটি "কেন" তা "যদি" এর চেয়ে গুরুত্বপূর্ণ তবে আমিও তাদের অপসারণের বিরুদ্ধে সাবধানতা অবলম্বন করব। আমি এসপিএসের সাথে পরিচিত নই, তবে আপনি যে বৈশিষ্ট্যগুলি রিগ্রেশন চালাতে ব্যবহার করেছিলেন তা হ'ল আপনাকে অবশিষ্টাংশের একটি প্লট বা কমপক্ষে সেগুলির মূল্য দিতে হবে যা আপনি চার্লি পরামর্শ দেওয়ার জন্য ব্যবহার করতে পারেন।
ফোমাইট

@ অনন আমি আপনার দুটি অ্যাকাউন্ট একীভূত করেছি। দয়া করে নিবন্ধন করুন যাতে আপনি আপনার প্রশ্ন আপডেট এবং / অথবা মন্তব্য করতে পারেন।
chl

3
@ ইউজার 603 না, আপনি আমাকে সঠিকভাবে পড়বেন না। "আউটিলার" এর অর্থ কিছু নয় - বিশেষত যখন পরিসংখ্যান সংক্রান্ত সফ্টওয়্যারটিতে কোনও স্বয়ংক্রিয় পদ্ধতি দ্বারা পতাকাঙ্কিত করা হয়। "আউটলিয়ার্স" এর মধ্যে থাকা একটি গবেষণার গুরুত্বপূর্ণ ফলাফলগুলির ঠিক যেমন অনেকগুলি উদাহরণ রয়েছে। আপনি যখন মুছে ফেলছেন এমন ডেটা রয়েছে তখনই এটি কোনও কারণে হওয়া উচিত। "তারা অসুবিধাগুলি" কোনও কারণ নয়।
ফোমাইট

উত্তর:


25

বহিরাগতদের পতাকাঙ্কিত করা রায় রায় নয় (বা কোনও ক্ষেত্রে এক হওয়ার দরকার নেই)। একটি পরিসংখ্যানগত মডেল দেওয়া, outliers একটি সুনির্দিষ্ট, উদ্দেশ্য সংজ্ঞা আছে: তারা পর্যবেক্ষণ যে সংখ্যাগরিষ্ঠ তথ্য প্যাটার্ন অনুসরণ করে না । এ জাতীয় পর্যবেক্ষণগুলি কোনও বিশ্লেষণের সূচনায় আলাদা করা দরকার কারণ কেবলমাত্র তথ্যের সর্বাধিক থেকে তাদের দূরত্ব নিশ্চিত করে যে তারা সর্বাধিক সম্ভাবনার (বা অন্য কোনও উত্তল ক্ষতি ফাংশন) দ্বারা সজ্জিত যে কোনও মাল্টিভেরিয়েবল মডেলের উপর তুলনামূলকভাবে টানতে পারে।

এটা তোলে নির্দেশ গুরুত্বপূর্ণ যে মাল্টিভেরিয়েবল Outlier গুলি কেবল নির্ভরযোগ্যভাবে অন্তত বর্গ ফিট (অথবা অন্য কোন মডেল এমএল দ্বারা আনুমানিক, বা অন্য কোন উত্তল ক্ষতি ফাংশন) থেকে অবশিষ্টাংশ ব্যবহার সনাক্ত করা যাবে না। সহজ কথায় বলতে গেলে, মাল্টিভেরিয়েবল আউটলিয়াররা কেবলমাত্র তাদের অবশিষ্টাংশগুলি একটি মডেল থেকে নির্ভরযোগ্যভাবে সনাক্ত করতে পারে যা তাদের দ্বারা চালিত হওয়ার মতো সংবেদনশীল নয় এমন একটি প্রাক্কলন পদ্ধতি ব্যবহার করে লাগানো হয় model

প্রত্যাশাবাদীরা কোনও ধ্রুপদী ফিটের অবশিষ্টাংশে প্রয়োজনীয় প্রমাণ পাবে এমন বিশ্বাস কোথাও না কোথাও প্রমাণের পরিমাপ হিসাবে পি-ভ্যালু ব্যাখ্যা করা বা পক্ষপাতদুষ্ট নমুনা থেকে জনসংখ্যার প্রতি অনুকরণ আঁকার মতো পরিসংখ্যান নং-এর ন্যূনতম। সম্ভবত এটির চেয়ে অনেক বেশি বয়স্ক: গাউস নিজেই গোলমাল পর্যবেক্ষণ থেকে একটি সাধারণ বিতরণের প্যারামিটারগুলি অনুমান করার জন্য মিডিয়েন এবং পাগলের মতো (ক্লাসিকাল গড় এবং স্ট্যান্ডার্ড বিচ্যুতির পরিবর্তে) মতো শক্তিশালী অনুমানকারী ব্যবহারের সুপারিশ করেছিলেন going এখন পর্যন্ত পাগলের (1) ভাগের ধারাবাহিকতা ফ্যাক্টর অর্জন করা।

বাস্তব ডেটার উপর ভিত্তি করে একটি সাধারণ ভিজ্যুয়াল উদাহরণ দেওয়ার জন্য, কুখ্যাত সিওয়াইজি স্টার ডেটা বিবেচনা করুন । এখানে লাল রেখাটি সর্বনিম্ন বর্গক্ষেত্রের ফিটকে চিত্রিত করে, নীল রেখাটি একটি শক্তিশালী রৈখিক রিগ্রেশন ফিট ব্যবহার করে প্রাপ্ত ফিট। এখানে শক্তিশালী ফিট হ'ল ফাস্টএলটিএস (২) ফিট, এলএস ফিটের একটি বিকল্প যা বহিরাগতদের সনাক্ত করতে ব্যবহার করা যেতে পারে (কারণ এটি একটি অনুমান পদ্ধতি ব্যবহার করে যা নিশ্চিত করে যে অনুমানের সহগের উপর কোনও পর্যবেক্ষণের প্রভাব সীমাবদ্ধ) is এটি পুনরুত্পাদন করার জন্য আর কোডটি হ'ল:

library(robustbase)
data(starsCYG)
plot(starsCYG)
lm.stars <- lm(log.light ~ log.Te, data = starsCYG)
abline(lm.stars$coef,col="red",lwd=2)
lts.stars <- ltsReg(log.light ~ log.Te, data = starsCYG)
abline(lts.stars$coef,col="blue",lwd=2)

স্টারসওয়াইজি ডেটা

মজার বিষয় হল, বাম দিকের 4 টি বাহ্যিক পর্যবেক্ষণগুলিতেও এলএস ফিট এবং এলএস ফিটের অবশিষ্টাংশগুলির কিউকিউ প্লট (বা তাদের থেকে প্রাপ্ত ডায়াগনস্টিক সরঞ্জামগুলির যেমন কুকের দূরত্ব বা dfbeta) সমস্যাযুক্ত হিসাবে এগুলির কোনওটি দেখাতে ব্যর্থ। এটি প্রকৃতপক্ষে আদর্শ: এলএস অনুমানকে এমনভাবে টানতে দু'র বেশি বিদেশী (নমুনা আকার নির্বিশেষে) প্রয়োজন হয় না যাতে বহিরাগতরা একটি অবশিষ্ট প্লটটিতে দাঁড়াতে না পারে। একে মাস্কিং এফেক্ট বলেএবং এটি ভাল নথিভুক্ত করা হয়। সম্ভবত সিওয়াইস্টার্স ডেটাসেট সম্পর্কে উল্লেখযোগ্য একমাত্র বিষয় হ'ল এটি দ্বিবিভক্ত (তাই আমরা দৃust় ফিটের ফলাফলটি নিশ্চিত করতে ভিজ্যুয়াল ইন্সপেকশন ব্যবহার করতে পারি) এবং বাম দিকে এই চারটি পর্যবেক্ষণ কেন এত অস্বাভাবিক, সে সম্পর্কে আসলেই একটি ভাল ব্যাখ্যা রয়েছে।

এটি বিটিডব্লিউ, নিয়মের চেয়ে ব্যতিক্রম: ছোট নমুনা এবং কয়েকটি ভেরিয়েবলের সাথে জড়িত ছোট পাইলট অধ্যয়ন ব্যতীত এবং যেখানে পরিসংখ্যান বিশ্লেষণকারী ব্যক্তিও ডেটা সংগ্রহের প্রক্রিয়ায় জড়িত ছিল, আমি সে ক্ষেত্রে এর আগে কখনও বিশ্বাস করি নি যেখানে পূর্বের বিশ্বাস বহিরাগতদের পরিচয়টি সত্য ছিল। এটি যাচাই করা সহজ উপায়। বিদেশী সনাক্তকারী অ্যালগরিদম বা গবেষকের অন্ত্রে অনুভূতি ব্যবহার করে আউটলিয়ারদের চিহ্নিত করা হয়েছে কিনা তা বিবেচনা না করেই, বহিরাগতরা এমন সংজ্ঞা পর্যবেক্ষণ করে যেগুলি এলএস ফিট থেকে প্রাপ্ত সহগের উপর একটি অস্বাভাবিক লিভারেজ (বা 'টান') রয়েছে। অন্য কথায়, আউটলিয়াররা এমন পর্যবেক্ষণ যাঁদের নমুনা থেকে অপসারণ করা এলএস ফিটকে মারাত্মকভাবে প্রভাবিত করে।

যদিও আমি কখনও ব্যক্তিগতভাবে এটির অভিজ্ঞতা লাভ করি নি, সাহিত্যে এমন কিছু ভাল ডকুমেন্টেড কেস রয়েছে যেখানে পর্যবেক্ষকরা আউটলিয়ার হিসাবে আউটিলার হিসাবে চিহ্নিত হিসাবে চিহ্নিত করেছিলেন অ্যালগরিদমের পরে যেগুলি ত্রুটিযুক্ত ছিল বা অন্য কোনও প্রক্রিয়া দ্বারা উত্পন্ন হয়েছিল। যাই হোক না কেন, বৈজ্ঞানিকভাবে warranted বা বুদ্ধিমান না শুধুমাত্র যদি বিদেশিদের কোনওভাবে বোঝা বা ব্যাখ্যা করা যায় তবে তাদের অপসারণ করা। যদি পর্যবেক্ষণের একটি ছোট্ট ক্যাবাল এতক্ষণে ডেটার প্রধান অংশ থেকে সরিয়ে ফেলা হয় যে এটি এককভাবে একটি পরিসংখ্যান পদ্ধতির ফলাফলগুলি নিজেই টানতে পারে তবে এটিই বুদ্ধিমান (এবং আমি প্রাকৃতিক যোগ করতে পারি) নির্বিশেষে এটিকে চিকিত্সা করা বা না করা এই ডেটা পয়েন্টগুলি অন্যান্য কারণে সন্দেহজনক বলে মনে হয় না।

(1): স্টিফেন এম স্টিলার, পরিসংখ্যানের ইতিহাস: 1900 সালের আগে অনিশ্চয়তার পরিমাপ দেখুন।

(২): বড় ডেটা সেটগুলির জন্য কম্পিউটিং এলটিএস রেজিস্ট্রেশন (২০০ 2006) পি জে রুসিয়েউ, কে ভ্যান ড্রাইসেন।

(3): উচ্চ-ব্রেকডাউন শক্তিশালী মাল্টিভারিয়েট পদ্ধতিগুলি (২০০৮)। হুবার্ট এম।, রুশিউ পিজে এবং ভ্যান অ্যালস্ট এস উত্স: পরিসংখ্যানবিদ। সী। খণ্ড 23, 92-119।


6
এটি ভাল স্টাফ (+1)। তবে আমি মনে করি আপনি প্রচলিত পরিভাষাগুলির অপব্যবহার করেছেন এবং "প্রভাবশালী পর্যবেক্ষণ" উল্লেখ করার জন্য "আউটলেটর" -কে বেছে নিয়েছেন। ধারণাগুলি উভয়ই মূল্যবান এবং আপনি এখানে পরবর্তীকালের সাথে ভাল ব্যবহার করেন তবে এগুলি আপনার মতামত অনুসারে বদলযোগ্য নয়। উদাহরণস্বরূপ, একজন প্রভাবশালী পর্যবেক্ষণ যে হয় ডেটা সংখ্যাগরিষ্ঠ সঙ্গে সামঞ্জস্যপূর্ণ আপনার চরিত্রায়ন "পর্যবেক্ষণ অস্বাভাবিক লিভারেজ আছে (বা 'পুল') একটি LS থেকে প্রাপ্ত কোফিসিয়েন্টস মাপসই উপর" মাপসই করা হবে কিন্তু অধিকাংশ লেখকদের দ্বারা বিবেচিত হবে না প্রতি
whuber

2
@ শুভ: ভাল কথা। প্রকৃতপক্ষে আমি দৃ statistics় পরিসংখ্যানগুলির উপর সাম্প্রতিক পাঠ্যপুস্তকগুলি যেমন বিবেচনা করি (উদাহরণস্বরূপ, জোরালো পরিসংখ্যান: তত্ত্ব এবং পদ্ধতিগুলি W উইলে) এই জাতীয় পর্যবেক্ষণগুলি (তথাকথিত 'ভাল উত্তোলন পয়েন্টগুলি বলা হয়) ক্ষতিকারক হিসাবে বিবেচনা করে। যৌক্তিকতা হ'ল তারা অনুমিত সহগগুলির স্ট্যান্ডার্ড ত্রুটি অপসারণের ফলে ব্যবহারকারী পর্যবেক্ষিত সম্পর্কের শক্তিতে অযাচিত আস্থা রাখে। Outliers হিসাবে ভাল লিভারেজ পয়েন্ট বিবেচনা এছাড়াও আনুষ্ঠানিক পদ্ধতির আরো সামঞ্জস্যপূর্ণ করে তোলে: সব ভাল লিভারেজ বিন্দু পরে SE যাতে কোনো outsized প্রভাব আছে কি হয় ls / এমএল হইয়া একটি অংশ।
ব্যবহারকারী 60

3
+1 খুব সুন্দর উদাহরণ। বাস্তব তথ্য যা দুটি ফিটকে দেখায় যা প্রায় অরথগোনাল, এবং যার উপরের-বামে চূড়ান্ত-প্রভাবশালী চারটির মধ্যে কোনও ওএলএস ফিটের পরে সবচেয়ে বড় অবশিষ্টাংশ থাকবে না।
ওয়েইন

19

সাধারণভাবে, আমি "আউটলিয়ার্স" সরানোর বিষয়ে সতর্ক am রিগ্রেশন বিশ্লেষণটি যথাযথভাবে বিতরণ করা হয়নি এমন ত্রুটি, হেটেরোস্কেস্টাস্টিটি প্রদর্শনকারী ত্রুটি বা ভবিষ্যদ্বাণী / স্বতন্ত্র ভেরিয়েবলগুলির মান যা বাকী থেকে "দূরে" উপস্থিত রয়েছে সেখানে সঠিকভাবে প্রয়োগ করা যেতে পারে। আউটলিয়ারদের ক্ষেত্রে আসল সমস্যাটি হ'ল তারা লিনিয়ার মডেলটি অনুসরণ করেন না যা প্রতিটা ডেটা পয়েন্ট অনুসরণ করে। আপনি কীভাবে জানেন যে এই ঘটনাটি আছে কিনা? আপনি না।

যদি কিছু হয় তবে আপনি আপনার ভেরিয়েবলগুলির মান খুঁজে পেতে চান না যা বিদেশী; পরিবর্তে, আপনি আপনার অবশিষ্টাংশের মূল্য খুঁজে পেতে চান যা বিদেশী values এই তথ্য পয়েন্ট দেখুন। তাদের ভেরিয়েবলগুলি সঠিকভাবে রেকর্ড করা আছে? এমন কি কোনও কারণ আছে যে তারা আপনার বাকী ডেটা হিসাবে একই মডেলটি অনুসরণ করবে না?

অবশ্যই, এই পর্যবেক্ষণগুলি আউটলিয়ার হিসাবে উপস্থিত হওয়ার কারণ (অবশিষ্টাংশ ডায়াগনস্টিক অনুসারে) হতে পারে কারণ আপনার মডেলটি ভুল। আমার এমন এক প্রফেসর আছেন যা বলতে পছন্দ করেছেন যে, আমরা যদি বিদেশিদের ফেলে দিয়ে থাকি তবে আমরা এখনও বিশ্বাস করব যে গ্রহগুলি নিখুঁত বৃত্তগুলিতে সূর্যের চারদিকে ঘোরে। কেপলার মঙ্গল গ্রহকে ফেলে দিতে পারত এবং বৃত্তাকার কক্ষপথের গল্পটি দেখতে বেশ ভাল লাগত। মঙ্গলগ্রহের মূল অন্তর্দৃষ্টিটি সরবরাহ করেছিল যে এই মডেলটি ভুল ছিল এবং তিনি যদি এই গ্রহটিকে উপেক্ষা করেন তবে তিনি এই ফলটি মিস করবেন।

আপনি উল্লেখ করেছেন যে আউটলিয়ারগুলি সরানো আপনার ফলাফলগুলিকে খুব বেশি পরিবর্তন করে না। হয় এর কারণ হ'ল আপনি কেবলমাত্র খুব কম সংখ্যক পর্যবেক্ষণ পেয়েছেন যা আপনি আপনার নমুনার তুলনায় সরিয়ে নিয়েছেন বা এগুলি আপনার মডেলের সাথে যুক্তিসঙ্গতভাবে সামঞ্জস্যপূর্ণ। এটি প্রস্তাবিত হতে পারে, যদিও ভেরিয়েবলগুলি নিজেরাই বাকী থেকে আলাদা হতে পারে, তবে তাদের অবশিষ্টাংশগুলি অসামান্য নয়। আমি এগুলিকে ছেড়ে চলে যাব এবং আমার সমালোচকদের কিছু পয়েন্ট সরিয়ে নেওয়ার সিদ্ধান্তটি ন্যায্য করার চেষ্টা করব না।


6
+1 ডেটা ফেলে দেবেন না কারণ এটি একটি আউটলেট। খুঁজে পাবেন কেন কিছু ডেটা ও পার্শ্ববর্তী হয়।
ফোমাইট

2
এটা ভয়ানক পরামর্শ। আউটলিয়ারদের বাকী ডেটা থেকে এত দূরে থাকা খুব সাধারণ কারণ তাদের দিকে রিগ্রেশন লাইনটি এমনভাবে টানতে হবে যাতে তারা কোন অবশিষ্টাংশের চক্রান্তের উপর দাঁড়াতে না পারে (বা সবচেয়ে খারাপ: সত্যিকারের জন্য বৃহত্তর অবশিষ্টাংশ উত্পাদন করে ডেটা পয়েন্ট)। প্রকৃতপক্ষে, এটি দেখানো যেতে পারে যে আপনার একক আউটলারের চেয়ে বেশি পরিমাণে উপস্থিত হওয়ার সাথে সাথে এটি শাস্ত্রীয় প্রতিরোধের থেকে একটি অবশিষ্ট প্লট ব্যবহার করে নির্ভরযোগ্যভাবে সনাক্ত করা যায় না। এটিকে মাস্কিং এফেক্ট বলা হয় এবং আমি অনেকগুলি বাস্তব ডেটা উদাহরণে উল্লেখযোগ্যভাবে ডকুমেন্ট করি।
ব্যবহারকারী 60

যাইহোক, এটি কারণেই আমি মঙ্গল উদাহরণটি ব্যবহার করা এড়াতে চাই: এটি এমন একটি প্রক্রিয়া চিত্রিত করে যা কেবলমাত্র যদি আপনি একক বহির্মুখীর সাথে আচরণ করে তবে কাজ করে। বেশিরভাগ প্রয়োগে এরকম কোনও গ্যারান্টি নেই। এটি একটি সাধারণ ত্রুটিযুক্ত পদ্ধতিতে আত্মবিশ্বাসের একটি ভুল ধারণা দেয় (যা পরিসংখ্যানবিদ হিসাবে সত্যই আমাদের প্রতিরোধে প্রসন্ন হওয়া উচিত)।
ব্যবহারকারী 603

15

+1 @Charlie এবং @PeterFlom এ; আপনি সেখানে ভাল তথ্য পাচ্ছেন। প্রশ্নের উত্তরকে চ্যালেঞ্জ করে আমি এখানে একটি ছোট অবদান রাখতে পারি। একটি বক্সপ্লট সাধারণত (সফ্টওয়্যার পরিবর্তিত হতে পারে, এবং এসপিএসএস কী করছে তা আমি নিশ্চিতভাবে জানি না) লেবেলটি 'ইন্টারলিয়ার' হিসাবে তৃতীয় (প্রথম) কোয়ার্টাইলের উপরে (নীচে) আন্তঃ-কোয়ার্টাইল রেঞ্জের 1.5 গুনের বেশি পয়েন্ট করে। যাইহোক, আমরা জিজ্ঞাসা করতে পারি যে সমস্ত পয়েন্ট একই বন্টন থেকে আসে এমন একটি সত্যের জন্য জানতে পারলে কমপক্ষে এমন একটি পয়েন্ট পাওয়া আমাদের কীভাবে প্রত্যাশা করা উচিত ? একটি সাধারণ সিমুলেশন আমাদের এই প্রশ্নের উত্তর দিতে সহায়তা করতে পারে:

set.seed(999)                                     # this makes the sim reproducable

outVector = vector(length=10000)                  # to store the results
N = 100                                           # amount of data per sample

for(i in 1:10000){                                # repeating 10k times
  X = rnorm(N)                                    # draw normal sample
  bp = boxplot(X, plot=FALSE)                     # make boxplot
  outVector[i] = ifelse(length(bp$out)!=0, 1, 0)  # if there are 'outliers', 1, else 0
}

mean(outVector)                                   # the % of cases w/ >0 'outliers'
[1] 0.5209

এটি যা দেখায় তা হ'ল কিছু ভুল না থাকা সত্ত্বেও 100 মাপের নমুনাগুলি সহ এই জাতীয় পয়েন্টগুলি সাধারণত (> সময়ের 50%) ঘটতে পারে বলে আশা করা যায়। শেষ বাক্যটির ইঙ্গিত হিসাবে, বক্সপ্লট কৌশলটির মাধ্যমে কোনও মিথ্যা 'আউটলেটর' সন্ধানের সম্ভাবনা নমুনার আকারের উপর নির্ভর করবে:

   N    probability
  10    [1] 0.2030
  50    [1] 0.3639
 100    [1] 0.5209
 500    [1] 0.9526
1000    [1] 0.9974

আউটলিয়ারদের স্বয়ংক্রিয়ভাবে চিহ্নিত করার জন্য অন্যান্য কৌশল রয়েছে, তবে এ জাতীয় কোনও পদ্ধতি কখনও কখনও 'আউটলিয়ার' হিসাবে বৈধ পয়েন্টগুলিকে ভুল পরিচয় দেয় এবং কখনও কখনও সত্যিকারের বহিরাগতকে 'বৈধ পয়েন্ট' হিসাবে চিহ্নিত করে। (আপনি এগুলি প্রথম টাইপ এবং দ্বিতীয় ত্রুটি টাইপ হিসাবে ভাবতে পারেন )) এই ইস্যুতে আমার চিন্তাভাবনা (এটির জন্য মূল্য কী) প্রশ্নের মধ্যে থাকা পয়েন্টগুলি অন্তর্ভুক্ত / বাদ দিয়ে এর প্রভাবগুলিতে মনোনিবেশ করা । যদি আপনার লক্ষ্যটি পূর্বাভাস হয় তবে আপনি প্রশ্নগুলির পয়েন্টগুলি সহ কতটা মূল বাণীটির পূর্বাভাসের স্কোয়ার ত্রুটি বাড়াবেন কিনা তা নির্ধারণ করতে ক্রস বৈধতা ব্যবহার করতে পারেন । আপনার লক্ষ্যটি যদি ব্যাখ্যা হয় তবে আপনি এটি দেখতে পারেন ডিএফবিটা(অর্থাত, প্রশ্নে থাকা পয়েন্টগুলি অন্তর্ভুক্ত রয়েছে কিনা তার উপর নির্ভর করে আপনার মডেলটির বিটা অনুমান কত পরিবর্তন হয়) দেখুন। আরেকটি দৃষ্টিকোণ (তর্কযোগ্যভাবে সর্বোত্তম) হ'ল নৈর্ব্যক্তিক পয়েন্টগুলি ফেলে দেওয়া উচিত কিনা তা চয়ন না করা এবং তার পরিবর্তে কেবল শক্ত বিশ্লেষণ ব্যবহার করা।


আপনার প্রস্তাবিত পদ্ধতিগুলি কেবলমাত্র নির্ভরযোগ্যতার সাথে কাজ করে যদি সর্বাধিক একক আউটলেটর থাকে (আপনার ডেটাসেটের আকার নির্বিশেষে) যা অবাস্তব ধারণা। যদি গাউসীয় বিতরণ থেকে ডেটা আঁকানো হয় তবে প্রতিটি প্রান্তে প্রায় 1% পর্যবেক্ষণ বাদ দেওয়ার জন্য টুকি হুইসারের নিয়মটি ক্যালিব্রেট করে। আপনার অনুকরণগুলি এটি নিশ্চিত করে। টুকির অভিমত ছিল যে যেসব ক্ষেত্রে পর্যবেক্ষণগুলি ভালভাবে আচরণ করা হয় সেখানে ডেটাগুলির এত ছোট অংশকে উপেক্ষা করার ফলে যে ক্ষয় হয় তা হ'ল সমস্ত ব্যবহারিক উদ্বেগকেই অসঙ্গতিযুক্ত। বিশেষত ক্ষেত্রে যখন উপাত্ত না থাকে তখন সুবিধার ক্ষেত্রে।
ব্যবহারকারী 60

2
আপনার মন্তব্যের জন্য ধন্যবাদ, @ ব্যবহারকারী 603; এটি একটি চিন্তা-চেতনামূলক অবস্থান। আমি প্রস্তাবিত কোন পদ্ধতিগুলির প্রতি আপনি আপত্তি করছেন: উদাহরণস্বরূপ, সম্ভাব্য আউটলিয়ারগুলি সনাক্ত করতে ডিএফবিটা ব্যবহার করা, বা শক্তিশালী বিশ্লেষণগুলি (মূলত টুকির বিস্কোরকে বিকল্প ক্ষতি হিসাবে) এর প্রভাবগুলির বিরুদ্ধে সুরক্ষা হিসাবে কোন ডেটা পয়েন্টগুলি না ফেলে নির্বাচন করার পরিবর্তে ব্যবহার করা উচিত?
গুং - মনিকা পুনরায়

আমার মন্তব্যে স্পষ্টতার অভাবটি নির্দেশ করার জন্য ধন্যবাদ (আমি দৈর্ঘ্যের সীমাবদ্ধতায় আবদ্ধ ছিলাম)। অবশ্যই, আমি বিশেষত প্রথমটির অর্থটি বুঝি : ডিএফবিটা এবং ক্রস বৈধকরণ (যদি পরবর্তীটি কেবল ক্রস-বৈধকরণের জন্য ব্যবহৃত পর্যবেক্ষণগুলি এলোমেলোভাবে মূল নমুনা থেকে আঁকা হয় তবে ক্রস-বৈধতা ব্যবহার করা যেতে পারে এমন ক্ষেত্রে উদাহরণস্বরূপ তথাকথিত মান নিয়ন্ত্রণের সেটিং এ থাকুন যেখানে পরীক্ষার জন্য ব্যবহৃত পর্যবেক্ষণগুলি অস্থায়ীভাবে পৃথক করা নমুনা থেকে আঁকা হয়)।
ব্যবহারকারী 60

@ ব্যবহারকারী 603 স্পষ্ট করার জন্য ধন্যবাদ। এগুলি আরও ভাল করে বুঝতে আমাকে ডাব্লু / এই ধারণাগুলি খেলতে হবে। আমার অন্তর্নিহিততা হ'ল আপনার ফলাফলকে বিকৃত করছে এমন বিদেশিদের লক্ষ্য না করা বেশ কঠিন হবে ; দেখে মনে হচ্ছে আপনার উভয় পক্ষের সমানভাবে ফলাফলকে বিকৃত করে তোলার দরকার বহিরাগতদের দরকার, এক্ষেত্রে আপনার বিটাগুলি প্রায় পক্ষপাতহীন হয়ে দাঁড়াবে এবং আপনার ফলাফলগুলি কেবল 'তাত্পর্যপূর্ণ' হবে would
গুং - মনিকা পুনরায়

1
আমার অন্তর্নিহিততা হ'ল আপনার ফলাফলগুলি বিকৃত করছে এমন বিদেশিদের লক্ষ্য না করা বেশ কঠিন হবে তবে দুর্ভাগ্যক্রমে, সত্যটি এটি এমনটি নয়। আমার উত্তরটিতে আমি যে উদাহরণ দিয়েছি তাও দেখুন।
ব্যবহারকারী 60

12

আপনার প্রথমে অবশিষ্টাংশের প্লটগুলি লক্ষ্য করা উচিত: তারা কি কোনও সাধারণ বিতরণ অনুসরণ করে (মোটামুটিভাবে)? তারা কি বৈজাতীয় লক্ষণ দেখায়? অন্যান্য প্লটগুলিও দেখুন (আমি এসপিএসএস ব্যবহার করি না, সুতরাং সেই প্রোগ্রামে এটি কীভাবে করা যায় ঠিক তা বলতে পারি না বা আপনি কী বক্সপ্লটগুলি দেখছেন; তবে, এটি ধারণা করা শক্ত নয় যে তারা সম্ভবত তারা বোঝাতে চেয়েছেন "খারাপ নয়") এগুলি কিছু মাপদণ্ডের দ্বারা অত্যন্ত অস্বাভাবিক পয়েন্ট)।

তারপরে, আপনার যদি বিদেশী থাকে, তাদের দেখুন এবং কেন তা বোঝার চেষ্টা করুন।

তারপরে আপনি প্রবাসীদের সাথে এবং ছাড়াও রিগ্রেশনটি চেষ্টা করতে পারেন। ফলাফলগুলি যদি একই রকম হয় তবে জীবন ভাল। একটি পাদটীকা দিয়ে সম্পূর্ণ ফলাফল রিপোর্ট করুন। যদি অনুরূপ না হয় তবে আপনার উভয় প্রতিক্রিয়া ব্যাখ্যা করা উচিত।


1
আপনাকে অনেক ধন্যবাদ পিটার। আমি কিউকিউ প্লটগুলি পরিদর্শন করেছি এবং ডেটা স্পষ্টত অস্বাভাবিক বলে মনে হয় না। আমি যখন বহিরাগতদের মুছি, তখন তারা ফলাফলগুলিতে খুব বেশি পার্থক্য দেখায় না। সুতরাং, অতএব, আমি কি কেবল তাদের ভিতরে রেখেছি? আমি এসপিএসএসের কেসওয়াইয়াস ডায়াগনস্টিক্স টেবিলে অন্যের চিন্তা শুনতে আগ্রহী। অনেক ধন্যবাদ.
আনন

1
হ্যাঁ, আমি তখন তাদের পাদটীকা কিছু রেখে দেব "মুছে ফেলা বেশ কয়েকটি আউটলিয়ারের সাথে বিশ্লেষণের সাথে খুব একই রকম ফলাফল দেখা গেছে"
পিটার ফ্লুম - মনিকা পুনরায়

2
এমনকি ধরে নেওয়াও যে কেউ এই জাতীয় পদ্ধতি ব্যবহার করে (এবং বেশিরভাগ সময়, কেউ পারেন না ) ব্যবহার করে নির্ভরযোগ্য খুঁজে পেতে পারে যা এখনও "চিত্র বের করতে" না পারলে / নাগরিকদের ব্যাখ্যা করতে না পারলে কী করা উচিত তার সমস্যাটি অবাক করে দেয় leaves আমি এসপিএসএস থেকে পরিষ্কার থাকার পরামর্শটি দ্বিতীয়। -
ব্যবহারকারী 603
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.