বিদেশিদের সনাক্ত করার কোনও সহজ উপায় আছে?


14

আমি ভাবছি যে বিদেশীদের সনাক্ত করার কোনও সহজ উপায় আছে কিনা।

আমার একটি প্রকল্পের জন্য, যা মূলত এক সপ্তাহে উত্তরদাতারা শারীরিক ক্রিয়ায় অংশ নেওয়ার সংখ্যার এবং এক সপ্তাহে ঘরের বাইরে (ফাস্টফুড) খাওয়ার সংখ্যার মধ্যে একটি সম্পর্ক ছিল, আমি একটি ছড়িয়ে ছিটিয়ে থাকা এবং আক্ষরিকভাবে অপসারণ করেছি চূড়ান্ত ছিল যে তথ্য পয়েন্ট। (স্ক্যাটারপ্লট একটি নেতিবাচক পারস্পরিক সম্পর্ক দেখিয়েছে।)

এটি মান বিচারের উপর ভিত্তি করে ছিল (স্ক্যাটারপ্লোটের ভিত্তিতে যেখানে এই ডেটা পয়েন্টগুলি স্পষ্টত চরম ছিল)। আমি কোনও পরিসংখ্যান পরীক্ষা করিনি।

আমি কেবল ভাবছি যে এটি কি বিদেশীদের সাথে আচরণ করার একটি দুর্দান্ত উপায়।

আমার কাছে 350 জন লোকের ডেটা রয়েছে তাই 20 টি পয়েন্ট হ্রাস (বলুন) আমার কাছে উদ্বেগ নয়।



3
এছাড়াও খুব ঘনিষ্ঠভাবে সম্পর্কিত stats.stackexchange.com/questions/175 । অনেকগুলি সম্ভাব্য আউটিলার সনাক্তকরণের পদ্ধতিগুলি stats.stackexchange.com/questions/213উত্তরে বর্ণিত হয় । কিন্তু আরো বিন্দু কিছু হবে প্রসঙ্গ আপনি এই scatterplot করছেন? আপনি এটি থেকে কোন সিদ্ধান্ত নেওয়ার চেষ্টা করছেন? কিছু উপসংহার আপনি আউটলিয়ারদের সাথে কি করেন তার উপর সামান্য নির্ভর করবে, অন্যরা তাদের উপর সমালোচনা করে নির্ভর করতে পারে। এটি নির্দেশ করে যে আপনি বহিরাগতদের সনাক্ত এবং চিকিত্সা করার জন্য যে পদ্ধতিগুলি ব্যবহার করেন তা অবশ্যই বিশ্লেষণের উপর নির্ভর করে।
হোবার

অর্থনীতির ডেটাসেটগুলিতে স্ট্যান্ডার্ড অনুশীলনটি কেবল "আমরা 2.5% এবং 97.5% এ ডেটাসেটকে উইন্ডসরাইজ করি" বা বিকল্পভাবে 1% এবং 99% বলে থাকি। তারপরে তারা কেবল পর্যালোচনাগুলি মুছে ফেলবে যা সেই পরিমাণ পরিমাণের বাইরে নেই of

@ হারোকিটি উইনসরাইজিংয়ের অর্থ মূল্যবোধগুলি বাদ দেওয়ার পরিবর্তে ক্লিপিংয়ের অর্থ।
পিটার উড

আমি আপনাকে সুপারিশ করবো যে আপনি ডেটা রেকর্ডিংয়ের কোনও ত্রুটি বাদ দিয়ে স্ক্যাটার-প্লটটি সংক্ষিপ্ত বিবরণে প্রতিবেদন করুন। এটি সম্ভবত এক বা একাধিক অতিরিক্ত স্বতন্ত্র জনসংখ্যা হতে পারে। একটি exampe জন্য, উইকিপিডিয়া এ হের্টস্স্প্রুং-রাসেল চিত্র জন্য এন্ট্রি এছাড়াও দেখুন en.wikipedia.org/wiki/Hertzsprung%E2%80%93Russell_diagram
রবার্ট জোনস

উত্তর:


21

বিদেশীদের অপসারণ করার সহজ কোনও সরল উপায় নেই। আউটলিয়ার দুই ধরণের হতে পারে:

1) ডেটা এন্ট্রি ত্রুটি। এগুলি প্রায়শই স্পট করা সহজ এবং এর সাথে মোকাবিলা করার পক্ষে সর্বদা সহজ। আপনি যদি সঠিক ডেটা পেতে পারেন তবে এটি সংশোধন করুন; যদি না হয়, এটি মুছুন।

2) আইনী ডেটা যা অস্বাভাবিক। এটা অনেক কৌতুকপূর্ণ। আপনার মত দ্বিবিড়ীয় ডেটার জন্য, আউটলেটটি অবিবাহিত বা দ্বিবিভক্ত হতে পারে।

ক) অবিচ্ছিন্ন। প্রথমত, "অস্বাভাবিক" বিতরণ এবং নমুনার আকারের উপর নির্ভর করে। আপনি আমাদের 350 টি নমুনা আকার দিন, কিন্তু বিতরণ কি? এটি পরিষ্কারভাবে স্বাভাবিক নয়, যেহেতু এটি তুলনামূলকভাবে ছোট পূর্ণসংখ্যা। পইসনের অধীনে যা অস্বাভাবিক তা কোনও নেতিবাচক দ্বি-দ্বীনের অধীনে থাকবে না। আমি এক ধরনের শূন্য-স্ফীত নেতিবাচক দ্বিপদী সম্পর্ক সন্দেহ করতাম।

আপনার বিতরণ করার পরেও, (সম্ভাব্য) আউটলিয়াররা প্যারামিটারগুলিকে প্রভাবিত করবে। আপনি "এক ছেড়ে দিন" বিতরণগুলি দেখতে পারেন, যেখানে আপনি পরীক্ষা করতে পারেন যে ডেটা পয়েন্ট q এর আউটলেট হবে কিনা যদি ডেটাতে সমস্ত পয়েন্ট থাকে তবে q। তারপরেও, যদিও একাধিক বিদেশী আছে?

খ) বিভারিয়েট এটি যেখানে ভেরিয়েবলের মান নিজেই অস্বাভাবিক নয়, তবে তারা একসাথে অদ্ভুত। সম্ভবত একটি অ্যাপোক্রিফাল রিপোর্ট রয়েছে যে আমেরিকাতে শুমারী একবার বলেছিল 20,000 বছর বয়সী বিধবা ছিল। 12 বছরের বাচ্চারা অস্বাভাবিক নয়, বিধবাও নয়, তবে 12 বছরের বিধবা।

এই সমস্ত দেওয়া, সম্পর্কের একটি শক্তিশালী পরিমাপ রিপোর্ট করা সহজ হতে পারে।


ধন্যবাদ। আমি ভাবছি সম্ভবত একটি আত্মবিশ্বাসের উপবৃত্তাই বহিরাগতদের একটি ভাল সূচক হতে পারে কারণ এটি একটি নির্দিষ্ট আত্মবিশ্বাসের স্তরের (যে দ্বিবিভক্ত সাধারণ বন্টন প্রদত্ত) এর মধ্যে থাকা ডেটা শতাংশের তথ্য প্রদর্শন করবে out
অমরাল্ড

আপনার ডেটা দ্বিগুণ স্বাভাবিক হতে পারে না, যেহেতু এটি অ-নেতিবাচক পূর্ণসংখ্যার সমন্বয়ে গঠিত
পিটার ফ্লুম - মনিকা পুনরায়

18

আমি আউটলিয়ারদের নিয়ে প্রচুর গবেষণা করেছি, বিশেষত যখন আমি ১৯ak৮ থেকে ১৯৮০ সাল পর্যন্ত ওক রিজে শক্তির ডেটা বৈধকরণের জন্য কাজ করেছি normal মাল্টিভারিয়েট আউটলিয়ার এবং টাইম সিরিজের জন্য পরীক্ষা রয়েছে। "স্ট্যাটিস্টিকাল ডেটাতে আউটলিয়ার্স" সম্পর্কিত বার্নেট এবং লুইসের বইটি বহিরাগতদের বাইবেল এবং প্রায় সবকিছুর উপরে .াকা পড়েছে।

আমি যখন ওক রিজে ছিলাম ডেটা যাচাইকরণের জন্য কাজ করছিলাম তখন আমাদের কাছে বড় মাল্টিভারিয়েট ডেটা সেট ছিল। অবিচ্ছিন্ন outliers জন্য চূড়ান্ত জন্য একটি দিক আছে (উচ্চতর গড় এবং উচ্চতর নীচে)। তবে মাল্টিভারিয়েট আউটলিয়ারদের জন্য বহিরাগতদের সন্ধানের জন্য অনেকগুলি দিকনির্দেশ রয়েছে। আমাদের দর্শনটি ডেটা ব্যবহারের উদ্দেশ্যে কী তা বিবেচনা করা ছিল। আপনি যদি বাইভারিয়েট পারস্পরিক সম্পর্ক বা একটি রিগ্রেশন সহগ হিসাবে নির্দিষ্ট পরামিতিগুলি অনুমান করার চেষ্টা করছেন তবে আপনি সেই দিকটি দেখতে চান যা আগ্রহের পরামিতিগুলিতে সর্বাধিক প্রভাব সরবরাহ করে। সেই সময় আমি প্রভাব ফাংশন সম্পর্কিত ম্যাল্লোসের অপ্রকাশিত কাগজ পড়েছিলাম। বহিরাগতদের সনাক্ত করতে প্রভাব ফাংশনগুলির ব্যবহার জ্ঞানাদেসিকানের মাল্টিভারিয়েট বিশ্লেষণ বইয়ে আচ্ছাদিত। অবশ্যই আপনি এটি বার্নেট এবং লুইসেও খুঁজে পেতে পারেন।

প্যারামিটারের জন্য প্রভাব ফাংশন পর্যবেক্ষণের মাল্টিভারিয়েট স্পেসের পয়েন্টগুলিতে সংজ্ঞায়িত করা হয় এবং প্রয়োজনীয় পরামিতি অনুমানের মধ্যে পার্থক্য পরিমাপ করে যখন ডেটা পয়েন্টটি বাদ দেওয়া হয় তার সাথে তুলনা করা হয়। আপনি প্রতিটি নমুনা বিন্দুর সাথে এ জাতীয় অনুমানগুলি করতে পারেন তবে সাধারণত আপনি প্রভাব কার্যের জন্য একটি দুর্দান্ত কার্যকরী ফর্ম অর্জন করতে পারেন যা অন্তর্দৃষ্টি এবং দ্রুত গণনা দেয়।

উদাহরণস্বরূপ আমেরিকান জার্নাল অফ ম্যাথমেটিকাল অ্যান্ড ম্যানেজমেন্ট সায়েন্সে আমার পেপারে ১৯৮২ সালে "ইনফ্লুয়েন্স ফাংশন এবং ডেটা বৈধকরণের জন্য এটি প্রয়োগ" আমি দ্বিপার্শ্ব সম্পর্কের জন্য প্রভাব ফাংশনের বিশ্লেষণাত্মক সূত্রটি দেখাই এবং ধ্রুবক প্রভাবের সংক্ষিপ্তসারগুলি হাইপারবোলাই হয়। সুতরাং সংক্ষিপ্তসারগুলি বিমানের দিকনির্দেশ দেখায় যেখানে প্রভাব ফাংশনটি দ্রুত বৃদ্ধি করে।

আমার গবেষণাপত্রে আমি দেখিয়েছি যে আমরা কীভাবে জ্বালানি উত্পাদন ও ব্যবহার সম্পর্কিত এফপিসি ফর্ম 4 ডেটার সাথে দ্বিচারিত সম্পর্কের জন্য প্রভাব ফাংশনটি প্রয়োগ করেছি। উভয়ের মধ্যে একটি স্পষ্ট উচ্চ ইতিবাচক পারস্পরিক সম্পর্ক রয়েছে এবং আমরা কয়েকজন আউটলিয়ারকে পেয়েছি যা পারস্পরিক সম্পর্কের অনুমানের উপর অত্যন্ত প্রভাবশালী ছিল। আরও তদন্তে দেখা গেছে যে কমপক্ষে একটি পয়েন্ট ত্রুটিযুক্ত ছিল এবং আমরা এটি সংশোধন করতে সক্ষম হয়েছি।

তবে একটি গুরুত্বপূর্ণ বিষয় যা আমি সর্বদা আউটলিয়ারদের নিয়ে আলোচনা করার সময় উল্লেখ করি তা হ'ল স্বয়ংক্রিয় প্রত্যাখ্যান ভুল। আউটলেট সর্বদা একটি ত্রুটি হয় না এবং কখনও কখনও এটি ডেটা সম্পর্কে গুরুত্বপূর্ণ তথ্য সরবরাহ করে। বৈধ ডেটা কেবল সরিয়ে নেওয়া উচিত নয় কারণ এটি আমাদের বাস্তবতার তত্ত্বের সাথে সামঞ্জস্য করে না। এটি করা কঠিন কিনা বা না, কেন আউটলেটারের কারণটি সর্বদা তদন্ত করা উচিত।

আমার উল্লেখ করা উচিত যে এটি প্রথমবার নয় যখন বহু সাইটে আগতদের এই সাইটে আলোচনা করা হয়েছিল। বহিরাগতদের সন্ধানের ফলে সম্ভবত বেশ কয়েকটি প্রশ্ন দেখা দিতে পারে যেখানে মাল্টিভারিয়েট আউটলেয়ারদের নিয়ে আলোচনা করা হয়েছে। আমি জানি যে আমি আমার কাগজ এবং এই বইগুলি আগে উল্লেখ করেছি এবং তাদের লিঙ্ক দিয়েছি।

এছাড়াও যখন আউটরিয়র প্রত্যাখ্যান নিয়ে আলোচনা করা হয় তখন এই সাইটে আমাদের অনেকের বিরুদ্ধে এটির বিরুদ্ধে সুপারিশ করা হয়েছে বিশেষত যদি এটি কেবল একটি পরিসংখ্যানগত পরীক্ষার ভিত্তিতে করা হয়। পিটার হুবার প্রায়শই বহিরাগত প্রত্যাখ্যানের বিকল্প হিসাবে দৃ esti় অনুমানের উল্লেখ করেন। ধারণাটি হ'ল দৃust় পদ্ধতিগুলি প্রত্যাখ্যানকারীদের এগুলি প্রত্যাখ্যান এবং একটি শক্তিশালী অনুমানকারী ব্যবহার না করে ভারী হাতের পদক্ষেপ ছাড়াই অনুমানের উপর তাদের প্রভাব হ্রাস করবে।

প্রভাব ফাংশনটি প্রকৃতপক্ষে ফ্র্যাঙ্ক হ্যাম্পেল তাঁর পিএইচডি গবেষণামূলক প্রবন্ধে 1970 এর দশকের গোড়ার দিকে তৈরি করেছিলেন (আমার মনে হয় 1974)। তার ধারণাটি ছিল আসলে অনুমানকারীদের সনাক্ত করতে প্রভাব ফাংশনগুলি ব্যবহার করা যা বিদেশীদের বিরুদ্ধে শক্তিশালী ছিল না এবং শক্তিশালী অনুমানকারী বিকাশ করতে সহায়তা করেছিল।

এখানে এই বিষয়ে পূর্বের আলোচনার একটি লিঙ্ক এখানে আমি প্রভাব ফাংশন ব্যবহার করে টাইম সিরিজে বিদেশী সনাক্তকরণ সম্পর্কে আমার কিছু কাজের কথা উল্লেখ করেছি।


2

আউটলিয়ারদের সাথে ডিল করার আরেকটি সহজ পদ্ধতির নাম হ'ল প্যারামিমেট্রিকের পরিসংখ্যান ব্যবহার করা। সম্ভবত আপনার নমুনা আকারের সাথে একটি স্পিয়ারম্যান এর rh পারস্পরিক সম্পর্কের সূচক হিসাবে ভাল কাজ করবে। (দ্রষ্টব্য, যদিও, অ-প্যারাম্যাট্রিক, র‌্যাঙ্ক-অর্ডার পরিসংখ্যানগুলি আপনাকে অ-লিনিয়ার সম্পর্কের ক্ষেত্রে খুব বেশি সহায়তা করে না))

আপনি যদি পিয়ারসনের আর (প্যারাম্যাট্রিক স্ট্যাটিস্টিক) ব্যবহার করতে চান এবং আপনি যদি কুকের দূরত্ব গণনা করতে সক্ষম না হন তবে আপনি থাম্বের একটি মানক নিয়ম ব্যবহার করতে পারেন যা কোনও ডাটা পয়েন্ট যা গড় থেকে 2.67 স্ট্যান্ডার্ড বিচ্যুতি (এসডি) এর চেয়ে বেশি , বা গড় থেকে 4.67 এসডি যথাক্রমে একটি বাহ্যিক বা চরম। এগুলি আউটলিয়ার এবং চূড়ান্ত ডেটা পয়েন্টগুলির জন্য আদর্শ কাটফুল মান যা একটি মানক পরিসংখ্যান বিশ্লেষণ প্রোগ্রামে (এসপিএসএস) ব্যবহৃত হয়।

একটি ডেটা পয়েন্ট কেবলমাত্র আউটলেটর হওয়ার অর্থ এই নয় যে এটি খারাপ ডেটা ফেলে দেওয়া উচিত। আপনি চূড়ান্ত পয়েন্টগুলির সাথে এবং ছাড়াই আপনার সম্পর্কটি গণনা করতে এবং সেখান থেকে যেতে পারেন।


1

আপনি কুকের দূরত্ব চেষ্টা করতে চাইতে পারেন। প্রস্তাবিত কাটঅফগুলির জন্য উইকিপিডিয়া নিবন্ধটি দেখুন। এছাড়াও, আপনি যদি কিছু রিগ্রেশন মডেলের দিকে যাচ্ছেন তবে আপনি শক্তিশালী রিগ্রেশন চেষ্টা করতে পারেন।


1
এটি উত্তরের চেয়ে কমেন্টের মতো মনে হচ্ছে; উত্তরগুলি সাধারণত দীর্ঘতর এবং আরও বিস্তারিত। উদাহরণস্বরূপ, যদি আপনি যুক্তি যুক্ত করে থাকেন যে কুকের দূরত্ব কেন বিদেশীদের পক্ষে ভাল পরীক্ষা এবং এটির মধ্যে একটি, তবে এটি একটি উত্তর হবে।
পিটার ফ্লুম - মনিকা পুনরায়

1

প্রথমত, অ্যাটিক্যাল মানগুলি মুছে ফেলবেন না যতক্ষণ না আপনি নিশ্চিত হন যে অধ্যয়নের বাইরে রয়েছে! এগুলিতে কিছু গুরুত্বপূর্ণ তথ্য (পরিবর্তনশীলতা) থাকতে পারে। আপনার এগুলি ফেলে দেওয়া উচিত যদি স্পষ্ট হয় যে বাহ্যিকটি ভুলভাবে প্রবেশ করা বা পরিমাপ করা ডেটার কারণে রয়েছে। আপনি যদি আপনার ডেটা প্রাপ্ত করার জন্য ব্যবহৃত নমুনা পদ্ধতিটি জানেন না, তবে আপনাকে atypical মানগুলি এবং তার প্রভাবগুলি নিম্নলিখিত হিসাবে সনাক্ত করতে হবে:

  1. অস্বাভাবিকতার ডিগ্রি: এটি স্ট্যান্ডার্ডাইজড অবশিষ্টাংশগুলির সাথে পর্যবেক্ষণের 5% আশা করা হয় (আমি*)> ২. যদি আপনার আরও কিছু উচ্চ অবশিষ্ট থাকে তবে আপনি বিদেশীদের সন্দেহ করতে পারেন।

  2. এক্স এর স্পেসে কেন্দ্রের মাধ্যাকর্ষণ দূরত্বের ডিগ্রি: আমিআমি(লিভারেজ)। যখন কিছুআমিআমি আপনার স্টাডির বাইরে না থাকায় আপনার এমন পর্যবেক্ষণ রয়েছে যা আপনার মডেলটিকে বিকৃত করতে পারে।

  3. লাগানো মডেলের উপর প্রভাবের ডিগ্রি: প্রভাবশালী পয়েন্টগুলি হ'ল আপনার মডেলটি পরিবর্তনের জন্য পর্যাপ্ত ওজন রয়েছে। তারপরে, সমস্ত এন পর্যবেক্ষণ ব্যবহার করে লাগানো মডেলের কফিসিয়েন্টসগুলি সমস্ত পয়েন্ট ব্যবহার করে লাগানো মডেলের সহগের তুলনায় খুব আলাদা তবে এই পর্যবেক্ষণটি নয়আমি-th।
    কুকের দূরত্ব বা কুকের ডি একটি তথ্য পয়েন্টের প্রভাবের একটি সাধারণভাবে ব্যবহৃত অনুমান। :ডিসিআমি=আমি*2·আমিআমি/[(1-আমিআমি)·পি]

সম্ভাব্য সমাধান:

  • পরিবর্তনশীল রূপান্তরকরণ এবং / অথবা মডেলটিতে নতুন ভেরিয়েবল যুক্ত করা।
  • প্রভাবশালী পর্যবেক্ষণগুলির জন্য যা বিদেশী ছাড়া আর কিছুই নয়, যদি না অনেক বেশি হয় তবে আপনি সেই ব্যক্তিকে সরাতে পারেন।
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.