মাল্টিভিয়ারেট ডেটাতে আউটলিয়ারদের সনাক্ত করার সর্বোত্তম উপায় কী?


94

ধরুন আমার কাছে কমপক্ষে তিনটি ভেরিয়েবলের সাথে মাল্টিভারিয়েট ডেটার একটি বিশাল সেট রয়েছে। আমি কীভাবে বিদেশীদের খুঁজে পাব? পেয়ারওয়াই স্ক্যাটারপ্লটগুলি কাজ করবে না কারণ কোনও আউটলারের পক্ষে 3 টি মাত্রার উপস্থিতি সম্ভব যেগুলি 2 মাত্রিক উপ-স্পেসগুলির কোনওরূপে বহিরাগত নয়।

আমি কোনও রিগ্রেশন সমস্যার কথা ভাবছি না, তবে সত্যিকারের বহুবিধ ডেটার কথা ভাবছি। সুতরাং শক্তিশালী রিগ্রেশন বা কম্পিউটিং লিভারেজ সম্পর্কিত জবাবগুলি সহায়ক নয়।

একটি সম্ভাবনা হ'ল মূল উপাদান স্কোরগুলি গণনা করা এবং প্রথম দুটি স্কোরের বিভাজন স্ক্রেটারপ্লোটে কোনও আউটলারের সন্ধান করা। এটি কি কাজের নিশ্চয়তা পাবে? আরও ভাল পদ্ধতির আছে?


3
যদি স্ক্যাটারপ্ল্লট ম্যাট্রিক্স এটি ধরতে না পারে তবে আপনি একটি 3D স্ক্র্যাটারপ্লট চেষ্টা করতে পারেন। এটি অবশ্যই 4 ডি তে কার্যকর হবে না তবে আপনি সময় হিসাবে একটি চতুর্থ মাত্রা তৈরি করতে এবং সিনেমা করতে পারবেন। :)
শেন

(শ্রেণিবিন্যাস) গুচ্ছ বিশ্লেষণ সম্পর্কে কী?
আন্দ্রেজ

11
বর্ণের রঙে 5 তম ডি, রঙের তীব্রতায় 6 ডি, বিন্দু আকারে 7 ম ডি এবং আমরা যেতে পারি ;-)

উত্তর:


26

কটাক্ষপাত আছে mvoutlier প্যাকেজ যা আদেশ শক্তসমর্থ মহলানবিশ দূরত্বের উপর নির্ভর করে, যেমন @drknexus দ্বারা প্রস্তাবিত।


4
আমি ব্যক্তিগতভাবে এই প্যাকেজটিতে বিশ্বাস করি না! আমি মনে করি এটি কেবল বিজ্ঞানের আওয়াজ। এই ধরণের থিয়োরিগুলি সিমুলেটেড ডেটার জন্য খুব ভাল তবে সত্যিকারের ডেটার জন্য পিএফএফএফ। উদাহরণস্বরূপ আউটলিয়ারগুলি সনাক্ত করতে আমি এই প্যাকেজটি ব্যবহার করেছি :-) দুর্ভাগ্যক্রমে আমার অর্ধেক ডেটা আউটলির হিসাবে সনাক্ত করা হয়েছে :- এটা মজার বিষয় যে কীভাবে লোকেরা কিছু প্রকাশ করে (আমি কী বলতে পারি তা জানি না)। আপনার যদি কোনও মন্তব্য থাকে তবে আমি খুশি হব। আমাদের অনেক ধরণের বিদেশী আছে তবে তাদের কি আমাদের তথ্য থেকে সরাতে হবে? আমি বিশ্বাস করি না
লার্নার

1
কখন এবং কেন এটি কাজ করে তা আপনি ব্যাখ্যা করতে পারেন?
এরিক_কর্নফিল্ড

19

আমি মনে করি রবিন গিরার্ডের উত্তর 3 এবং সম্ভবত 4 টি মাত্রার জন্য বেশ ভালভাবে কাজ করবে তবে মাত্রিকতার অভিশাপ এটিকে ছাড়িয়ে যেতে পারে। যাইহোক, তার পরামর্শটি আমাকে একটি সম্পর্কিত পদ্ধতির দিকে পরিচালিত করেছিল যা প্রথম তিনটি মূল উপাদান স্কোরের জন্য ক্রস-বৈধতাযুক্ত কার্নেল ঘনত্বের প্রাক্কলন প্রয়োগ করে। তারপরে খুব হাই-ডাইমেনশনাল ডেটা সেটটি এখনও ঠিক হ্যান্ডেল করা যায়।

সংক্ষেপে, i = 1 থেকে n এর জন্য

  1. শিবি ছাড়াই ডেটা সেট থেকে প্রাপ্ত প্রথম তিনটি মূল উপাদান স্কোরগুলির ঘনত্বের প্রাক্কলন গণনা করুন।
  2. পদক্ষেপ 1 এ অনুমান করা ঘনত্বের জন্য Xi এর সম্ভাবনা গণনা করুন it এটিকে লি বলুন।

জন্য শেষ

লি বাছাই করুন (i = 1, .., n এর জন্য) এবং আউটলিয়াররা হ'ল কিছু থ্রেশহোল্ডের নীচে সম্ভাবনা রয়েছে। আমি নিশ্চিত নই যে ভাল দারোয়ান কী হবে - আমি যে এই বিষয়ে কাগজ লিখি তার জন্য রেখে দেব! একটি সম্ভাবনা হ'ল লগ (লি) মানগুলির একটি বক্সপ্লট করা এবং নেতিবাচক শেষে কীভাবে বিদেশী সনাক্ত করা হয় তা দেখুন।


এই উত্তরের জন্য ধন্যবাদ (একটি মন্তব্য হওয়া উচিত?) যেমনটি আমি ইতিমধ্যে উল্লেখ করেছি, রিচ উত্তরের উচ্চ মাত্রার একটি মন্তব্য হিসাবে সমস্যা নেই (এমনকি 1000 কাজ করতে পারে) যদি আপনি প্যারামেট্রিক স্ট্রাকচারাল অনুমান করেন।
রবিন গিরার্ড

@ আরব "আমি নিশ্চিত নই যে ভাল থ্রেশহোল্ডটি কী হবে" এটি আমার উল্লেখ করা একাধিক পরীক্ষার পদ্ধতির উদ্দেশ্য হবে .... তবে আমি পুরোপুরি সম্মত হয়েছি যে জিনিসগুলি পূরণ করতে হবে এবং আমি সত্যই এতে আউটলেট সনাক্ত করতে পছন্দ করি আউটলেট ডিটেকশন! কে কাগজ লিখতে চায় :)?
রবিন গিরার্ড

4
(-1) এটি কিছুটা উদ্বেগজনক যে এই প্রশ্নের গৃহীত উত্তর কার্যকর নয় (যেমন অত্যধিক অস্পষ্ট এবং বাস্তবায়িত হয়নি) বা বৈজ্ঞানিকভাবেও সঠিক নয় (যেমনটি ভুল হিসাবেও নয়: যতদূর আমি জানি, এটি এমনকি এখানে উল্লেখ করা হয়নি) প্রাসঙ্গিক সাহিত্য)।
ব্যবহারকারী 60

6
(-1) এটি একটি ভুল উত্তর হিসাবে মনে হচ্ছে - এই পদ্ধতিটি বিদেশী সনাক্ত করবে না! পিসিএ দ্বারা 2 ডি-প্লেন এবং 1 বহির্মুখী পয়েন্টে প্রজেক্ট পয়েন্টের 3 ডি প্যানকেকের মতো মেঘের কল্পনা করা সহজ যা বিমান থেকে অনেক দূরে তবে এর প্রক্ষেপণটি মেঘের ঠিক মাঝখানে, সুতরাং "কার্নেলের ঘনত্ব" 2 ডি-প্লেনের পয়েন্টটি উচ্চতর হবে যদিও এটি বাহ্যিক।
কোচেদে

1
আমি ভাবব এখানে পিসিএ সমস্যাযুক্ত হবে। পিসিএ হ'ল একটি আনুমানিক যা প্রকরণের প্রধান অবদান বিবেচনা করে। তবে এখানে খুব লক্ষ্য হ'ল আউটলিয়ারদের সন্ধান করা - তারা কি "ফাটলগুলির মধ্যে পড়ে" না?
ওমরি আতিয়া

18

আপনি উপলব্ধ বিভিন্ন পদ্ধতির একটি পেডোগোগিকাল সংক্ষিপ্তসার খুঁজে পেতে পারেন (1)

কিছু তালিকাভুক্ত - তালিকাভুক্ত বিভিন্ন পদ্ধতির সংখ্যার তুলনা করার জন্য, আপনি (2) এবং (3) পরীক্ষা করতে পারেন ।

অনেক পুরাতন (এবং কম পরিমিত) সংখ্যার তুলনা রয়েছে, সাধারণত বইগুলিতে পাওয়া যায়। উদাহরণস্বরূপ, আপনি (4) এর 142-143 পৃষ্ঠাগুলিতে একটি পাবেন।

নোট করুন যে এখানে আলোচনা করা সমস্ত পদ্ধতির একটি ওপেন সোর্স আর বাস্তবায়ন রয়েছে, মূলত rrcov প্যাকেজের মাধ্যমে ।

  • (1) পি। রুসিয়েউ এবং এম হুবার্ট (২০১৩) মাল্টিভারিয়েট অবস্থান এবং বিচ্ছুরণের উচ্চ-ব্রেকডাউন অনুমানকারী।
  • (২) এম হুবার্ট, পি। রুসিয়েউ, কে। ভাকিলি (২০১৩)। দৃ c় সমবায় অনুমানকারীদের আকারের পক্ষপাত: একটি অভিজ্ঞতা অভিজ্ঞতা। পরিসংখ্যান সম্পর্কিত কাগজপত্র।
  • (3) কে। ভাকিলি এবং ই। স্মিট (2014)। ফাস্টপিসিএসের সাহায্যে মাল্টিভাইয়ারেট আউটলেটর সন্ধান করা। গণনা পরিসংখ্যান এবং ডেটা বিশ্লেষণ।
  • (4) মেরোনা আরএ, মার্টিন আরডি এবং ইয়োহাই ভিজে (2006)। দৃust় পরিসংখ্যান: তত্ত্ব এবং পদ্ধতি। উইলি, নিউ ইয়র্ক

আমি যেসব কাগজপত্র সিমুলেটেড ডেটার ভিত্তিতে তৈরি করব তা সুপারিশ করব না, আমি বিশ্বাস করি প্রথম দুটি কাগজপত্র সিমুলেটেড ডেটা ভিত্তিক are আমি আসল ডেটা নিয়ে কাজ করছি এবং খুব কমই আমি সেই সিমুলেটেড শক্তিশালী আউটলিয়ারদের একটি ডেটা খুঁজে পেতে পারি। আমি ব্যক্তিগতভাবে কখনও খুব শক্তিশালী আউটলিয়ারের সাথে ডেটা সেট পাইনি। যদি আপনি কোনও আসল তথ্য জানেন তবে দয়া করে ভাগাভাগি করতে দ্বিধা করবেন না
লার্নার

হাই নিমো: আপনার মন্তব্যের জন্য ধন্যবাদ। প্রকৃতপক্ষে, দেখা গেছে যে এই মডেলগুলির মধ্যে অনেকের (দুঃখজনকভাবে সমস্ত না) আউটলাইজারদের সবচেয়ে খারাপ সম্ভাব্য কনফিগারেশনটি প্রকৃতপক্ষে পরিচিত এবং এগুলি এমন কনফিগারেশন যা সাধারণত সেই মডেলগুলি থেকে অনুকরণ এবং মূল্যায়ন করতে পারে। সম্ভবত আপনি এটি একটি প্রশ্ন হিসাবে তৈরি করতে পারেন? আমি কিছু উল্লেখ উল্লেখ করে বেশি খুশি হবে!
ব্যবহারকারী 60

1
আমি ইতিমধ্যে একটি সাধারণ প্রশ্ন জিজ্ঞাসা করেছি। আপনি আমার পোস্টটি এখানে খুঁজে পেতে পারেন stats.stackexchange.com/questions/139645/…
শিক্ষার্থী

13

আমি কিছু প্রকারের "পরীক্ষার অ্যালগোরিদম ছেড়ে দিন" (এন এর ডেটা সংখ্যা):

i = 1 থেকে n এর জন্য

  1. Xi
  2. XiLi

জন্য শেষ

Li

এন যথেষ্ট পরিমাণে বড় হলে এটি কাজ করবে ... আপনি "লে কে কে আউট কৌশল" ব্যবহার করতে পারেন যা আপনার বহিরাগতদের "গোষ্ঠী" থাকাকালীন আরও সাবলীল হতে পারে ...


আপনি যে কতজন বিদেশী আছেন তা জানেন না, যেমন এন -1 পয়েন্টগুলিতে এখনও বহিরাগতদের অন্তর্ভুক্ত করার পরে যখন পক্ষপাত রয়েছে তখন কীভাবে এটি মোকাবেলা করবে?
বেনিয়ামিন ব্যানিয়ার

1
যদি এন পর্যাপ্ত পরিমাণে বড় হয় এবং আউটলারের সংখ্যা কম হয় তবে এই পক্ষপাতিত্ব তুচ্ছ। যদি সেখানে প্রচুর সংখ্যক বিদেশি থাকে তবে মাইব এটি আউটলিয়ার এবং কোনওভাবেই নয়, যেমনটি আমি উল্লেখ করেছি যে আপনি লেভ কে আউট কৌশল ব্যবহার করতে পারেন ... (এই ক্ষেত্রে, আপনাকে সমস্ত কনফিগারেশন ট্র্যাকিং এড়াতে একটি কৌশল সন্ধান করতে হবে যা হতে পারে এনপি হার্ড হোন ...) এবং আপনি যদি কে জানেন না, আপনি কে এর জন্য অনেকগুলি মান চেষ্টা করতে পারেন এবং সর্বাধিক সুসংহত রাখতে পারেন।
রবিন গিরার্ড

1
এটি একটি দুর্দান্ত ধারণা, তবে আমি যদি এটি সঠিকভাবে বুঝতে পারি তবে অন্যের থেকে দূরে থাকা কোনও ডেটাসেটে কোনও মান অন্তর্ভুক্ত করার জন্য "আউটলেটর" ধারণাটি বড় করে মনে হচ্ছে । উদাহরণস্বরূপ, ব্যাচের {-110 [1] -90, 0, 90 [1] 110} 43 সংখ্যার মধ্যে, আপনার পদ্ধতিটি 0 (যা এই সংখ্যার মধ্যম হয়!) কে অনন্য "আউটিলার হিসাবে চিহ্নিত করে না ? "?
হোবার

@ ভাল প্রশ্ন! কাঠামোগত অনুমান ছাড়া শূন্যটি মুছে ফেলা হতে পারে। তবে আপনি ধরে নিতে পারেন যে বিতরণটি সর্বসম্মত এবং সেই অনুযায়ী ঘনত্বটি গণনা করুন। এক্ষেত্রে কাঠামোগত অনুমান (অবিমত্ব) পদ্ধতিটি শূন্যকে একটি "স্বাভাবিক" মান হিসাবে দেখতে সহায়তা করবে। শেষে আপনি মনে করেন এটি স্বাভাবিক কারণ আপনার মাথায় এই ধরণের "কাঠামোগত অনুমান" রয়েছে :)?
রবিন গিরার্ড

3
LiLi

12

ন্যূনতম ভলিউম বাউন্ডিং এলিপসয়েডের সমর্থন পয়েন্টগুলির মধ্যে আপনি "আউটলিয়ার্স" এর প্রার্থী খুঁজে পেতে পারেন। ( এই পয়েন্টগুলি মোটামুটি উচ্চ মাত্রায় সন্ধান করার জন্য দক্ষ অ্যালগরিদমগুলি ঠিক এবং আনুমানিক উভয়ই ১৯ ,০-এর দশকে কাগজের ফাঁকে উদ্ভাবিত হয়েছিল কারণ পরীক্ষামূলক নকশার একটি প্রশ্নের সাথে এই সমস্যাটি নিবিড়ভাবে সংযুক্ত রয়েছে।)


12

আমি উপন্যাস পদ্ধতির আমি দেখেছি ছিল আইটি Jolliffe প্রিন্সিপাল উপাদান বিশ্লেষণ । আপনি আপনার ডেটাতে একটি পিসিএ চালান (দ্রষ্টব্য: পিসিএ নিজস্ব ডান দিক থেকে বেশ কার্যকর ডেটা এক্সপ্লোরেশন সরঞ্জাম হতে পারে), তবে প্রথম কয়েকটি অধ্যক্ষ উপাদানগুলি (পিসি) দেখার পরিবর্তে আপনি শেষ কয়েকটি পিসি প্লট করেন। এই পিসিগুলি আপনার ভেরিয়েবলের মধ্যে সামান্যতম বৈকল্পিকের সাথে লিনিয়ার সম্পর্ক। সুতরাং এগুলি "নির্ভুল" সনাক্ত করে বা আপনার ডেটাতে সঠিক দূষণ সম্পর্কিত সম্পর্কগুলি সনাক্ত করে।

সর্বশেষ পিসির জন্য পিসির স্কোরগুলির একটি প্লট প্রতিটি ভেরিয়েবলের স্বতন্ত্রভাবে তাকিয়ে আউটলিয়ারগুলি সহজে সনাক্তযোগ্য নয় তা দেখায়। একটি উদাহরণ উচ্চতা এবং ওজনের জন্য - কিছু উচ্চতা এবং ওজন না থাকলেও "গড়ের উপরে" উচ্চতা এবং "গড়ের নীচে" ওজনের শেষ পিসি দ্বারা সনাক্ত করা হত (এগুলি ইতিবাচকভাবে সম্পর্কযুক্ত বলে ধরে নেওয়া হয়) " চরম "স্বতন্ত্রভাবে (যেমন 180 সেমি এবং 60 কেজি ছিল)


11

আমি কাউকে প্রভাব ফাংশন উল্লেখ করতে দেখিনি । জ্ঞানাদেসিকানের মাল্টিভারিয়েট বইতে এই ধারণাটি আমি প্রথম দেখেছি ।

এক মাত্রায় একজন আউটলেটর হয় হয় অত্যন্ত বড় বা খুব ছোট মান। মাল্টিভারিয়েট বিশ্লেষণে এটি হ'ল পর্যবেক্ষণ যা উপাত্তের বেশিরভাগ অংশ থেকে সরিয়ে নেওয়া হয়। তবে আউটলারের পক্ষে চূড়ান্ত সংজ্ঞা দিতে আমাদের কোন মেট্রিক ব্যবহার করা উচিত? অনেক পছন্দ আছে। মহালানোবিসের দূরত্ব মাত্র একটি। আমি মনে করি যে প্রতিটি ধরণের আউটলেটারের সন্ধান করা নিরর্থক এবং প্রতিদ্বন্দ্বী। আমি জিজ্ঞাসা করব কেন আপনি আউটলেটরের বিষয়ে যত্নশীল হন?? কোনও গড় অনুমানের ক্ষেত্রে তারা সেই অনুমানের উপর দুর্দান্ত প্রভাব ফেলতে পারে। মজবুত অনুমানকারীরা কম ওজন এবং বহিরাগতদের সমন্বিত করে তবে তারা তাদের জন্য আনুষ্ঠানিকভাবে পরীক্ষা করে না। এখন রিগ্রেশনে, আউটলিয়াররা - লিভারেজ পয়েন্টগুলির মতো - মডেলের opeাল প্যারামিটারগুলিতে বড় প্রভাব ফেলতে পারে। দ্বিখণ্ডিত ডেটা দিয়ে তারা আনুমানিকভাবে আনুমানিক পারস্পরিক সম্পর্ক সহগকে প্রভাবিত করতে পারে এবং তিন বা আরও বেশি মাত্রায় একাধিক পারস্পরিক সম্পর্ক সহগকে প্রভাবিত করতে পারে।

প্রভাব ফাংশন হ্যাম্পেল দৃ by় অনুমানের একটি সরঞ্জাম হিসাবে প্রবর্তন করেছিলেন এবং ম্যাল্লোস তাদের ব্যবহারের পক্ষে একটি দুর্দান্ত অপ্রকাশিত কাগজ লিখেছিলেন। প্রভাব ফাংশন হল আপনি যে বিন্দুতে এন-ডাইমেনশনাল স্পেস এবং প্যারামিটারে আছেন তার একটি ফাংশন। এটি মূলত গণনার বিন্দু এবং বাম পয়েন্ট সহ পরামিতি অনুমানের মধ্যে পার্থক্য পরিমাপ করে। দুটি অনুমানের গণনা করার এবং পার্থক্যটি গ্রহণ করার ঝামেলা না করে প্রায়ই আপনি এটির জন্য একটি সূত্র তৈরি করতে পারেন। তারপরে ধ্রুবক প্রভাবের সূত্রগুলি আপনাকে এই প্যারামিটারের অনুমানের সাথে সম্মতিতে চূড়ান্ত দিক নির্দেশ করে এবং তাই আপনাকে বলবে যে এন-ডাইমেনশনাল স্পেসে কোথায় আউটলেটারের সন্ধান করা হবে।

আরও তথ্যের জন্য আপনি আমেরিকান জার্নাল অফ ম্যাথেমেটিকাল অ্যান্ড ম্যানেজমেন্ট সায়েন্সেস-এর শিরোনামে "প্রভাব কার্যকারিতা এবং ডেটা বৈধকরণের জন্য এটির প্রয়োগ" শীর্ষক আমার 1983 এর পেপারটি দেখতে পারেন can ডেটা বৈধকরণে আমরা আউটলিয়ারদের সন্ধান করতে চেয়েছিলাম যা ডেটা ব্যবহারের উদ্দেশ্যে প্রভাবিত করে। আমার অনুভূতি হ'ল আপনার দৃষ্টি আকর্ষণ করা উচিত বিদেশীদের দিকে যা আপনার অনুমানের আগ্রহী পরামিতিগুলিকে ব্যাপকভাবে প্রভাবিত করে এবং অন্যদের সম্পর্কে এতটা যত্ন নেয় না।


1
+1 খুব সুন্দর ধারণা, বিশেষত বিশ্লেষণের উদ্দেশ্যটির উপর ধারাবাহিক ফোকাসের জন্য।
whuber

অনুরূপ ধারণা হ'ল র্যান্ডম নমুনা সম্মতি ( আরএনএসএসি )।
জিওম্যাটট 22

8

এটি একটি ওভারশুট হতে পারে, তবে আপনি ডেটাতে একটি নিরীক্ষণযোগ্য র্যান্ডম ফরেস্টকে প্রশিক্ষণ দিতে পারেন এবং বহিরাগতদের সনাক্ত করতে অবজেক্ট সান্নিধ্য পরিমাপটি ব্যবহার করতে পারেন। আরও বিশদ এখানে


4
র্যান্ডমফরেস্ট প্যাকেজটিতে আউটলেট
জর্জ ডনটাস

7

3 টির মতো মাঝারি মাত্রাগুলির জন্য, তবে অন্য কোথাও প্রস্তাবিত কোনও ধরণের কার্নেল ক্রস-বৈধকরণ কৌশলটি যুক্তিসঙ্গত বলে মনে হয় এবং এটিই আমি সেরাভাবে আসতে পারি।

উচ্চ মাত্রার জন্য, আমি নিশ্চিত নই যে সমস্যাটি সমাধানযোগ্য; এটি 'অভিশাপের-মাত্রিকতা' অঞ্চলে বেশ স্কোয়ারওয়ালা অবতরণ করে। সমস্যাটি হ'ল দূরত্বের ক্রিয়াকলাপগুলি খুব তাড়াতাড়ি খুব বড় মানগুলিতে রূপান্তরিত করে যখন আপনি বিতরণ থেকে প্রাপ্ত দূরত্বগুলি সহ মাত্রিকতা বৃদ্ধি করেন। আপনি যদি একজন আউটলারের সংজ্ঞা দিচ্ছেন "অন্যদের তুলনায় তুলনামূলকভাবে বড় দূরত্বের কার্যকারিতা সহ একটি পয়েন্ট", এবং আপনার সমস্ত দূরত্বের ক্রিয়াগুলি রূপান্তরিত হতে শুরু করেছে কারণ আপনি একটি উচ্চ মাত্রার স্থানে রয়েছেন, ভাল, আপনি সমস্যার মধ্যে রয়েছেন ।

কোনও প্রকার বিতরণীয় অনুমান ব্যতীত যা আপনাকে এটিকে একটি সম্ভাব্য শ্রেণিবদ্ধকরণ সমস্যায় পরিণত করতে দেবে, বা কমপক্ষে কিছু আবর্তন যা আপনাকে আপনার স্থানকে "শব্দের মাত্রা" এবং "তথ্যবহুল মাত্রায়" আলাদা করতে দেয়, আমি মনে করি যে উচ্চ-মাত্রিক স্থানগুলির জ্যামিতি যে কোনও সহজ - বা কমপক্ষে শক্তিশালী - বিদেশিদের সনাক্তকরণ নিষিদ্ধ করতে চলেছে।


আমি ইতিমধ্যে যে পদ্ধতিটি দিয়েছি তা বড় মাত্রায় প্রয়োগ করা যেতে পারে, যেমন আমি বলেছিলাম, গাউসীয় অনুমান ব্যবহার করে। যদি মাত্রাটি নমুনার আকারের (যেমন পি <এন) এর সাথে সম্মতিতে সত্যিই বড় হয় তবে আপনি কিছু অভাব অনুমান করতে পারেন (ধরে নিন যে আপনার গাউসীয় বিতরণের প্যারামিটারগুলি একটি নিম্ন মাত্রিক স্থানে রয়েছে উদাহরণস্বরূপ) এবং একটি চৌম্বক নির্ধারণের পদ্ধতি ব্যবহার করুন প্যারামিটারগুলির অনুমানের জন্য ...
রবিন গিরার্ড

1
অত্যন্ত অন্তর্দৃষ্টিপূর্ণ যে মাত্রিকতার অভিশাপ বিতরণ অনুমানগুলি ছাড়াই একটি সমাধানকে থামিয়ে দেয় (যদি আপনি কেবলমাত্র উন্মাদ পরিমাণে ডেটা বা মাত্রাটি ছোট না করেন)
জন রবার্টসন

6

আমি নিশ্চিত না আপনি যখন বলছেন তখন আপনি কী বোঝাতে চাইছেন আপনি যখন কোনও রিগ্রেশন সমস্যার কথা ভাবছেন না তবে "সত্যিকারের মাল্টিভারিয়েট ডেটা" করছেন। আমার প্রাথমিক প্রতিক্রিয়াটি হবে মহালানোবিসের দূরত্ব গণনা করা যেহেতু এটির জন্য আপনি কোনও নির্দিষ্ট চতুর্থ বা ডিভি নির্দিষ্ট করার প্রয়োজন নেই, তবে এর মূল অংশে (যতদূর আমি এটি বুঝতে পেরেছি) এটি কোনও লিভারেজের পরিসংখ্যানের সাথে সম্পর্কিত।


হ্যাঁ, আমি প্রতিটি পর্যবেক্ষণের মহালানোবিসের দূরত্বটি ডেটাগুলির গড় থেকে গুণতে পারি। তবে গড় থেকে সর্বোচ্চ দূরত্বের সাথে পর্যবেক্ষণগুলি অগত্যা মাল্টিভারিয়েট বিদেশী নয়। উচ্চ সম্পর্কের সাথে একটি দ্বিবিভক্ত স্ক্রেটারপ্লোটের কথা ভাবেন। একজন আউটলেট পয়েন্টগুলির মূল মেঘের বাইরে থাকতে পারে তবে এটি গড় থেকে দূরে নয়।
রব হ্যান্ডম্যান

5

আমি জানি না যে কেউ এই কাজ করছে, তবে আমার যখন এই জাতীয় সমস্যা হয় তখন আমি সাধারণত মাত্রিক মাত্রা হ্রাস চেষ্টা করতে চাই। আপনি বহুবিধ শিখন বা অ-রৈখিক মাত্রিক হ্রাস থেকে কোনও পদ্ধতি অনুসন্ধান করতে পারেন ।

একটি উদাহরণ কোহোনেন মানচিত্র হবে । আর এর জন্য একটি ভাল রেফারেন্স হ'ল "স্ব-এবং সুপার-সংগঠিত মানচিত্রগুলিতে আর: কোহোনেন প্যাকেজ"


4

আমার প্রথম প্রতিক্রিয়াটি হ'ল যদি আপনি ডেটাতে মাল্টিভারিয়েট রিগ্রেশন করতে পারেন, তবে সেই রিগ্রেশন থেকে অবশিষ্টাংশগুলিকে বহিরাগতদের স্পট করতে ব্যবহার করতে পারেন। (আমি জানি আপনি বলেছেন যে এটি কোনও রিগ্রেশন সমস্যা নয়, সুতরাং এটি আপনাকে সাহায্য করতে পারে না, দুঃখিত!)

আমি এর আগে স্ট্যাকওভারফ্লো প্রশ্নটি দিয়ে কিছু অনুলিপি করছি যা এর আগে উদাহরণ দিয়েছি যার কয়েকটি উদাহরণ আর কোড রয়েছে

প্রথমে আমরা কিছু ডেটা তৈরি করব এবং তারপরে এটি কোনও আউটলারের সাথে কলঙ্কিত করব;

> testout<-data.frame(X1=rnorm(50,mean=50,sd=10),X2=rnorm(50,mean=5,sd=1.5),Y=rnorm(50,mean=200,sd=25)) 
> #Taint the Data 
> testout$X1[10]<-5 
> testout$X2[10]<-5 
> testout$Y[10]<-530 

> testout 
         X1         X2        Y 
1  44.20043  1.5259458 169.3296 
2  40.46721  5.8437076 200.9038 
3  48.20571  3.8243373 189.4652 
4  60.09808  4.6609190 177.5159 
5  50.23627  2.6193455 210.4360 
6  43.50972  5.8212863 203.8361 
7  44.95626  7.8368405 236.5821 
8  66.14391  3.6828843 171.9624 
9  45.53040  4.8311616 187.0553 
10  5.00000  5.0000000 530.0000 
11 64.71719  6.4007245 164.8052 
12 54.43665  7.8695891 192.8824 
13 45.78278  4.9921489 182.2957 
14 49.59998  4.7716099 146.3090 
<snip> 
48 26.55487  5.8082497 189.7901 
49 45.28317  5.0219647 208.1318 
50 44.84145  3.6252663 251.5620 

গ্রাফিকভাবে ডেটা পরীক্ষা করা বেশিরভাগ কাজে আসে (গণিতের তুলনায় আপনার মস্তিষ্কের বহিরাগতদের খুঁজে পাওয়া আরও ভাল)

> #Use Boxplot to Review the Data 
> boxplot(testout$X1, ylab="X1") 
> boxplot(testout$X2, ylab="X2") 
> boxplot(testout$Y, ylab="Y") 

তারপরে আপনি সমালোচনামূলক কাট অফের মানগুলি গণনা করতে এখানে পরিসংখ্যানগুলি ব্যবহার করতে পারেন, লন্ড টেস্টটি ব্যবহার করে (লন্ড, আরআর 1975 দেখুন, "লিনিয়ার মডেলগুলির আউটলিয়ারদের জন্য একটি আনুমানিক পরীক্ষার টেবিলগুলি", টেকনোমেট্রিক্স, খণ্ড 17, নং 4, পৃষ্ঠা 473 -476। এবং প্রেসকোট, পি। 1975, "লিনিয়ার মডেলগুলিতে আউটলিয়ারদের জন্য একটি আনুমানিক পরীক্ষা", টেকনোমেট্রিক্স, খণ্ড 17, নং 1, পৃষ্ঠা 129-132।)

> #Alternative approach using Lund Test 
> lundcrit<-function(a, n, q) { 
+ # Calculates a Critical value for Outlier Test according to Lund 
+ # See Lund, R. E. 1975, "Tables for An Approximate Test for Outliers in Linear Models", Technometrics, vol. 17, no. 4, pp. 473-476. 
+ # and Prescott, P. 1975, "An Approximate Test for Outliers in Linear Models", Technometrics, vol. 17, no. 1, pp. 129-132. 
+ # a = alpha 
+ # n = Number of data elements 
+ # q = Number of independent Variables (including intercept) 
+ F<-qf(c(1-(a/n)),df1=1,df2=n-q-1,lower.tail=TRUE) 
+ crit<-((n-q)*F/(n-q-1+F))^0.5 
+ crit 
+ } 

> testoutlm<-lm(Y~X1+X2,data=testout) 

> testout$fitted<-fitted(testoutlm) 

> testout$residual<-residuals(testoutlm) 

> testout$standardresid<-rstandard(testoutlm) 

> n<-nrow(testout) 

> q<-length(testoutlm$coefficients) 

> crit<-lundcrit(0.1,n,q) 

> testout$Ynew<-ifelse(testout$standardresid>crit,NA,testout$Y) 

> testout 
         X1         X2        Y    newX1   fitted    residual standardresid 
1  44.20043  1.5259458 169.3296 44.20043 209.8467 -40.5171222  -1.009507695 
2  40.46721  5.8437076 200.9038 40.46721 231.9221 -31.0183107  -0.747624895 
3  48.20571  3.8243373 189.4652 48.20571 203.4786 -14.0134646  -0.335955648 
4  60.09808  4.6609190 177.5159 60.09808 169.6108   7.9050960   0.190908291 
5  50.23627  2.6193455 210.4360 50.23627 194.3285  16.1075799   0.391537883 
6  43.50972  5.8212863 203.8361 43.50972 222.6667 -18.8306252  -0.452070155 
7  44.95626  7.8368405 236.5821 44.95626 223.3287  13.2534226   0.326339981 
8  66.14391  3.6828843 171.9624 66.14391 148.8870  23.0754677   0.568829360 
9  45.53040  4.8311616 187.0553 45.53040 214.0832 -27.0279262  -0.646090667 
10  5.00000  5.0000000 530.0000       NA 337.0535 192.9465135   5.714275585 
11 64.71719  6.4007245 164.8052 64.71719 159.9911   4.8141018   0.118618011 
12 54.43665  7.8695891 192.8824 54.43665 194.7454  -1.8630426  -0.046004311 
13 45.78278  4.9921489 182.2957 45.78278 213.7223 -31.4266180  -0.751115595 
14 49.59998  4.7716099 146.3090 49.59998 201.6296 -55.3205552  -1.321042392 
15 45.07720  4.2355525 192.9041 45.07720 213.9655 -21.0613819  -0.504406009 
16 62.27717  7.1518606 186.6482 62.27717 169.2455  17.4027250   0.430262983 
17 48.50446  3.0712422 228.3253 48.50446 200.6938  27.6314695   0.667366651 
18 65.49983  5.4609713 184.8983 65.49983 155.2768  29.6214506   0.726319931 
19 44.38387  4.9305222 213.9378 44.38387 217.7981  -3.8603382  -0.092354925 
20 43.52883  8.3777627 203.5657 43.52883 228.9961 -25.4303732  -0.634725264 
<snip> 
49 45.28317  5.0219647 208.1318 45.28317 215.3075  -7.1756966  -0.171560291 
50 44.84145  3.6252663 251.5620 44.84145 213.1535  38.4084869   0.923804784 
       Ynew 
1  169.3296 
2  200.9038 
3  189.4652 
4  177.5159 
5  210.4360 
6  203.8361 
7  236.5821 
8  171.9624 
9  187.0553 
10       NA 
11 164.8052 
12 192.8824 
13 182.2957 
14 146.3090 
15 192.9041 
16 186.6482 
17 228.3253 
18 184.8983 
19 213.9378 
20 203.5657 
<snip> 
49 208.1318 
50 251.5620 

অবিশ্বাস্যভাবে লন্ড টেস্ট (গ্রাবস স্প্রিংস মনে মনে) ছাড়াও অন্যান্য আউটলেট টেস্ট রয়েছে তবে আমি নিশ্চিত নই যেগুলি মাল্টিভারিয়েট ডেটার সাথে আরও উপযুক্ত।


1
ইউনিভারিটেড বক্সপ্লটগুলি অবিচ্ছিন্ন আউটলিয়ারদের চিহ্নিত করার জন্য দরকারী। তবে তারা মাল্টিভারিয়েট বিদেশীদের সম্পূর্ণরূপে মিস করতে পারে। রিগ্রেশন আইডিয়া ঠিক আছে যদি আমার কাছে একটি Y এবং এক্স ভেরিয়েবলগুলি থাকে। তবে আমি যেমন প্রশ্নে বলেছি, কোনও ওয়াই নেই তাই রিগ্রেশন অনুপযুক্ত।
রব হ্যান্ডম্যান

@ রবহাইন্ডম্যান - কেউ ওয়াই ঠিক করতে পারে (এটিকে একটি ধ্রুবক করে তোলে) এবং কোনও বাধা ছাড়াই বহু-রিগ্রেশন মডেল করার চেষ্টা করতে পারে । এটি অনুশীলনে সুন্দরভাবে কাজ করে। সংক্ষেপে এটি একটি মৌলিকভাবে অপ্রচলিত সমস্যাটিকে রূপান্তরিত করে, যা একটি সাধারণ তাত্পর্যপূর্ণ সনাক্তকরণটি তদারকি করা সমস্যার মধ্যে পরিণত করে।
আরিফেল

আকর্ষণীয় আপনি কি তার জন্য একটি রেফারেন্স আছে?
রব হ্যান্ডম্যান

@ রবহাইন্ডম্যান কোনও একাডেমিক কাগজ না, তবে সম্ভবত এটির চেয়ে ভাল আপনি নিজেরাই চেষ্টা করে দেখতে পারেন। আমার github পৃষ্ঠাটি vw-top-errors@ goo.gl/l7SLlB দেখুন (নোট করুন যে উদাহরণগুলির মধ্যে একটি ওয়াই রয়েছে, তবে আমি একই কৌশলটি ব্যবহার করেছি, ওয়াই ফিক্সিংয়ের
মাধ্যমেও অকার্যকর

1

উপরের উত্তরগুলির মধ্যে একটি মহলানোবিস দূরত্বে স্পর্শ করেছে .... সম্ভবত অ্যান্থার ধাপ আরও এগিয়ে এবং একযোগে আত্মবিশ্বাসের অন্তরগুলি গণনা করা বিদেশীদের সনাক্ত করতে সহায়তা করবে!

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.