গণনার ডেটাতে আউটলিয়ারগুলি সনাক্ত করা


21

আমার কাছে নির্দ্বিধায় একটি মোটামুটি সোজা ফরোয়ার্ড সমস্যা বলে মনে হয়েছিল যা গণনা উপাত্তের অনেকগুলি সেটের জন্য আউটলেট সনাক্তকরণের সাথে জড়িত। বিশেষত, আমি নির্ধারণ করতে চাই যে গণনা উপক্রমের একটি সিরিজের এক বা একাধিক মান বিতরণের বাকি গণনাগুলির তুলনায় প্রত্যাশার চেয়ে বেশি বা কম if

বিস্ময়কর কারণটি হ'ল আমার ৩,৫০০ বিতরণের জন্য এটি করা দরকার এবং সম্ভবত তাদের মধ্যে কিছুগুলি একটি শূন্য স্ফীত অতিরিক্ত পরিমাণে পোষাগুলির সাথে মানিয়ে যাবে, অন্যরা হয়ত নেতিবাচক দ্বিপদী বা জেডআইএনবি ফিট করতে পারে, অন্যদিকে সাধারণত অন্যদের বিতরণ করা যেতে পারে। এই কারণে, ডেটাসেটের বেশিরভাগ ক্ষেত্রে সাধারণ জেড স্কোর বা বিতরণের প্লট করা উপযুক্ত নয়। এখানে গণনা সম্পর্কিত ডেটার একটি উদাহরণ রয়েছে যার জন্য আমি বিদেশীদের সনাক্ত করতে চাই।

counts1=[1 1 1 0 2 1 1 0 0 1 1 1 1 1 0 0 0 0 1 2 1 1 2 1 1 1 1 0 0 1 0 1 1 1 1 0 
         0 0 0 0 1 2 1 1 1 1 1 1 0 1 1 2 0 0 0 1 0 1 2 1 1 0 2 1 1 1 0 0 1 0 0 0 
         2 0 1 1 0 2 1 0 1 1 0 0 2 1 0 1 1 1 1 2 0 3]
counts2=[0 1 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 
         0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 
         0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 
         1 1 0 0 0]
counts3=[14 13 14 14 14 14 13 14 14 14 14 14 15 14 14 14 14 14 14 15 14 13 14 14 
         15 12 13 17 13 14 14 14 14 15 14 14 13 14 13 14 14 14 14 13 14 14 14 15 
         15 14 14 14 14 14 15 14 1414 14 15 14 14 14 14 14 14 14 14 14 14 14 14 13 16]
counts4=[0 3 1.......]
and so on up to counts3500.

প্রাথমিকভাবে আমি ভেবেছিলাম আমার পাইথন বা আর তে একটি লুপ লিখতে হবে যা প্রতিটি বিতরণে একটি সেট মডেল প্রয়োগ করতে পারে এবং এআইসি বা অন্যান্য অনুসারে সেরা ফিটিং মডেল নির্বাচন করতে পারে (সম্ভবত আরডি মধ্যে ফিটডিসট্রপ্লাস?)। তারপরে আমি জিজ্ঞাসা করতে পারি প্রদত্ত বিতরণের জন্য কী কী চূড়ান্ত ছিল (লেজগুলিতে যে সংখ্যাগুলি পড়ে eg তবে, আমি নিশ্চিত নই যে এটি একটি বৈধ কৌশল, এবং এটি আমার কাছে ঘটেছিল কাউন্টের ডেটাতে বিদেশীদের নির্ধারণের জন্য একটি সহজ পদ্ধতি থাকতে পারে যার সম্পর্কে আমি অবগত ছিলাম না। আমি যে পরিমাণ বিতরণ দেখতে চাই তার সংখ্যার দিক দিয়ে আমি বিস্তৃত অনুসন্ধান করেছি এবং আমার সমস্যার জন্য উপযুক্ত বলে মনে করি না।

আমার চূড়ান্ত লক্ষ্য হ'ল সর্বাধিক পরিসংখ্যানগতভাবে উপযুক্ত পদ্ধতি ব্যবহার করে গণনাগুলির প্রতিটি বিতরণের জন্য একটি গণনায় উল্লেখযোগ্য বৃদ্ধি বা হ্রাস সনাক্ত করা।

উত্তর:


23

আউটলিয়ারদের নির্ভরযোগ্যভাবে সনাক্ত করতে আপনি আপনার ডেটাগুলির ধ্রুপদী ফিট থেকে পর্যবেক্ষণের দূরত্ব ব্যবহার করতে পারবেন না কারণ আপনি যে ফিটিং পদ্ধতিটি ব্যবহার করেন সেটি নিজেই বহিরাগতদের দিকে টানতে দায়বদ্ধ (এটি বলা হয় মাস্কিং এফেক্ট)। আউটলিয়ারদের নির্ভরযোগ্যভাবে সনাক্ত করার একটি সহজ উপায় হ'ল আপনার প্রস্তাবিত সাধারণ ধারণাটি (ফিট থেকে দূরত্ব) ব্যবহার করা কিন্তু ক্লাসিক্যাল অনুমানকারীকে শক্তিশালী দ্বারা প্রতিস্থাপন করা খুব কম সংবেদনশীলকে বহিরাগতদের দ্বারা দমন করা যায় না। নীচে আমি ধারণার একটি সাধারণ চিত্র তুলে ধরছি এবং তারপরে আপনার নির্দিষ্ট সমস্যার সমাধানটি নিয়ে আলোচনা করব।

একটি উদাহরণ: একটি (দ্বিতীয় অঙ্কে গোলাকার ) থেকে আঁকা নিম্নলিখিত 20 টি পর্যবেক্ষণ বিবেচনা করুন :N(0,1)

x<-c(-2.21,-1.84,-.95,-.91,-.36,-.19,-.11,-.1,.18,
.3,.31,.43,.51,.64,.67,.72,1.22,1.35,8.1,17.6)

(শেষ দুটি সত্যই .81 এবং 1.76 হওয়া উচিত তবে দুর্ঘটনাক্রমে ভুল উপায়ে চাপানো হয়েছে)।

পরিসংখ্যান তুলনার উপর ভিত্তি করে একটি আউটলেট সনাক্তকরণ নিয়ম ব্যবহার করা

|xiave(xi)|sd(xi)

সাধারণ বিতরণের পরিমাণ কোয়ান্টাইলগুলিতে কখনই আপনাকে সন্দেহ করতে বাড়ে না যে 8.1 একটি আউটলেট, এটি আপনাকে 'ছাঁটাই' সিরিজের 2 বলে অনুমান করতে পরিচালিত করে (কাঁচা, উদাহরণস্বরূপ, নিখরচায়, এসডি এর অনুমান 4.35)।sdsd

আপনি যদি এর পরিবর্তে একটি দৃust় পরিসংখ্যান ব্যবহার করেছেন:

|ximed(xi)|mad(xi)

zsd

(সম্পূর্ণতার স্বার্থে আমি নির্দেশ করা উচিত যে কিছু মানুষ, এমনকি এই বয়স এবং দিনে পছন্দ আটকে থাকা 4,35 কাঁচা --untrimmed-- অনুমান বদলে ছাঁটাই উপর ভিত্তি করে আরো সুনির্দিষ্ট হিসাব ব্যবহার কিন্তু এই আমাকে অপাচ্য হয় )

অন্যান্য বিতরণগুলির জন্য পরিস্থিতিটি আলাদা নয়, কেবল আপনাকে প্রথমে আপনার ডেটা প্রাক-রূপান্তর করতে হবে। উদাহরণস্বরূপ, আপনার ক্ষেত্রে:

X

Y=2X

Y>med(Y)+3

এটি যদি তবে এই ধারণাটির ভিত্তিতে তৈরিX

YN(med(Y),1)

λ

λλ=3

p

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.