যদি আপনার ডেটাতে একটি একক আউটলেটর থাকে তবে আপনার প্রস্তাবিত পদ্ধতির (যদিও এটি পুনরাবৃত্তি না করে) ব্যবহার করে এটি নির্ভরযোগ্যভাবে পাওয়া যাবে। এটি সম্পর্কে একটি আনুষ্ঠানিক পন্থা
কুক, আর ডেনিস (1979) লিনিয়ার রিগ্রেশন-এর প্রভাবশালী পর্যবেক্ষণ । আমেরিকান স্ট্যাটিস্টিকাল অ্যাসোসিয়েশনের জার্নাল (আমেরিকান স্ট্যাটিস্টিকাল অ্যাসোসিয়েশন) 74 (365): 169–174।
একাধিক আউটলেটার সন্ধানের জন্য, বহু বছর ধরে, নেতৃস্থানীয় পদ্ধতিটি তথাকথিত টেস্টেমেশন পরিবার ছিল। এই estimators একটি বরং বিস্তৃত পরিবারের হুবার এর রয়েছে এম রিগ্রেশন এর মূল্নির্ধারক, Koenker এর হল L1 রিগ্রেশন সেইসাথে পদ্ধতির আপনার প্রশ্নের তার মন্তব্যে Procastinator দ্বারা প্রস্তাবিত। এম উত্তল সঙ্গে estimators ρ ফাংশন সুবিধা তারা একটি নিয়মিত রিগ্রেশন প্রাক্কলন হিসাবে একই সংখ্যাসূচক জটিলতা সম্পর্কে আছে আছে। বড় অসুবিধাটি হ'ল তারা কেবলমাত্র নির্ভরযোগ্যভাবে বিদেশী খুঁজে পেতে পারে যদি:MMMρ
- আপনার নমুনার দূষণের হার 1 এর চেয়ে কম যেখানেpডিজাইন ভেরিয়েবলের সংখ্যা,11+pp
- বা যদি বহিরাগতরা ডিজাইনের জায়গার বাইরে না চলে থাকে (এলিস এবং মরজেন্টেলার (1992))।
আপনি ( ) প্যাকেজে ( l 1 ) অনুমানের প্রাক্কলনের ভাল বাস্তবায়ন পেতে পারেন । Ml1robustbase
quantreg
R
যদি আপনার ডেটাতে ⌊ n এর বেশি থাকেআউটলেট সম্ভাব্যভাবে ডিজাইনের জায়গার সাথেও অন্তর্নিহিত হয়, তারপরে, তাদেরকে একটি সংযুক্ত সমস্যা সমাধানের সমান পরিমাণ (সমানভাবেপুনরায় প্রতারণামূলক / নন-উত্তলρফাংশনসহএকটিএমঅনুমানকেরসমাধান)। ⌊np+1⌋Mρ
গত 20 বছরে (এবং বিশেষত শেষ 10) দ্রুত এবং নির্ভরযোগ্য আউটলেট সনাক্তকরণ অ্যালগরিদমগুলির একটি বিশাল দেহটি এই সংযুক্তি সমস্যাটি প্রায় সমাধানের জন্য ডিজাইন করা হয়েছে। এগুলি এখন সর্বাধিক জনপ্রিয় পরিসংখ্যান প্যাকেজগুলিতে প্রয়োগ করা হয় (আর, মতলব, এসএএস, স্টাটা, ...)।
তবুও, এই পদ্ধতির সাথে বিদেশী খুঁজে বের করার সংখ্যাগত জটিলতা সাধারণত অর্ডার । বেশিরভাগ অ্যালগরিদম মধ্য কৈশোরের পি এর মানগুলির জন্য অনুশীলনে ব্যবহার করা যেতে পারে । সাধারণত এই অ্যালগরিদমগুলি n (পর্যবেক্ষণের সংখ্যা) এ লিনিয়ার হয় তাই পর্যবেক্ষণের সংখ্যাটি কোনও সমস্যা নয়। একটি বড় সুবিধা হ'ল এই আলগোরিদিমগুলির বেশিরভাগটি বিব্রতকরভাবে সমান্তরাল। অতি সম্প্রতি, উচ্চ মাত্রিক ডেটার জন্য বিশেষভাবে ডিজাইন করা অনেকগুলি পদ্ধতির প্রস্তাব দেওয়া হয়েছে।O(2p)pএন
আপনি যদি আপনার প্রশ্নে নির্দিষ্ট করেন নি , তবে আমি পি < 20 এর জন্য কয়েকটি রেফারেন্স তালিকা করব । এখানে কিছু কাগজপত্র রয়েছে যা পর্যালোচনা নিবন্ধগুলির এই সিরিজটিতে আরও বিশদে এটি ব্যাখ্যা করে:পিপি < 20
রুসিউউ, পিজে এবং ভ্যান জোমেরেন বিসি (1990)। মাল্টিভিয়ারেট আউটলিয়ার এবং লিভারেজ পয়েন্টগুলি আনমাস্কিং । আমেরিকান স্ট্যাটিস্টিকাল অ্যাসোসিয়েশন জার্নাল , খণ্ড। 85, নং 411, পৃষ্ঠা 633-639।
রুশিউ, পিজে এবং ভ্যান ড্রিসেন, কে। (2006)। বড় ডেটা সেটগুলির জন্য কম্পিউটিং এলটিএস রিগ্রেশন । ডেটা মাইনিং এবং নলেজ আবিষ্কারের সংরক্ষণাগার খণ্ড 12 ইস্যু 1, পৃষ্ঠা 29 - 45।
হুবার্ট, এম।, রুসিউ, পিজে এবং ভ্যান অ্যালস্ট, এস। (২০০৮)। উচ্চ-ব্রেকডাউন শক্তসমর্থক পদ্ধতিগুলি । পরিসংখ্যান বিজ্ঞান , খণ্ড। 23, নং 1, 92–119
এলিস এসপি এবং মরজেন্টেলার এস। (1992)। এল 1 রিগ্রেশন এ লিভারেজ এবং ব্রেকডাউন। আমেরিকান স্ট্যাটিস্টিকাল অ্যাসোসিয়েশন জার্নাল , খণ্ড। 87, নং 417, পৃষ্ঠা 143-148
বহিরাগত সনাক্তকরণের সমস্যা সম্পর্কিত সাম্প্রতিক একটি রেফারেন্স বইটি হ'ল:
মারোনা আরএ, মার্টিন আরডি এবং ইয়োহাই ভিজে (2006)। দৃust় পরিসংখ্যান: তত্ত্ব এবং পদ্ধতি । উইলি, নিউ ইয়র্ক
প্যাকেজটিতে (অন্যান্যগুলির মধ্যে) এই (এবং এগুলির আরও অনেকগুলি প্রকারের) পদ্ধতিগুলি প্রয়োগ করা হয় ।robustbase
R