বিদেশীদের কাছে দ্রুত লিনিয়ার রিগ্রেশন শক্তিশালী


50

আমি আউটলিয়ারদের সাথে লিনিয়ার ডেটা নিয়ে কাজ করছি, যার মধ্যে কয়েকটি আনুমানিক রিগ্রেশন লাইন থেকে আরও 5 স্ট্যান্ডার্ড বিচ্যুতিতে রয়েছে। আমি একটি লিনিয়ার রিগ্রেশন কৌশল খুঁজছি যা এই পয়েন্টগুলির প্রভাবকে হ্রাস করে।

এতক্ষণ আমি যা করেছি তা হ'ল সমস্ত ডেটা সহ রিগ্রেশন লাইনটি অনুমান করা, তারপরে খুব বড় স্কোয়ার অবশিষ্টাংশ (শীর্ষস্থানীয় 10% বলুন) দিয়ে ডেটা পয়েন্টটি বাতিল করুন এবং সেই পয়েন্টগুলি ছাড়াই রিগ্রেশনটির পুনরাবৃত্তি করুন।

সাহিত্যে অনেকগুলি সম্ভাব্য পন্থা রয়েছে: ন্যূনতম ছাঁটা স্কোয়ার, কোয়ান্টাইল রিগ্রেশন, এম-এসিপেক্টর ইত্যাদি I সত্যিই আমি জানি না যে আমার কোন পদ্ধতির চেষ্টা করা উচিত, তাই আমি পরামর্শগুলি সন্ধান করছি। আমার জন্য গুরুত্বপূর্ণটি হল চয়ন করা পদ্ধতিটি দ্রুত হওয়া উচিত কারণ একটি অনুকূলকরণের রুটিনের প্রতিটি ধাপে শক্তিশালী রিগ্রেশন গণনা করা হবে। অনেক ধন্যবাদ!


2
একটি পদ্ধতি যে আপনার উল্লেখ না Student- ব্যবহার টি স্বাধীনতার অজানা মাত্রার ত্রুটি। তবে এটি আপনার প্রয়োজন হিসাবে দ্রুত হতে পারে না।

@ প্রবিলিনেটর: (বহিরাগতদের এমন একটি কনফিগারেশন কল্পনা করা সহজ যেখানে) এটি কাজ করবে না।
ব্যবহারকারী 60

@ ব্যবহারকারী 603 এটি যে কোনও পদ্ধতির ক্ষেত্রে সত্য, কোনও প্যানাসিয়া নেই;)। আমি কেবল অন্য পদ্ধতিটি নির্দেশ করছিলাম। আপনার উত্তর +1।

3
@ প্রলিটিনেটর: আমি একমত যে কিছু পদ্ধতি দূষণের জন্য সমস্ত পদ্ধতি ব্যর্থ হবে । এবং এই প্রসঙ্গে 'ব্যর্থতা' পরিমাণগতভাবে এবং অভিজ্ঞতার সাথে সংজ্ঞায়িত করা যেতে পারে। তবে ধারণাটি এখনও সেই পদ্ধতির পক্ষে যায় যা কেবলমাত্র দূষণের উচ্চ হারে ব্যর্থ হবে।
ব্যবহারকারীর 603

4
যেহেতু এটি একটি অপ্টিমাইজেশন রুটিনের সময় বারবার করা হচ্ছে, তাই সম্ভবত রিগ্রেশনের ডেটাগুলি (শেষ পর্যন্ত) ধীরে ধীরে পরিবর্তিত হচ্ছে। এটি আপনার পরিস্থিতির সাথে অভিযোজিত একটি অ্যালগরিদমকে পরামর্শ দেয়: শক্তিশালী রিগ্রেশনের কিছু ফর্ম দিয়ে শুরু করুন, তবে অপ্টিমাইজেশনের সময় ছোট পদক্ষেপ নেওয়ার পরে কেবল পরবর্তী ধাপে ধরে নিন যে কোনও পূর্ববর্তী আউটরিয়ার একজন বহিরাগত থাকবে। ডেটাতে ওএলএস ব্যবহার করুন, তারপরে অনুমানযোগ্য আউটলিয়াররা এখনও বহির্মুখী কিনা তা পরীক্ষা করে দেখুন। যদি তা না হয় তবে শক্তিশালী পদ্ধতিটি পুনরায় আরম্ভ করুন, তবে যদি তা হয় - যা প্রায়শই ঘটতে পারে - আপনি প্রচুর গণনা সংরক্ষণ করতে পারবেন।
whuber

উত্তর:


55

যদি আপনার ডেটাতে একটি একক আউটলেটর থাকে তবে আপনার প্রস্তাবিত পদ্ধতির (যদিও এটি পুনরাবৃত্তি না করে) ব্যবহার করে এটি নির্ভরযোগ্যভাবে পাওয়া যাবে। এটি সম্পর্কে একটি আনুষ্ঠানিক পন্থা

কুক, আর ডেনিস (1979) লিনিয়ার রিগ্রেশন-এর প্রভাবশালী পর্যবেক্ষণআমেরিকান স্ট্যাটিস্টিকাল অ্যাসোসিয়েশনের জার্নাল (আমেরিকান স্ট্যাটিস্টিকাল অ্যাসোসিয়েশন) 74 (365): 169–174।

একাধিক আউটলেটার সন্ধানের জন্য, বহু বছর ধরে, নেতৃস্থানীয় পদ্ধতিটি তথাকথিত টেস্টেমেশন পরিবার ছিল। এই estimators একটি বরং বিস্তৃত পরিবারের হুবার এর রয়েছে এম রিগ্রেশন এর মূল্নির্ধারক, Koenker এর হল L1 রিগ্রেশন সেইসাথে পদ্ধতির আপনার প্রশ্নের তার মন্তব্যে Procastinator দ্বারা প্রস্তাবিত। এম উত্তল সঙ্গে estimators ρ ফাংশন সুবিধা তারা একটি নিয়মিত রিগ্রেশন প্রাক্কলন হিসাবে একই সংখ্যাসূচক জটিলতা সম্পর্কে আছে আছে। বড় অসুবিধাটি হ'ল তারা কেবলমাত্র নির্ভরযোগ্যভাবে বিদেশী খুঁজে পেতে পারে যদি:এমএমএমρ

  • আপনার নমুনার দূষণের হার 1 এর চেয়ে কম যেখানেpডিজাইন ভেরিয়েবলের সংখ্যা,11+ +পিপি
  • বা যদি বহিরাগতরা ডিজাইনের জায়গার বাইরে না চলে থাকে (এলিস এবং মরজেন্টেলার (1992))।

আপনি ( ) প্যাকেজে ( l 1 ) অনুমানের প্রাক্কলনের ভাল বাস্তবায়ন পেতে পারেন । এম1robustbasequantregR

যদি আপনার ডেটাতে n এর বেশি থাকেআউটলেট সম্ভাব্যভাবে ডিজাইনের জায়গার সাথেও অন্তর্নিহিত হয়, তারপরে, তাদেরকে একটি সংযুক্ত সমস্যা সমাধানের সমান পরিমাণ (সমানভাবেপুনরায় প্রতারণামূলক / নন-উত্তলρফাংশনসহএকটিএমঅনুমানকেরসমাধান)। এনপি+ +1এমρ

গত 20 বছরে (এবং বিশেষত শেষ 10) দ্রুত এবং নির্ভরযোগ্য আউটলেট সনাক্তকরণ অ্যালগরিদমগুলির একটি বিশাল দেহটি এই সংযুক্তি সমস্যাটি প্রায় সমাধানের জন্য ডিজাইন করা হয়েছে। এগুলি এখন সর্বাধিক জনপ্রিয় পরিসংখ্যান প্যাকেজগুলিতে প্রয়োগ করা হয় (আর, মতলব, এসএএস, স্টাটা, ...)।

তবুও, এই পদ্ধতির সাথে বিদেশী খুঁজে বের করার সংখ্যাগত জটিলতা সাধারণত অর্ডার । বেশিরভাগ অ্যালগরিদম মধ্য কৈশোরের পি এর মানগুলির জন্য অনুশীলনে ব্যবহার করা যেতে পারে । সাধারণত এই অ্যালগরিদমগুলি n (পর্যবেক্ষণের সংখ্যা) এ লিনিয়ার হয় তাই পর্যবেক্ষণের সংখ্যাটি কোনও সমস্যা নয়। একটি বড় সুবিধা হ'ল এই আলগোরিদিমগুলির বেশিরভাগটি বিব্রতকরভাবে সমান্তরাল। অতি সম্প্রতি, উচ্চ মাত্রিক ডেটার জন্য বিশেষভাবে ডিজাইন করা অনেকগুলি পদ্ধতির প্রস্তাব দেওয়া হয়েছে।হে(2পি)পিএন

আপনি যদি আপনার প্রশ্নে নির্দিষ্ট করেন নি , তবে আমি পি < 20 এর জন্য কয়েকটি রেফারেন্স তালিকা করব । এখানে কিছু কাগজপত্র রয়েছে যা পর্যালোচনা নিবন্ধগুলির এই সিরিজটিতে আরও বিশদে এটি ব্যাখ্যা করে:পিপি<20

রুসিউউ, পিজে এবং ভ্যান জোমেরেন বিসি (1990)। মাল্টিভিয়ারেট আউটলিয়ার এবং লিভারেজ পয়েন্টগুলি আনমাস্কিংআমেরিকান স্ট্যাটিস্টিকাল অ্যাসোসিয়েশন জার্নাল , খণ্ড। 85, নং 411, পৃষ্ঠা 633-639।

রুশিউ, পিজে এবং ভ্যান ড্রিসেন, কে। (2006)। বড় ডেটা সেটগুলির জন্য কম্পিউটিং এলটিএস রিগ্রেশনডেটা মাইনিং এবং নলেজ আবিষ্কারের সংরক্ষণাগার খণ্ড 12 ইস্যু 1, পৃষ্ঠা 29 - 45।

হুবার্ট, এম।, রুসিউ, পিজে এবং ভ্যান অ্যালস্ট, এস। (২০০৮)। উচ্চ-ব্রেকডাউন শক্তসমর্থক পদ্ধতিগুলিপরিসংখ্যান বিজ্ঞান , খণ্ড। 23, নং 1, 92–119

এলিস এসপি এবং মরজেন্টেলার এস। (1992)। এল 1 রিগ্রেশন এ লিভারেজ এবং ব্রেকডাউন। আমেরিকান স্ট্যাটিস্টিকাল অ্যাসোসিয়েশন জার্নাল , খণ্ড। 87, নং 417, পৃষ্ঠা 143-148

বহিরাগত সনাক্তকরণের সমস্যা সম্পর্কিত সাম্প্রতিক একটি রেফারেন্স বইটি হ'ল:

মারোনা আরএ, মার্টিন আরডি এবং ইয়োহাই ভিজে (2006)। দৃust় পরিসংখ্যান: তত্ত্ব এবং পদ্ধতি । উইলি, নিউ ইয়র্ক

প্যাকেজটিতে (অন্যান্যগুলির মধ্যে) এই (এবং এগুলির আরও অনেকগুলি প্রকারের) পদ্ধতিগুলি প্রয়োগ করা হয় ।robustbase R


4
এখন যে দুর্দান্ত উত্তর!
পিটার ফ্লুম - মনিকা পুনরায়

অনেক অনেক ধন্যবাদ 603! আমার সমস্যার ক্ষেত্রে এবং ডিজাইনের জায়গাতে কোনও বিদেশী নেই (কারণ ব্যাখ্যাযোগ্য ভেরিয়েবলগুলি একটি সাধারণ বন্টন থেকে অনুকরণ করা হয়)। তাহলে আমি কি এম-এস্টিমেটার দিয়ে চেষ্টা করতে পারি? যাইহোক আপনি আমার দেওয়া অন্যান্য সমস্ত উল্লেখগুলি খুব কার্যকর হবে একবার আমি আমার অ্যালগরিদমের আরও জটিল অ্যাপ্লিকেশনগুলিতে ( পি >> 10) কাজ শুরু করব। p<10পি
মাত্তেও ফ্যাসিওলো

2
@ জুগুরথা: সেক্ষেত্রে (ডিজাইনের জায়গার কোনও ফলাফল নেই এবং ) এম অনুমানকারীরা প্রকৃতপক্ষে পছন্দসই সমাধান। রোবস্টবেস প্যাকেজে 'lmrob..M.. Fit' ফাংশন, MASS প্যাকেজে 'rlm' ফাংশন বা কোয়ান্ট্র্যাগ প্যাকেজে l1 রিগ্রেশন বিবেচনা করুন। আমি এখনও কিছু ক্ষেত্রে এলটিএস-রিগ্রেশন চালাব এবং ফলাফলগুলির সাথে তুলনা করব, যেহেতু তারা আরও বেশি বিদেশী প্রতিরোধ করতে পারে। দূষণের হার আপনার সন্দেহের চেয়ে বেশি নয় কিনা তা যাচাই করেই আমি এটি করব। পি<10এম
ব্যবহারকারী 60

1
"একটি বড় সুবিধা হ'ল এই আলগোরিদিমগুলির বেশিরভাগটি বিব্রতকরভাবে সমান্তরাল" " আমি শব্দটি পছন্দ করি। ;)
মতিন উলহাক

1
@ মাটেন, ভাল, এটি সর্বোপরি শিল্পের শব্দটি । :)
জেএম

19

সিম্পল রিগ্রেশন (সিঙ্গল এক্স) এর জন্য, থাই-সেন লাইনের পক্ষে ওয়াই-আউটলিয়ারদের দৃust়তার দিক থেকে এবং প্রভাবশালী পয়েন্টগুলির পাশাপাশি goodালের জন্য এলএসের তুলনায় সাধারণত ভাল দক্ষতা (সাধারণভাবে) কিছু বলা যেতে পারে। Opeালের জন্য ব্রেকডাউন পয়েন্ট প্রায় 30%; যতক্ষণ না ইন্টারসেপ্ট (লোকেরা বিভিন্ন ধরণের সম্ভাব্য ইন্টারসেপ্ট ব্যবহার করেছেন) এর কোনও কম ভাঙ্গন নেই, পুরো পদ্ধতিটি দূষণের বিশাল আকারের ভগ্নাংশের সাথে খুব ভালভাবে ক্যাপ করে।

(এন2)হে(এন2)হে(এন)হে(এনলগ ইন করুনএন)

সম্পাদনা: ব্যবহারকারী 603 এল 1 রিগ্রেশন এর চেয়ে থিল রিগ্রেশনটির সুবিধা চেয়েছিল। উত্তরটি আমি উল্লেখ করেছি অন্যটি - প্রভাবশালী পয়েন্ট:

Theil_vs_L1

এল1rqquantregএল1


nlognl1

1
@ user603 সম্পাদনা দেখুন।
গ্লেন_বি

(+1) সম্পাদনার জন্য ধন্যবাদ। এই বৈশিষ্ট্যটি উল্লেখ করা গুরুত্বপূর্ণ।
ব্যবহারকারী 60

1
আর কোনও এমএম-অনুমানের কী কী সুবিধা রয়েছে, যেমন আর প্যাকেজ রোবস্টবেস থেকে lmrob () বা এমন কি package প্যাকেজ এমএএসএস থেকে 'বেস আর'} আরএলএম (*, ... পদ্ধতি = "এমএম") ছাড়া আর কিছু ইনস্টল করার দরকার নেই? এগুলির সম্পূর্ণ ব্রেকডাউন পয়েন্ট রয়েছে (~ 50%) এবং সম্ভবত এটি স্বাভাবিকভাবে আরও কার্যকর।
মার্টিন মাচলর

1
@ মার্টিনম্যাচলার দেখে মনে হচ্ছে আপনি সেখানে যে দাবি করেননি তার বিরুদ্ধে আপনি বিতর্ক করছেন। যদি আপনি এমন কোনও উত্তর দিতে চান যা অন্যান্য উচ্চ-ব্রেকডাউন শক্তিশালী অনুমানকারীগুলির সাথে তুলনা করে, বিশেষত ওপি স্তরের কারও পক্ষে বুঝতে মোটামুটি সহজ, আমি এটি পড়ার অপেক্ষায় থাকি।
Glen_b

12

আপনি কি আরএএনএসএসি (উইকিপিডিয়া) দেখেছেন ?

প্রচুর পরিমাণে বিদেশী ও শোরগোল থাকা সত্ত্বেও এটি যুক্তিসঙ্গত রৈখিক মডেল গণনাতে ভাল হওয়া উচিত , কারণ এটি এই ধারণার উপর ভিত্তি করে তৈরি করা হয় যে কেবলমাত্র তথ্যের অংশটি প্রক্রিয়াটির অন্তর্ভুক্ত থাকবে।


হ্যাঁ কিন্তু একটি সহজ পুনরায় তৌল পদক্ষেপ যোগ করার সময় একটি মূল্নির্ধারক (LTS) যে সমানভাবে শক্তসমর্থ এবং উৎপাদ তাই আরো অনেক কিছু স্থিতিশীল এবং পরিসংখ্যানগত দক্ষ। কেন করবেন না?
ব্যবহারকারী 60

1

l1

y=Ax+e
e
yAxe22+λe1
ওয়াট=আমিএকটি(Wআমি)
Y-একজনএক্স-22+ +λওয়াট1

আরও তথ্য এখানে পাওয়া যাবে: http://statweb.stanford.edu/~candes/paper/GrossErferencesSmallErferences.pdf


আপনি কি চেষ্টা করেছেন Glen_b উদাহরণে (যদি আপনি যেখানে তিনি রেখেছিলেন সেখানে দ্বিতীয় আউটলেট যোগ করেন) বা আমি পোস্ট করেছি?
ব্যবহারকারী 60

@ ইউজার 603 না, আমি কেবল ক্যামেরা চিত্রগুলি থেকে 3 ডি মডেলিংয়ের জন্য আরও ব্যবহারিক ক্ষেত্রে এটি প্রয়োগ করেছি। সেখানে এটি অনেক সাহায্য করেছিল। যাইহোক, একটি পাঠ শিখেছি হ'ল: যদি আপনার বহিরাগতদের অপসারণের একাধিক সম্ভাবনা থাকে তবে সেগুলি ব্যবহার করুন।
mojovski
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.