লিনিয়ার রিগ্রেশন বিশ্লেষণে কীভাবে বহিরাগতদের মোকাবেলা করা উচিত?


73

প্রায়শই একটি পরিসংখ্যান বিশ্লেষককে সেট ডেটাসেট হস্তান্তরিত করা হয় এবং লিনিয়ার রিগ্রেশন জাতীয় প্রযুক্তি ব্যবহার করে একটি মডেল ফিট করতে বলা হয়। খুব ঘন ঘন ডেটাসেটের সাথে "ওহ হ্যাঁ, আমরা এর মধ্যে কিছু ডেটা পয়েন্ট সংগ্রহ করতে ভুল করেছি - আপনি যা করতে পারেন তা করুন" এর অনুরূপ একটি দাবি অস্বীকার করার সাথে থাকে।

এই পরিস্থিতিটি রিগ্রেশন ফিটগুলির দিকে পরিচালিত করে যা বহিরাগতদের উপস্থিতি দ্বারা ভীষণভাবে প্রভাবিত হয় যা ভুল তথ্য হতে পারে be নিম্নলিখিত দেওয়া:

  • বৈজ্ঞানিক ও নৈতিক উভয় দিক থেকেই এটি বিপজ্জনক, কারণ এটি "ফিটকে খারাপ দেখাচ্ছে" ব্যতীত অন্য কোনও কারণে ডেটা ফেলে দেওয়া।

  • বাস্তব জীবনে, যারা তথ্য সংগ্রহ করেছেন তারা প্রায়শই "এই ডেটা সেটটি তৈরি করার সময়, আপনি কোন পয়েন্টটি ঠিক গোলমাল করেছেন?" এর মতো প্রশ্নের উত্তর দিতে পাওয়া যায় না?

লিনিয়ার রিগ্রেশন বিশ্লেষণে বহিরাগতদের বাদ দেওয়ার জন্য কোন পরিসংখ্যানগত পরীক্ষা বা থাম্বের নিয়মগুলি ভিত্তি হিসাবে ব্যবহার করা যেতে পারে?

মাল্টিলাইনার রিগ্রেশন জন্য কোন বিশেষ বিবেচনা আছে?


উত্তর:


33

আউটলিয়ারদের বাদ দেওয়ার পরিবর্তে, আপনি রিগ্রেশনের একটি শক্ত পদ্ধতি ব্যবহার করতে পারেন। rlm()আরে , উদাহরণস্বরূপ, ম্যাস প্যাকেজ থেকে ফাংশনটি ফাংশনের পরিবর্তে ব্যবহার করা যেতে পারে lm()। অনুমানের পদ্ধতিটি কমবেশি বিদেশীদের কাছে শক্তিশালী হতে পারে।


যদি rlm () ফাংশনটি ব্যবহার করা হয়, আমি দেখছি সহগ এবং তাদের টি-পরীক্ষা উত্পাদিত হয়েছে। তবে আমি কীভাবে এফ-টেস্ট, আর-স্কোয়ারের মানগুলি পেতে পারি? আমি মনে করি আমি সঠিক হলে এই 'এফ-টেস্ট এবং আর বর্গ মানগুলি সহজ' এলএম 'সংক্ষিপ্ত ফলাফলগুলি থেকে আনতে পারি না I
এরিক

1
শক্তিশালী প্রতিরোধের জন্য, এফ পরীক্ষার পিছনে অনুমানগুলি আর সন্তুষ্ট হয় না এবং আর ^ 2 বিভিন্ন উপায়ে সংজ্ঞায়িত করা যায় যা আর সমান নয়। স্টাটার জন্য এই বিষয়ে কিছু আলোচনার জন্য stats.idre.ucla.edu/stata/faq/… দেখুন ।
রব হ্যান্ডম্যান


তবে আমি sfsmisc প্যাকেজ থেকে f.robfest নামক কমান্ডটি পাই যা এফ-পরীক্ষার ফলাফল দেয়। আমি কি এই ফলাফলটি আরএলএম-এর জন্য চ-পরীক্ষার পরিসংখ্যান সংজ্ঞায়িত করতে ব্যবহার করতে পারি? এছাড়াও, আমি আর বর্গের গাণিতিক সূত্রে কেবল 1 - যোগফল (অবশিষ্টগুলি (rlm (y ~ x)) ^ 2) / যোগফল ((y- গড় (y)) ^ 2) এর সাথে মানগুলি ইনপুট করে আর বর্গক্ষেত্রটি পেয়েছি বলে মনে হচ্ছে । টি-টেস্ট মানগুলির সহগের তাত্পর্য পরীক্ষা করার জন্য, আমি সারাংশ (rlm (y ~ x)) থেকে টি-পরীক্ষার মানগুলি পাই যা আমি 95% আত্মবিশ্বাসের স্তর বা তার থেকে টি-মানগুলির সাথে তুলনা করি। আমি কি এই পদ্ধতিগুলি ব্যবহার করতে পারি?
এরিক

22

কখনও কখনও আউটলিয়াররা খারাপ ডেটা থাকে এবং টাইপসের মতো এগুলিও বাদ দেওয়া উচিত। কখনও কখনও এগুলি ওয়েইন গ্রেটজকি বা মাইকেল জর্ডান, এবং রাখা উচিত।

আউটলেট সনাক্তকরণ পদ্ধতিগুলির মধ্যে রয়েছে:

ইউনিফেরিয়েট -> বক্সপ্লট। আন্তঃ কোয়ার্টাইল রেঞ্জের 1.5 গুনের বাইরে একটি আউটলেট।

আত্মবিশ্বাসের উপবৃত্ত সহ বিভাজন -> স্ক্যাটারপ্ল্লট। এর বাইরে বলুন, 95% আত্মবিশ্বাসের উপবৃত্তি একটি আউটলেটর।

মাল্টিভারিয়েট -> মহালানোবিস ডি 2 দূরত্ব

এই পর্যবেক্ষণগুলিকে বিদেশী হিসাবে চিহ্নিত করুন।

কোনও সিস্টেমেটিক নিদর্শন আছে কিনা তা দেখার জন্য একটি লজিস্টিক রিগ্রেশন (ওয়াই = আইসউটিলারে) চালান।

আপনি যে প্রদর্শন করতে পারেন সেগুলি সরান তারা কোনও উপ-জনগোষ্ঠীর প্রতিনিধি নয়।


এবং যদি আপনার এখনও আউটলিয়ার থাকে তবে লিনিয়ারের চেয়ে আলাদা মডেলটি ব্যবহার করার বিষয়টি বিবেচনা করুন। উদাহরণস্বরূপ, যদি আপনি আচরণের মতো পাওয়ার-আইন সহ কোনও মডেল ব্যবহার করেন তবে মাইকেল জর্ডান আর আউটরিয়ার নন (মডেলগুলি তাকে সামঞ্জস্য করার যোগ্যতার ক্ষেত্রে)।
ড্রেভিকো

1
এখানে যা বলা হয় তার বেশিরভাগের সাথে একমত হন, তবে আমি অতিরিক্ত সতর্কতা যোগ করতে চাই যে " 1.5 কোটির বাইরে আন্ত-চৌম্বকীয় পরিসীমা একটি আউটলার " একটি সম্মেলন , কোনও তাত্ত্বিক ভিত্তি সহ কোনও নিয়ম নয়। ডেটা পয়েন্টগুলি বাদ দিয়ে এটি ন্যায়সঙ্গত হিসাবে ব্যবহার করা উচিত নয়।
এমকেটি

20

আমি মনে করি কেবলমাত্র বিদেশিদের বাদ দেওয়ার জন্য কিছু বলার আছে। একটি রিগ্রেশন লাইনটি ডেটা সংক্ষিপ্ত করে রাখার কথা। লিভারেজের কারণে আপনার এমন পরিস্থিতি হতে পারে যেখানে আপনার ডেটা পয়েন্টের 1% 50% দ্বারা opeালকে প্রভাবিত করে।

এটি কেবল নৈতিক ও বৈজ্ঞানিক দৃষ্টিকোণ থেকে বিপজ্জনক যদি আপনি কাউকে না বলে থাকেন যে আপনি বিদেশীদের বাদ দিয়েছেন। যতক্ষণ আপনি এগুলিকে নির্দেশ করেছেন ততক্ষণ আপনি বলতে পারেন:

"এই রিগ্রেশন লাইন বেশিরভাগ ডেটার জন্য বেশ ভাল ফিট করে।


1
"আরে, এটি একটি উন্মাদ জগত, কোনও সিস্টেমই নিখুঁত নয়" +1 আমার বন্ধুর জন্য! :)
বারটেকটার্টানাস

1
অন্য মডেল যদিও বিবেচনা করবেন না। বিশ্ব যদি সরানো "আউটলিয়ার" পূর্ণ হয় যা সত্য তথ্য ছিল, যার ফলে সত্যই গুরুত্বপূর্ণ কিছু ভবিষ্যদ্বাণী করতে ব্যর্থ হয়। অনেক প্রাকৃতিক প্রক্রিয়াগুলির মধ্যে বিরল চরম ঘটনাগুলির সাথে আচরণের মতো পাওয়ার-আইন রয়েছে। লিনিয়ার মডেলগুলি এই জাতীয় ডেটা ফিট করে (যদিও খুব ভাল না হয়) তবে এটি ব্যবহার করে এবং "আউটলিয়ার্স" মুছে ফেলার অর্থ সেই চরম ঘটনাগুলি হারিয়ে যাওয়া, যা সম্পর্কে সাধারণত জানা গুরুত্বপূর্ণ!
ড্রেভিকো

10

Sharpie,

আপনার প্রশ্নকে আক্ষরিক অর্থে গ্রহণ করে আমি যুক্তি দেব যে কোনও পরিসংখ্যানগত পরীক্ষা নেই বা থাম্বের নিয়মগুলি লিনিয়ার রিগ্রেশন বিশ্লেষণে বহিরাগতদের বাদ দেওয়ার জন্য ভিত্তি হিসাবে ব্যবহার করা যেতে পারে (প্রদত্ত পর্যবেক্ষণটি আউটরিয়ার কিনা তা নির্ধারণের বিপরীতে)। এটি অবশ্যই বিষয়-অঞ্চল জ্ঞান থেকে আসতে হবে।

আমি মনে করি প্রারম্ভিক সর্বোত্তম উপায় হ'ল জিজ্ঞাসা করা যে বিদেশীরা এমনকি অর্থবোধ করে কিনা, বিশেষত আপনি সংগ্রহ করেছেন এমন অন্যান্য ভেরিয়েবলগুলি দেওয়া হয়েছে। উদাহরণস্বরূপ, আপনার পড়াশোনায় 600 পাউন্ড মহিলা থাকা কি সত্যই যুক্তিসঙ্গত, যা বিভিন্ন স্পোর্টস ইনজুরি ক্লিনিক থেকে নিয়োগ পেয়েছে? বা, আশ্চর্যজনক নয় যে কোনও ব্যক্তি 55 বছর বা পেশাদার অভিজ্ঞতার তালিকা করছেন যখন তারা কেবল 60 বছর বয়সী? এবং তাই এগিয়ে। আশা করি, তারপরে আপনি এগুলি ফেলে দেওয়ার জন্য বা ডেটা সংকলকগুলি আপনার জন্য রেকর্ডগুলি ডাবল-চেক করার জন্য যুক্তিসঙ্গত ভিত্তি রাখবেন basis

আমি যথাক্রমে রব এবং ক্রিসের পরামর্শ অনুসারে শক্তিশালী রিগ্রেশন পদ্ধতি এবং বাদ পড়া পর্যবেক্ষণগুলির স্বচ্ছ প্রতিবেদনেরও পরামর্শ দেব।

আশা করি এই সাহায্য করবে, ব্রেন্ডেন


6

আমি ননলাইনার রিগ্রেশনে আউটলিয়ারদের সনাক্ত করার জন্য একটি পদ্ধতি প্রকাশ করেছি এবং লিনিয়ার মডেলটি ফিট করার সময় এটি ব্যবহার করা যেতে পারে।

এইচজে মোটুলস্কি এবং আরই ব্রাউন। ননলাইনার রিগ্রেশন সহ ডেটা ফিটিং করার সময় আউটলিয়ারগুলি সনাক্ত করা - শক্তিশালী ননলাইনার রিগ্রেশন এবং ভুয়া আবিষ্কারের হারের ভিত্তিতে একটি নতুন পদ্ধতি । বিএমসি বায়োইনফরম্যাটিকস 2006, 7: 123


5

দুটি পরিসংখ্যানগত দূরত্বের ব্যবস্থা রয়েছে যা বিশেষত আউটলিয়ারগুলি সনাক্ত করার জন্য প্রস্তুত করা হয় এবং তারপরে বিবেচনা করা হয় যে এই জাতীয় বহিরাগতদের আপনার লিনিয়ার রিগ্রেশন থেকে অপসারণ করা উচিত।

প্রথমটি হ'ল কুকের দূরত্ব। আপনি উইকিপিডিয়া: http://en.wikedia.org/wiki/Cook%27s_distance এ এটির বেশ ভাল ব্যাখ্যা পেতে পারেন ।

কুকের দূরত্ব যত বেশি তত বেশি প্রভাবশালী হয় (পর্যালোচনা সহগের উপর প্রভাব) পর্যবেক্ষণটি। পর্যবেক্ষণটি অপসারণের জন্য আদর্শ কাট অফ পয়েন্টটি হ'ল একটি কুকের দূরত্ব = 4 / এন (এন নমুনার আকার)।

দ্বিতীয়টি হ'ল ডিএফএফআইটিএস যা উইকিপিডিয়া: http://en.wikedia.org/wiki/DFFITS দ্বারাও ভালভাবে আচ্ছাদিত । একটি পর্যবেক্ষণ অপসারণ বিবেচনা করার জন্য আদর্শ কাট অফ পয়েন্ট হ'ল একটি ডিএফএফআইটিএস মান 2 গুণ স্কয়ার্ট (কে / এন) যেখানে কে ভেরিয়েবলের সংখ্যা এবং এন নমুনার আকার।

উভয় পদক্ষেপই আপনাকে অনুরূপ ফলাফল দেয় যা অনুরূপ পর্যবেক্ষণ নির্বাচনের দিকে পরিচালিত করে।


3

আবর্জনা আবর্জনা....

লিনিয়ার রিগ্রেশনটির পুরো সুবিধা পাওয়ার ক্ষেত্রে অন্তর্নিহিত হ'ল শব্দটি একটি সাধারণ বিতরণ অনুসরণ করে। আদর্শভাবে আপনার বেশিরভাগ ডেটা এবং কিছুটা শব্দ আছে .... বেশিরভাগ শব্দ এবং সামান্য ডেটা নয়। আপনি অবশিষ্টাংশগুলি দেখে লিনিয়ার ফিটের পরে অবশিষ্টগুলির স্বাভাবিকতার জন্য পরীক্ষা করতে পারেন। সুস্পষ্ট, সুস্পষ্ট ত্রুটির জন্য লিনিয়ার ফিট হওয়ার আগে আপনি ইনপুট ডেটা ফিল্টারও করতে পারেন।

আবর্জনাম ইনপুট ডেটাতে এমন কিছু ধরণের শব্দ রয়েছে যা সাধারণত কোনও সাধারণ বিতরণে ফিট করে না:

  • হস্ত-প্রবেশ করা ডেটার সাথে অংকগুলি অনুপস্থিত বা যুক্ত করা হয়েছে (10 বা ততোধিক উপাদানগুলির দ্বারা বন্ধ)
  • ভুল বা ভুল রূপান্তরিত ইউনিট (গ্রাম বনাম কিলো বনাম পাউন্ড; মিটার, ফুট, মাইল, কিলোমিটার) সম্ভবত একাধিক ডেটা সেট মার্জ করার মাধ্যমে (দ্রষ্টব্য: মার্স অরবিটারকে এভাবে হারিয়ে গেছে বলে মনে করা হয়েছিল, তাই এমনকি নাসার রকেট বিজ্ঞানীরাও এটি তৈরি করতে পারেন ভুল)
  • "প্রযোজ্য নয়" বা "কলামটি অনুপলব্ধ" এর মতো অ-সংখ্যাসূচক কিছু বোঝাতে 0, -1, -99999 বা 99999 এর মতো কোড ব্যবহার করুন এবং বৈধ ডেটা সহ এটি কেবল একটি লিনিয়ার মডেলটিতে ফেলে দেওয়া

প্রতিটি কলামের জন্য "বৈধ ডেটা" কিসের জন্য একটি বিশদ রচনা আপনাকে অবৈধ ডেটা ট্যাগ করতে সহায়তা করতে পারে। উদাহরণস্বরূপ, কোনও ব্যক্তির উচ্চতা সেমিতে হওয়া উচিত, বলুন, 100-300 সেমি। আপনি যদি উচ্চতার জন্য 1.8 খুঁজে পান তবে টাইপো টাইপ হয়ে যায় এবং আপনি এটি অনুমান করতে পেরেছিলেন 1.8 মিটার এবং এটি 180 এ পরিবর্তন করতে পারেন - আমি বলব যে এটি সাধারণত ছুঁড়ে ফেলা নিরাপদ এবং যতটা সম্ভব ফিল্টারিংয়ের নথিভুক্ত করা ভাল।


1

লিনিয়ার রিগ্রেশন এর জন্য আপনি বারবার মিডিয়ান স্ট্রেইট লাইনের ফিট ব্যবহার করতে পারেন।


0

বর্জনের ভিত্তি হিসাবে পরিসংখ্যানগত পরীক্ষাগুলি ব্যবহার করতে হবে: - মানকৃত অবশিষ্টাংশ - উত্তোলনের পরিসংখ্যান - কুকের দূরত্ব, যা উপরের দুটিটির সংমিশ্রণ।

অভিজ্ঞতা থেকে, বাদ দেওয়া ভুল ডেটা প্রবেশের ক্ষেত্রে সীমাবদ্ধ হওয়া উচিত। লিনিয়ার রিগ্রেশন মডেলের আউটলিয়ারদের ওজন বাড়ানো একটি খুব ভাল আপোস পদ্ধতি। আর-এ এর অ্যাপ্লিকেশন রব অফার করে। একটি দুর্দান্ত উদাহরণ এখানে: http://www.ats.ucla.edu/stat/r/dae/rreg.htm

যদি বাদ দেওয়ার দরকার হয় তবে 'থাম্বের একটি নিয়ম' Dfbeta পরিসংখ্যানের সাথে সম্পর্কিত (আউটরিয়ারটি মুছে ফেলা হলে অনুমানের পরিবর্তনের ব্যবস্থা করে) যেমন DfBeta পরিসংখ্যানের পরম মান যদি 2 / sqrt (n) অতিক্রম করে তবে তা অপসারণকে বোঝায় বাহ্যিক

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.