রিগ্রেশন মডেলটি উন্নত করতে মিউন অ্যাবসুলিউট ত্রুটির বক্সপ্লটের ভিত্তিতে আউটলিয়ারদের ফেলে দেওয়া কি প্রতারণা করছে?


15

আপনি নীচের বক্সপ্লট চিত্রটিতে দেখতে পারেন এমন চারটি পদ্ধতির সাথে আমার একটি পূর্বাভাস মডেল পরীক্ষা করা আছে। মডেলটি যে গুণাবলীটি পূর্বাভাস দেয় তা 0-8 এর মধ্যে থাকে।

আপনি খেয়াল করতে পারেন যে একটি পদ্ধতি রয়েছে যার উপরের দিকের বাইরের একজন এবং তিনটি নিম্ন-আবদ্ধ আউটলিয়ার সমস্ত পদ্ধতি দ্বারা নির্দেশিত। আমি ভাবছি যদি ডেটা থেকে এই দৃষ্টান্তগুলি সরিয়ে ফেলা উপযুক্ত হয়? বা ভবিষ্যদ্বাণী মডেলটি উন্নত করার জন্য এটি কি এক ধরণের প্রতারণা?

এখানে চিত্র বর্ণনা লিখুন


1
(1) আমি তিনটি নয়, চারটি পদ্ধতির ফলাফল দেখতে পাচ্ছি। (২) ভবিষ্যদ্বাণী ক্ষমতাগুলির প্রমাণগুলি সরিয়ে কীভাবে পদ্ধতিগুলি উন্নত করতে পারে?
শুক্র

@ হুইবার (1) স্থির হয়েছে। (২) এর জন্য, সুতরাং আপনার অর্থ দাঁড়ায় যে খুব দোষের সাথে সঠিকভাবে পূর্বাভাস দেওয়া হয়েছে, সামগ্রিকভাবে আরও ভাল ভবিষ্যদ্বাণীপূর্ণ পারফরম্যান্সের দিকে পরিচালিত করবে না (
এটিই

7
কোনও কারণেই পর্যবেক্ষণ অপসারণ (4 টি কমপক্ষে ভাল ফিটিং পয়েন্টগুলি বলুন) নিজেই একটি মডেল পছন্দ। আপনি এর পূর্বাভাস কর্মক্ষমতা মূল্যায়ন করা উচিত এই দ্বিতীয় মডেল পছন্দ খুব । মূল বিষয় হ'ল সামগ্রিক পূর্বাভাস পদ্ধতির কর্মক্ষমতা মূল্যায়নের জন্য ব্যবহৃত চূড়ান্ত পরীক্ষার সেটটির অখণ্ডতা রক্ষা করা। আপনার পূর্বাভাসের ডেটা মোছার পরে আপনি মডেলগুলি (লাসো ইত্যাদি) রিফিট করার পরিকল্পনা করছেন কিনা তা আপনার প্রশ্ন থেকে পরিষ্কার নয়।
ব্যবহারকারী 60

2
পার্শ্ববর্তী মন্তব্য হিসাবে, আমি যুক্ত করব যে কোনও সময়ের বিরাট মান হ'ল আউটলিয়ারদের মধ্যে লুকানো থাকে এবং সেগুলি যত্ন সহকারে দেখার জন্য এটি উপযুক্ত।
আতঙ্কিত আতারিয়াহ

@ ডোরআতারিয়া ধন্যবাদ ডর, আমি সম্মত। চরম মামলা মূল্যবান।
রেনাক্রে

উত্তর:


22

এটা প্রায় সবসময় পর্যবেক্ষণ সরানোর জন্য একটি প্রতারণার উন্নত করতে একটি রিগ্রেশন মডেল। আপনার পর্যবেক্ষণগুলি কেবল তখনই বাদ দেওয়া উচিত যখন আপনি সত্যই ভাবেন যে এগুলি প্রকৃতপক্ষে বিদেশী।

উদাহরণস্বরূপ, আপনার স্মার্ট ঘড়ির সাথে সংযুক্ত হার্ট রেট মনিটর থেকে সময় সিরিজ রয়েছে। আপনি যদি সিরিজটি একবার দেখুন, এটি সহজেই দেখতে পাওয়া যায় যে 300 বিপিএসের মতো পাঠাগুলি দ্বারা ভ্রান্ত পর্যবেক্ষণ থাকবে। এগুলি অপসারণ করা উচিত, তবে আপনি মডেলটি (এটির অর্থ যাই হোক না কেন) উন্নত করতে চান তা নয়। এগুলি পড়ার ক্ষেত্রে ত্রুটি যার সাথে আপনার হার্টের হারের কোনও যোগসূত্র নেই।

তথাপি ত্রুটিগুলির পারস্পরিক সম্পর্কের বিষয়টি যদিও সাবধান হওয়া উচিত। আমার উদাহরণে এটি যুক্তিযুক্ত হতে পারে যে হার্ট রেট মনিটর যখন হে ঝাঁপানোর মতো ব্যায়ামের সময় বাস্তুচ্যুত হয় তখন আপনার ত্রুটি রয়েছে। যা এই ত্রুটিগুলি হার্টের হারের সাথে সম্পর্কযুক্ত করে তুলবে। এই ক্ষেত্রে, এই আউটলিয়ারগুলি এবং ত্রুটিগুলি অপসারণের ক্ষেত্রে অবশ্যই যত্ন নেওয়া উচিত, কারণ এগুলি এলোমেলোভাবে নয়

কখন আপনাকে বিদেশী অপসারণ করবেন না তার একটি উদাহরণ তৈরি করব । ধরা যাক আপনি একটি বসন্তের ওজনের চলন পরিমাপ করছেন। ওজনের শক্তির তুলনায় যদি ওজন সামান্য হয় , তবে আপনি খেয়াল করবেন যে হুকের আইন খুব ভালভাবে কাজ করে: যেখানে এফ বল, কে - টেনশন সহগ এবং Δ x হল ওজনের অবস্থান ।

F=kΔx,
FkΔx

Δx

আপডেট আপনার ক্ষেত্রে আমি সেই ডেটা পয়েন্টগুলি টানতে এবং তাদের আরও কাছাকাছি দেখার পরামর্শ দেব। এটি ল্যাব যন্ত্র ব্যর্থতা হতে পারে? বাহ্যিক হস্তক্ষেপ? নমুনা ত্রুটি? প্রভৃতি

এরপরে এই আউটরিয়রদের প্রিন্স আপনি যে উদাহরণটি দিয়েছিলেন তার মতো আপনি মাপুন তার সাথে সম্পর্কযুক্ত হতে পারে কিনা তা চিহ্নিত করার চেষ্টা করুন। যদি পারস্পরিক সম্পর্ক থাকে তবে এটিকে নিয়ে যাওয়ার কোনও সহজ উপায় নেই। যদি কোনও সম্পর্ক নেই তবে আপনি বহিরাগতদের অপসারণ করতে পারেন


2
It is always a cheating to remove outliers to improve a regression model. আপনি কি স্প্লাইন রিগ্রেশনকে প্রতারণা হিসাবে বিবেচনা করছেন ? FWIW, এটা করে [স্থানীয়] রিগ্রেশন মডেল ~ উন্নত করার নিচে- ওজন পর্যবেক্ষণ
user603

1
আমি দ্বিমত পোষণ করব "রিগ্রেশন মডেলটি উন্নত করার জন্য বিদেশীদের অপসারণ করা সর্বদা প্রতারণা" " রিগ্রেশন ডায়াগোনস্টিক্স করার জন্য অনেকগুলি সরঞ্জাম রয়েছে এবং এর লক্ষ্য হ'ল বিদেশী সনাক্তকারীদের "অপসারণ" করে এবং মডেলটিকে রিফিট করে।
হাইটাও ডু

6
@ hxd1011 গ্রুবসের মতো সরঞ্জামগুলি স্বয়ংক্রিয়ভাবে বিদেশী অপসারণ করবেন না। তারা কেবল ইঙ্গিত করে যে কোনও আউটলার থাকতে পারে, তবে আপনি সিদ্ধান্ত নেবেন যে এটি প্রকৃতপক্ষে কোনও আউটরিয়ার কিনা। বহিরাগতদের স্বয়ংক্রিয়ভাবে অপসারণ করে ফিট ডায়াগনস্টিকগুলি উন্নত করা এটি একটি অত্যন্ত বিপজ্জনক পদ্ধতির। আপনাকে কেস কেসে কেস বিশ্লেষণ করতে হবে।
আকসকল

2
ঠিক আছে, আমি এটি পেয়েছি আমার মূল ভাষাটি খুব অনড় ছিল। আমি খোলার বাক্যটি সম্পাদনা করেছি। মন্তব্যকারীদের প্রতিক্রিয়া জানানোর জন্য ধন্যবাদ
আকসকল

1
@ রেণাক্রে, আপনি যদি এটিকে বিদেশী বলে মনে করেন না, তবে পর্যবেক্ষণগুলি সরাবেন না। তবে আপনাকে যা বিবেচনা করতে হবে তা হ'ল বর্গ ত্রুটি ব্যতীত পূর্বাভাসের সদ্ব্যবহারের পরিমাপ। উদাহরণস্বরূপ, যদি এই দৃষ্টান্তগুলি আপনার পক্ষে এত গুরুত্বপূর্ণ না হয় তবে আপনার এগুলি স্কোয়ারে ওজন করার প্রয়োজন নেই এবং পরিবর্তে সম্পূর্ণ বিচ্যুতি ব্যবহার করা উচিত নয় measure প্রতিটি পরিমান পূর্বাভাস ত্রুটিতে ডলারের ক্ষতি হিসাবে পরিমাপের পূর্বাভাস ত্রুটির গুরুত্ব প্রতিফলিত হওয়া উচিত । এছাড়াও, এগুলি গণনাগুলির সত্যতা স্বয়ংক্রিয়ভাবে এর অর্থ এই নয় যে কোনও যন্ত্রের ত্রুটি নেই, ক্লিকগুলি গণনা করা ওয়েব পৃষ্ঠা প্লাগইনগুলি ব্যর্থ হতে পারে
আকসাকাল

4

আমি মূলত এটিকে অন্য উত্তরের মন্তব্য হিসাবে পোস্ট করতে চেয়েছিলাম, তবে এটি ফিট হওয়ার পক্ষে খুব বেশি সময় পেল।

আমি যখন আপনার মডেলটি দেখি, এটিতে অবশ্যই একটি বৃহত গোষ্ঠী এবং কিছু বিদেশী থাকে না। আমার মতে, এটিতে 1 টি মাঝারি আকারের গোষ্ঠী (1 থেকে -1) এবং তারপরে 6 টি ছোট গ্রুপ রয়েছে, যার প্রতিটি 2 টি পুরো সংখ্যার মধ্যে পাওয়া যায়। আপনি পুরোপুরি পরিষ্কার দেখতে পাচ্ছেন যে পুরো সংখ্যায় পৌঁছানোর সময়, এই ফ্রিকোয়েন্সিগুলিতে কম পর্যবেক্ষণ থাকে। একমাত্র বিশেষ পয়েন্টটি 0, যেখানে পর্যবেক্ষণগুলির মধ্যে একটি বিস্মৃত ড্রপ নেই।

আমার মতে, কেন এই বিতরণটি এভাবে ছড়িয়ে দেওয়া উচিত তা বিবেচনা করার মতো:

  • বিতরণে কেন এই পর্যবেক্ষণের গণনা পুরো সংখ্যায় নেমে আসে?
  • কেন এই পর্যবেক্ষণ গণনা 0 এ না ঘটে?
  • এই আউটলিয়ারদের কী এত বিশেষ যে তারা বিদেশী?

বিযুক্ত মানবিক ক্রিয়া পরিমাপ করার সময়, আপনি সর্বদা বিদেশী থাকবেন। এই আউটলিয়াররা কেন আপনার মডেলকে ফিট করে না এবং আপনার মডেলের ভবিষ্যতের পুনরাবৃত্তিগুলি উন্নত করতে কীভাবে সেগুলি ব্যবহার করা যায় তা দেখতে আকর্ষণীয় হতে পারে।


+1 টি। পুরো সংখ্যার ফাঁকটি পুরো সংখ্যাটিতে সর্বদা সঠিক না বলে মনে হয়, সুতরাং এটি আমাদের মধ্যে এমন একটি প্যাটার্নটি দেখা যায় যা বিদ্যমান নেই, তবে এটি ডেটা সংগ্রহ, কোডিং বা বিচক্ষণতার একটি নিদর্শন হতে পারে যা আলো ছড়িয়ে দিতে পারে পুরো ডেটা উপর। এমনকি 0 এ একটি ফাঁকও থাকতে পারে যা বিপুল সংখ্যক ওভারল্যাপিং এবং সম্ভবত জিটটার বিন্দু দ্বারা অস্পষ্ট। ডেটা আমাদের যা মনে করে তা এটি কিনা তা দেখার জন্য উত্সটিতে ফিরে যেতে অবশ্যই মূল্যবান।
ওয়েইন

2

আউটলিয়ারদের অপসারণ এবং কেবলমাত্র "সাধারণ প্যাটার্ন" এর জন্য মডেল তৈরির পক্ষে মতামত রয়েছে।

  • পেশাদাররা: মডেল পারফরম্যান্স আরও ভাল। স্বজ্ঞাততাটি হ'ল "সাধারণ প্যাটার্ন" এবং "আউটিলার প্যাটার্ন" উভয়ই ক্যাপচারের জন্য ওয়ান মডেলটি ব্যবহার করা খুব শক্ত। সুতরাং আমরা আউটলিয়ারগুলি অপসারণ করি এবং বলি, আমরা কেবল "সাধারণ প্যাটার্ন" এর জন্য একটি মডেল তৈরি করি।

  • কনস: আমরা বিদেশীদের জন্য ভবিষ্যদ্বাণী করতে সক্ষম হব না। অন্য কথায়, ধরুন আমরা আমাদের মডেলটিকে প্রযোজনায় রাখি, মডেল থেকে কিছু অনুপস্থিত ভবিষ্যদ্বাণী হবে

আমি বহিরাগতদের অপসারণ এবং মডেলটি তৈরি করার পরামর্শ দেব এবং যদি সম্ভব হয় তবে কেবলমাত্র আউটলারের জন্য একটি পৃথক মডেল তৈরি করার চেষ্টা করব।

"প্রতারণা" শব্দের জন্য, আপনি যদি কাগজ লিখছেন এবং পরিষ্কারভাবে আপনি কীভাবে অপ্রদর্শককে সংজ্ঞায়িত এবং অপসারণ করবেন তা তালিকাভুক্ত করেন এবং উল্লেখ করা উন্নত পারফরম্যান্স কেবলমাত্র পরিষ্কার ডেটাতে। এটা প্রতারণা নয়।


3
আমার ডাউনভোট হওয়া আপত্তি নেই, তবে কেউ আমাকে কারণটা বলতে পারেন?
হাইতাও ডু

আমি উজ্জীবিত হয়েছি :) আপনি কি ভাবেন যে ভবিষ্যদ্বাণীকারী মডেলটিকে আরও পরীক্ষার জন্য ডেটা পুনরায় নমুনা দেওয়া উচিত?
রেনাক্রে

1
@ রেনাক্রে আমি আপনাকে প্রোডাকশনে কী করতে হবে সে সম্পর্কে ভাবার পরামর্শ দিচ্ছি। ধরা যাক, আপনি যদি খুঁজে পেয়েছেন যে কেবলমাত্র 1%, এবং উত্পাদনে কোনও আউটপুট তৈরি করা ঠিক না। তারপরে এগুলি সরান। আপনি যদি খুঁজে পেয়েছেন যে আউটলার 30%, এবং উত্পাদনের পূর্বাভাসগুলি এড়ানো ঠিক হবে না। তারপরে এটির জন্য আলাদা মডেল রাখার চেষ্টা করুন।
হাইতাও ডু

আমরা বেশিরভাগ বিষয়গুলি পরীক্ষা করে দেখছি যে আমরা কিছু ফলাফলের পরিবর্তনশীল পূর্বাভাস দিতে পারি কিনা। নেই if it is fine to produce no output in productionএকই জিনিস মানে? সুতরাং, যদি আমরা ফলাফলের পরিবর্তনশীল পরীক্ষা করতে এবং প্রয়োগটিতে পূর্বাভাসিত স্কোরটি ব্যবহার করতে আমাদের মডেলটিকে সত্যিকারের অ্যাপ্লিকেশনটিতে ব্যবহার করা শুরু করি, তবে বহিরাগতদের অপসারণ করা ঠিক হবে না (বিশেষত যদি তারা আপনার উল্লেখ মতো অনেকগুলি হয়)? এই আপনি কি বোঝাতে চেয়েছিলেন?
রেনাক্রে

1
@ রেণাক্রে আপনি মারা গেছেন! এটিই আমরা সম্প্রতি আইআইটিবক্সের সাথে করেছি যেখানে পূর্বাভাস সীমাটি কেবলমাত্র পিএসআই ওজনের উপর ভিত্তি করেই নয় তবে অপ্রত্যাশিতদের সাথে পুনঃ-নমুনাযুক্ত ত্রুটিগুলি জনবসতিযুক্ত। এটি কেবল আরিমা মডেলগুলির জন্যই নয় কারণ কার্যকারী মডেলগুলির ক্ষেত্রে যেখানে ভবিষ্যদ্বাণীকারীদের মধ্যে অনিশ্চয়তাও একই ধরণের অন্তর্ভুক্ত।
আইরিশস্ট্যাট

2

আমি বিশ্বাস করি কেবলমাত্র বিদেশিদের অপসারণ করা যুক্তিসঙ্গত হবে যখন কারও কাছে এটির জন্য দৃ qual় গুণগত কারণ রয়েছে। এর মাধ্যমে আমার অর্থ এই যে একজনের কাছে এমন একটি তথ্য রয়েছে যা অন্য পরিবর্তনশীল, যা মডেলটিতে নয়, আউটলেট পর্যবেক্ষণকে প্রভাবিত করছে। তারপরে একটিতে আউটলেটর অপসারণ বা অতিরিক্ত ভেরিয়েবল যুক্ত করার পছন্দ রয়েছে।

আমি দেখতে পাই যে আমার যখন আমার ডেটাসেটের মধ্যে আউটরিয়ার পর্যবেক্ষণ থাকে, তখন কেন আউটলার উপস্থিত রয়েছে তা নির্ধারণের জন্য অধ্যয়ন করে আমি আমার ডেটা এবং অন্যান্য মডেলগুলি বিবেচনা করার বিষয়ে আরও শিখি।


1
পরিসংখ্যান.এসই তে স্বাগতম! আমাদের ট্যুরটি দেখার জন্য দয়া করে কিছুক্ষণ সময় নিন । আপনি যদি প্রশ্নের উত্তরটির পুরোপুরি উত্তর দেওয়ার জন্য আপনার উত্তরটি প্রসারিত করেন (যেমন বক্সপ্লটের উপর ভিত্তি করে আউটলেট নির্ধারণ, এই পদ্ধতিটির পূর্বাভাস মডেলের উপর কী প্রভাব ফেলতে পারে, এবং সি।) If
টাভ্রোক

2

আমি এমনকি বিশ্বাস করি না যে তারা "আউটলিয়ার"। আপনি সম্ভবত একটি সাধারণ সম্ভাবনার প্লট তৈরি করতে চান। তারা কি কোনও মডেল ফিট করে ডেটা বা অবশিষ্টাংশ?


তারা হ'ল পূর্বাভাস এবং আসল মানগুলির মধ্যে পার্থক্য।
পুনর্বার
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.