মিথ্যা সনাক্তকরণের জন্য রিগ্রেশন ব্যবহার করা যেতে পারে। আমি বুঝতে পারি যে বিদেশীদের অপসারণ করে একটি রিগ্রেশন মডেল উন্নত করার উপায় রয়েছে। তবে এখানে প্রাথমিক লক্ষ্যটি কোনও রিগ্রেশন মডেল ফিট করা নয় তবে রিগ্রেশন ব্যবহার করে মিথ্যাবাদী খুঁজে বের করা
মিথ্যা সনাক্তকরণের জন্য রিগ্রেশন ব্যবহার করা যেতে পারে। আমি বুঝতে পারি যে বিদেশীদের অপসারণ করে একটি রিগ্রেশন মডেল উন্নত করার উপায় রয়েছে। তবে এখানে প্রাথমিক লক্ষ্যটি কোনও রিগ্রেশন মডেল ফিট করা নয় তবে রিগ্রেশন ব্যবহার করে মিথ্যাবাদী খুঁজে বের করা
উত্তর:
আউটলিয়ারদের খুঁজে পেতে রিগ্রেশন ব্যবহারের সর্বোত্তম বিকল্পটি শক্তিশালী রিগ্রেশন ব্যবহার করা।
সাধারণ রিগ্রেশন দু'ভাবে উপকারীরা দ্বারা প্রভাবিত হতে পারে:
প্রথমত, x- এর কাছাকাছি x- y- দিকের একটি চূড়ান্ত আউটলেটর সেই ক্ষেত্রের ফিটকে একইভাবে প্রভাবিত করতে পারে যেমন কোনও বহিরাগত কোনও গড়কে প্রভাবিত করতে পারে।
দ্বিতীয়ত, এক্স-স্পেসের একটি 'বহিরাগত' পর্যবেক্ষণ একটি প্রভাবশালী পর্যবেক্ষণ - এটি লাইনের ফিটটিকে তার দিকে টানতে পারে। যদি এটি যথেষ্ট দূরে থাকে তবে লাইনটি প্রভাবশালী পয়েন্টের মধ্য দিয়ে যাবে:
বাম চক্রান্তে, একটি পয়েন্ট রয়েছে যা বেশ প্রভাবশালী, এবং এটি লাইনটি বেশিরভাগ উপাত্ত থেকে বেশ কিছুটা টানছে। সঠিক চক্রান্তে, এটি আরও দূরে সরানো হয়েছে - এবং এখন লাইনটি বিন্দুটির মধ্য দিয়ে যায়। যখন এক্স-মানটি চূড়ান্ত হয়, আপনি যখন সেই বিন্দুটিকে উপরে এবং নীচে সরান, তখন লাইনটি অন্য পয়েন্টগুলির মধ্য দিয়ে এবং একটি প্রভাবশালী বিন্দুর মধ্য দিয়ে চলে যায়।
একটি প্রভাবশালী পয়েন্ট যা বাকী ডেটার সাথে পুরোপুরি সামঞ্জস্য করে এটি এত বড় সমস্যা নাও হতে পারে, তবে বাকী ডেটাগুলির মধ্য দিয়ে একটি লাইন থেকে দূরে থাকা একটি তথ্য উপাত্তের চেয়ে লাইনটিকে উপযুক্ত করে দেবে।
আপনি যদি ডান হাতের প্লটের দিকে লক্ষ্য করেন তবে লাল রেখা - সর্বনিম্ন স্কোয়ারের রিগ্রেশন লাইন - আউটলেট হিসাবে একেবারে চূড়ান্ত বিন্দুটি দেখায় না - এর অবশিষ্টাংশটি 0 হয় তার পরিবর্তে, সর্বনিম্ন স্কোয়ার লাইনের বৃহত অবশিষ্টগুলি থাকে তথ্য প্রধান অংশ!
এর অর্থ আপনি কোনও আউটলেটকে পুরোপুরি মিস করতে পারেন ।
আরও খারাপ, একাধিক রিগ্রেশন সহ, এক্স-স্পেসের একটি আউটলেট কোনও একক এক্স-ভেরিয়েবলের জন্য বিশেষত অস্বাভাবিক না দেখায়। যদি এই জাতীয় বিন্দু হওয়ার সম্ভাবনা থাকে তবে এটি সর্বনিম্ন স্কোয়ার রিগ্রেশন ব্যবহার করা খুব ঝুঁকিপূর্ণ বিষয়।
দৃ reg়তা প্রতিরোধ
যদি আপনি একটি দৃust় রেখা মাপসই করেন - বিশেষত প্রভাবশালী আউটলিয়ারদের কাছে একটি শক্তিশালী - দ্বিতীয় প্লটের গ্রীন লাইনের মতো - তবে আউটলারের খুব বড় অবশেষ থাকে।
ইন যে ক্ষেত্রে, আপনি outliers চিহ্নিত কিছু আশা আছে - কিছু অর্থে - - লাইন পাসে তারা পয়েন্ট যে হয় না হবেন।
বহিরাগতদের সরানো হচ্ছে
আপনি অবশ্যই সনাক্ত এবং এর মাধ্যমে আউটলিয়ারগুলি সরাতে একটি শক্তিশালী রিগ্রেশন ব্যবহার করতে পারেন।
তবে একবার আপনার যদি শক্তিশালী রিগ্রেশন ফিট হয়ে যায়, এটি ইতিমধ্যে আউটলিয়ারদের দ্বারা খারাপভাবে প্রভাবিত হয় না, আপনার অবশ্যই বাহ্যিকদের অপসারণ করতে হবে না - আপনার ইতিমধ্যে একটি মডেল রয়েছে যা একটি উপযুক্ত fit
আউটিলার সনাক্তকরণের জন্য রিগ্রেশন ব্যবহার করা যেতে পারে।
হ্যাঁ. এই উত্তর এবং Glen_b এর উত্তর এটি ঠিকানা।
এখানে প্রাথমিক লক্ষ্যটি কোনও রিগ্রেশন মডেল ফিট করা নয় তবে রিগ্রেশন ব্যবহার করে মিথ্যাবাদী খুঁজে বের করা
রোমান লাস্ট্রিকের মন্তব্যের ভিত্তিতে তৈরি করা (একাধিক লিনিয়ার) রিগ্রেশন ব্যবহার করে বিদেশিদের খুঁজে বের করার জন্য এটি একটি তাত্পর্যপূর্ণ।
এই প্রার্থীদের বহিরাগত পয়েন্টগুলি আলাদা করে রেখে, আমরা হ্রাস করা নমুনা দিয়ে আবার পুরো অনুশীলনটির পুনরাবৃত্তি করতে পারি। অ্যালগরিদমে, আমরা ডেটাতে উদাহরণগুলি তুলছি যা খারাপ পদ্ধতিতে রিগ্রেশন ফিটকে প্রভাবিত করছে (যা একটি আউটলেটর হিসাবে উদাহরণ হিসাবে লেবেল করার এক উপায়)।