রিগ্রেশন ব্যবহার করে আউটলেট সনাক্তকরণ


11

মিথ্যা সনাক্তকরণের জন্য রিগ্রেশন ব্যবহার করা যেতে পারে। আমি বুঝতে পারি যে বিদেশীদের অপসারণ করে একটি রিগ্রেশন মডেল উন্নত করার উপায় রয়েছে। তবে এখানে প্রাথমিক লক্ষ্যটি কোনও রিগ্রেশন মডেল ফিট করা নয় তবে রিগ্রেশন ব্যবহার করে মিথ্যাবাদী খুঁজে বের করা


আউটলেয়ার ছাড়াই যখন কোনও মডেল ফিট করার পরে ফিটের উন্নতি হয়, তখন প্রমাণ হয় যে এটি একটি চূড়ান্ত মান। আপনার কাছে প্রচুর ডেটা থাকলে এটি মোটা হতে পারে, কারণ ফিট তুলনামূলকভাবে কম উন্নত হবে।
রোমান Luštrik

@ রোমানলুয়েট্রিক: এটি বহিরাগতদের একটি খুব দ্বিধাদায়ক সংজ্ঞা। উদাহরণস্বরূপ, এটি গ্লেন_বি এর উত্তরে (বা "শক্তিশালী পরিসংখ্যান: তত্ত্ব এবং পদ্ধতিগুলি" যেমন পাঠ্যপুস্তকে ব্যবহৃত আউটলিয়ারদের সংজ্ঞা সহ) এর সাথে ব্যবহৃত আউটলিয়ারদের দৃষ্টিভঙ্গির সাথে সামঞ্জস্যপূর্ণ নয়। আপনার সংজ্ঞা সমর্থন করার জন্য কোনও উত্স উদ্ধৃত করার যত্ন?
ব্যবহারকারী 603

আমি কোনও রেফারেন্স উদ্ধৃত করতে পারি না। আপনি অবশ্যই ঠিক আছেন, ফিটের ক্ষেত্রে কী কী উন্নতি হবে? উন্নতি একটি চূড়ান্ত বিষয়গত বিষয় হতে পারে এবং এটি একটি গাইড হিসাবে ব্যবহার করা উচিত, রোবোটিক কাট-অফ মান নয় এবং কেস-টু-কেস ভিত্তিতে বিচার করা উচিত।
রোমান Luštrik

স্বতঃস্ফূর্তভাবে স্বল্পতম স্কোয়ারগুলি হ'ল একটি শক্তিশালী রিগ্রেশন পদ্ধতি যা সাধারণত ডেটাতে বিদেশী খুঁজে পেতে ব্যবহৃত হয়।
শুক্র

উত্তর:


13

আউটলিয়ারদের খুঁজে পেতে রিগ্রেশন ব্যবহারের সর্বোত্তম বিকল্পটি শক্তিশালী রিগ্রেশন ব্যবহার করা।

সাধারণ রিগ্রেশন দু'ভাবে উপকারীরা দ্বারা প্রভাবিত হতে পারে:

প্রথমত, x- এর কাছাকাছি x- y- দিকের একটি চূড়ান্ত আউটলেটর সেই ক্ষেত্রের ফিটকে একইভাবে প্রভাবিত করতে পারে যেমন কোনও বহিরাগত কোনও গড়কে প্রভাবিত করতে পারে।x¯

দ্বিতীয়ত, এক্স-স্পেসের একটি 'বহিরাগত' পর্যবেক্ষণ একটি প্রভাবশালী পর্যবেক্ষণ - এটি লাইনের ফিটটিকে তার দিকে টানতে পারে। যদি এটি যথেষ্ট দূরে থাকে তবে লাইনটি প্রভাবশালী পয়েন্টের মধ্য দিয়ে যাবে:

এখানে চিত্র বর্ণনা লিখুন

বাম চক্রান্তে, একটি পয়েন্ট রয়েছে যা বেশ প্রভাবশালী, এবং এটি লাইনটি বেশিরভাগ উপাত্ত থেকে বেশ কিছুটা টানছে। সঠিক চক্রান্তে, এটি আরও দূরে সরানো হয়েছে - এবং এখন লাইনটি বিন্দুটির মধ্য দিয়ে যায়। যখন এক্স-মানটি চূড়ান্ত হয়, আপনি যখন সেই বিন্দুটিকে উপরে এবং নীচে সরান, তখন লাইনটি অন্য পয়েন্টগুলির মধ্য দিয়ে এবং একটি প্রভাবশালী বিন্দুর মধ্য দিয়ে চলে যায়।

একটি প্রভাবশালী পয়েন্ট যা বাকী ডেটার সাথে পুরোপুরি সামঞ্জস্য করে এটি এত বড় সমস্যা নাও হতে পারে, তবে বাকী ডেটাগুলির মধ্য দিয়ে একটি লাইন থেকে দূরে থাকা একটি তথ্য উপাত্তের চেয়ে লাইনটিকে উপযুক্ত করে দেবে।

আপনি যদি ডান হাতের প্লটের দিকে লক্ষ্য করেন তবে লাল রেখা - সর্বনিম্ন স্কোয়ারের রিগ্রেশন লাইন - আউটলেট হিসাবে একেবারে চূড়ান্ত বিন্দুটি দেখায় না - এর অবশিষ্টাংশটি 0 হয় তার পরিবর্তে, সর্বনিম্ন স্কোয়ার লাইনের বৃহত অবশিষ্টগুলি থাকে তথ্য প্রধান অংশ!

এর অর্থ আপনি কোনও আউটলেটকে পুরোপুরি মিস করতে পারেন

আরও খারাপ, একাধিক রিগ্রেশন সহ, এক্স-স্পেসের একটি আউটলেট কোনও একক এক্স-ভেরিয়েবলের জন্য বিশেষত অস্বাভাবিক না দেখায়। যদি এই জাতীয় বিন্দু হওয়ার সম্ভাবনা থাকে তবে এটি সর্বনিম্ন স্কোয়ার রিগ্রেশন ব্যবহার করা খুব ঝুঁকিপূর্ণ বিষয়।

দৃ reg়তা প্রতিরোধ

যদি আপনি একটি দৃust় রেখা মাপসই করেন - বিশেষত প্রভাবশালী আউটলিয়ারদের কাছে একটি শক্তিশালী - দ্বিতীয় প্লটের গ্রীন লাইনের মতো - তবে আউটলারের খুব বড় অবশেষ থাকে।

ইন যে ক্ষেত্রে, আপনি outliers চিহ্নিত কিছু আশা আছে - কিছু অর্থে - - লাইন পাসে তারা পয়েন্ট যে হয় না হবেন।


বহিরাগতদের সরানো হচ্ছে

আপনি অবশ্যই সনাক্ত এবং এর মাধ্যমে আউটলিয়ারগুলি সরাতে একটি শক্তিশালী রিগ্রেশন ব্যবহার করতে পারেন।

তবে একবার আপনার যদি শক্তিশালী রিগ্রেশন ফিট হয়ে যায়, এটি ইতিমধ্যে আউটলিয়ারদের দ্বারা খারাপভাবে প্রভাবিত হয় না, আপনার অবশ্যই বাহ্যিকদের অপসারণ করতে হবে না - আপনার ইতিমধ্যে একটি মডেল রয়েছে যা একটি উপযুক্ত fit


1
"আপনি অগত্যা outliers মুছে ফেলার জন্য প্রয়োজন হবে না" কখনও কখনও, outliers খোঁজার হয় গবেষণায় উদ্দেশ্য (যেমন জালিয়াতি সনাক্তকরণ)
user603

1

3
(+1) দুর্দান্ত উত্তর, তবে এটি অত্যন্ত দুঃখের বিষয় যে আপনি দৃ reg়তাবিরোধের কোনও পদ্ধতি উল্লেখ করেন না। উদাহরণস্বরূপ কীভাবে সবুজ রেখাটি ডান সাবপ্লোটে প্লট করা হয়েছিল (এবং আপনি কেন অন্যদের তুলনায় সেই অ্যালগরিদম পছন্দ করেন)? সম্ভবত এই লিঙ্কটি এখানে কার্যকর হতে পারে: দ্রুত প্রান্তিকদের কাছে দ্রুত রৈখিক প্রতিরোধের শক্তিশালী - দৃ ably়ভাবে দৃ CV়তম রিগ্রেশন নিয়ে আলোচনা করা সিভিতে সেরা থ্রেড।
অ্যামিবা

-2

আউটিলার সনাক্তকরণের জন্য রিগ্রেশন ব্যবহার করা যেতে পারে।

হ্যাঁ. এই উত্তর এবং Glen_b এর উত্তর এটি ঠিকানা।

এখানে প্রাথমিক লক্ষ্যটি কোনও রিগ্রেশন মডেল ফিট করা নয় তবে রিগ্রেশন ব্যবহার করে মিথ্যাবাদী খুঁজে বের করা

রোমান লাস্ট্রিকের মন্তব্যের ভিত্তিতে তৈরি করা (একাধিক লিনিয়ার) রিগ্রেশন ব্যবহার করে বিদেশিদের খুঁজে বের করার জন্য এটি একটি তাত্পর্যপূর্ণ।

n

  1. n rtotal

  2. ri

  3. rirtotiri<<rtotali

এই প্রার্থীদের বহিরাগত পয়েন্টগুলি আলাদা করে রেখে, আমরা হ্রাস করা নমুনা দিয়ে আবার পুরো অনুশীলনটির পুনরাবৃত্তি করতে পারি। অ্যালগরিদমে, আমরা ডেটাতে উদাহরণগুলি তুলছি যা খারাপ পদ্ধতিতে রিগ্রেশন ফিটকে প্রভাবিত করছে (যা একটি আউটলেটর হিসাবে উদাহরণ হিসাবে লেবেল করার এক উপায়)।


1
আপনি এখানে কৌশলটি ডেটাসেটে দেখিয়েছেন ? আরও মৌলিকভাবে, আপনার কৌশলটি দাবি করার পরিমাণে যে বহিরাগতদের উত্তল ক্ষতি কার্যকারিতা হ্রাস করার জন্য একটি চেইনের ফলাফলের কাছ থেকে নির্ভরযোগ্যতার সাথে পাওয়া যেতে পারে, যা একক বহিরাগতের চেয়ে বেশি থাকাকালীন এটি একটি জ্ঞাত ভুল (এই লিঙ্কগুলি সম্পর্কিত সমস্যার জন্য এটি দেখায়) মাল্টিভারিয়েট আউটলেয়ারদের সন্ধান করার ক্ষেত্রে তবে ফলাফলগুলি প্রতিরোধের ক্ষেত্রেও প্রযোজ্য)।
ব্যবহারকারী 603

আমি আমার উত্তর সরিয়ে খুশি। তবে প্রথমে, আমি আপনাকে প্রদত্ত রেফ এবং উভয়ই বুঝতে পারি না, তারা কেন আমার উত্তরকে ভুল করে তা আমি নিশ্চিত নই। একটি 'কৌশল' প্রথম রেফ কোথায়? আপনি কি সেখানে একটি নির্দিষ্ট উত্তর নির্দেশ করতে পারেন? দ্বিতীয় রেফের কোন পৃষ্ঠা এবং লাইনটি এখানে প্রাসঙ্গিক এবং 'মিথ্যাচার' নিয়ে আলোচনা করেছে?
থিজা

1
দুঃখিত, আমি এখন এই ফিরে আসতে পারে। মন্তব্য বিভাগটি উদাহরণ দেওয়ার জন্য কিছুটা সংক্ষিপ্ত এবং আমি 'উত্তর' বিভাগটি ব্যবহার করব না কারণ এটি অপির প্রশ্ন নয়। তবুও, আমি যে ডেটা সংযুক্ত করেছি সে সম্পর্কে আপনার পদ্ধতিটি চেষ্টা করার সময় পেয়েছেন?
ব্যবহারকারী 603
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.