কেন বৃদ্ধির পদ্ধতিটি বিদেশীদের কাছে সংবেদনশীল


12

আমি অনেক নিবন্ধ পেয়েছি যা জানিয়েছে যে বুস্টিং পদ্ধতিগুলি বিদেশীদের কাছে সংবেদনশীল তবে কেন এটি ব্যাখ্যা করার মতো কোনও নিবন্ধ নেই।

আমার অভিজ্ঞতায় আউটলিয়াররা কোনও মেশিন লার্নিং অ্যালগরিদমের পক্ষে খারাপ, তবে কেন উত্সাহ দেওয়ার পদ্ধতিগুলি বিশেষ সংবেদনশীল হিসাবে বিবেচিত হয়?

নীচের অ্যালগরিদমগুলি কীভাবে বহিরাগতদের সংবেদনশীলতার দিক থেকে র‌্যাঙ্ক করবে: বুস্ট-ট্রি, এলোমেলো বন, নিউরাল নেটওয়ার্ক, এসভিএম এবং লজিস্টিক রিগ্রেশনের মতো সাধারণ রিগ্রেশন পদ্ধতি?


1
আমি স্পষ্ট করার চেষ্টা করার জন্য সম্পাদনা করেছি (আপনি যদি একটি লাইনের শুরুতে স্পেস রাখেন তবে স্ট্যাকেক্সচেঞ্জ এটি কোড হিসাবে বিবেচনা করবে)। আপনার দ্বিতীয় প্যারা, বুস্টিং তাই কি? আপনার সংবেদনশীলতা সংজ্ঞায়িত করতে হতে পারে।
জেরেমি মাইলস 23 'এ

1
এছাড়াও, outliers এবং নয়েস এক জিনিস নয়।
জেরেমি মাইলস 23 'এ

আমি এখনও এই প্রশ্নটিকে সমাধান হিসাবে চিহ্নিত করব না। এটি উত্সাহিত নয় যে উত্সাহ দেওয়া আসলে অন্য পদ্ধতির তুলনায় বিদেশীদের বেশি ক্ষতিগ্রস্থ হয় বা না। দেখে মনে হচ্ছে গ্রহণযোগ্য উত্তর বেশিরভাগ নিশ্চিতকরণ পক্ষপাতের কারণে গৃহীত হয়েছিল।
rinspy

আপনি এই নিবন্ধ কিছু ভাগ করতে পারেন, দয়া করে?
acnalb

উত্তর:


11

আউটলিয়ারগুলি বৃদ্ধির জন্য খারাপ হতে পারে কারণ উত্সাহ দেওয়া প্রতিটি গাছ পূর্ববর্তী গাছের অবশিষ্টাংশ / ত্রুটিগুলিতে তৈরি করে। বহিরাগতদের বহিরাগতদের তুলনায় অনেক বড় অবশিষ্টাংশ থাকবে, সুতরাং গ্রেডিয়েন্ট বুস্টিং এই বিষয়গুলিতে তার মনোযোগের একটি তুলনামূলক পরিমাণকে ফোকাস করবে।


2
ওপি-তে আরও গাণিতিক বিবরণ দিতে পারলে ভাল হয়!
মেট্রিয়েট

5
@ ম্যাটমেটিকা ​​আমি একমত নই যে গাণিতিক বিবরণ যুক্ত করা এখানে অতিরিক্ত স্পষ্টতা প্রদান করবে। এটি কেবল গাছের গ্রেডিয়েন্টগুলির জন্য এবং একটি শিখার হার পরবর্তী গাছগুলির জন্য একটি প্রতীক হবে।
রায়ান জোটি

1
@ রায়ানজোট্টি: আমি মেট্রিয়েটারের সাথে একমত। আরও আনুষ্ঠানিক স্বরলিপি কিছু বিভ্রান্তি সমাধান করবে। উদাহরণস্বরূপ বাক্যটিতে 'আউটলিয়ারদের অ-বহিরাগতদের তুলনায় অনেক বেশি পরিমাণে অবশিষ্টাংশ থাকবে' আপনি বোঝাচ্ছেন অবশিষ্টাংশগুলি কী বোঝায়? অনুমান মডেল নাকি সত্য? যদি প্রাক্তন হয় তবে এটি সাধারণভাবে সত্য নয় এবং যদি পরে হয় তবে এটি অপ্রাসঙ্গিক।
ব্যবহারকারী 60

1

আপনার নির্দিষ্ট করা অ্যালগরিদমগুলি শ্রেণিবিন্যাসের জন্য, সুতরাং আমি ধরে নিচ্ছি যে আপনি টার্গেট ভেরিয়েবলের বহিরাগতদের বোঝাতে চাইছেন না, তবে ইনপুট ভেরিয়েবল বহিরাগত। বেসড শিখর গাছের বিভাজন হওয়ায় বুস্টেড ট্রি পদ্ধতিগুলি ইনপুট বৈশিষ্ট্যে আউটলিয়ারদের কাছে যথেষ্ট শক্তিশালী হওয়া উচিত। উদাহরণস্বরূপ, x > 3বিভক্তটি যদি 5 এবং 5,000,000 এর সাথে একই আচরণ করা হয়। এটি ভাল জিনিস হতে পারে বা নাও হতে পারে তবে এটি একটি আলাদা প্রশ্ন।

পরিবর্তে যদি আপনি লক্ষ্য পরিবর্তনশীলটিতে রিগ্রেশন এবং আউটলিয়ারের বিষয়ে কথা বলছিলেন তবে বুস্টেড ট্রি পদ্ধতির সংবেদনশীলতা ব্যবহৃত ব্যয় ফাংশনের উপর নির্ভর করবে। অবশ্যই, স্কোয়ার ত্রুটিটি আউটলিয়ারদের কাছে সংবেদনশীল কারণ পার্থক্যটি স্কোয়ারড এবং এটি পরবর্তী গাছটিকে অত্যন্ত প্রভাবিত করবে যেহেতু ক্ষতির (গ্রেডিয়েন্ট) মাপসই করার প্রচেষ্টা বৃদ্ধির ফলে তবে, আরও শক্তিশালী ত্রুটিযুক্ত ফাংশন রয়েছে যা হুবার ক্ষতি এবং পরম ক্ষতির মতো উত্সাহিত গাছের পদ্ধতির জন্য ব্যবহার করা যেতে পারে ।


0

উত্সাহ দেওয়ার সময় আমরা সেই ডেটাসেটটি বাছাইয়ের চেষ্টা করি যার উপরে অ্যালগোরিদমের ফলাফলগুলি এলোমেলোভাবে ডেটার উপসেটটি বেছে নেওয়ার পরিবর্তে খারাপ ছিল। এই শক্ত উদাহরণগুলি শেখার জন্য গুরুত্বপূর্ণ, সুতরাং যদি ডেটা সেটটিতে প্রচুর পরিমাণে বিদেশী থাকে এবং অ্যালগরিদমগুলি সেই হার্ড উদাহরণগুলি শিখার চেয়ে সেইগুলিতে ভাল পারফর্ম করে না তবে সেই উদাহরণগুলি সহ উপগ্রহগুলি বেছে নেওয়ার চেষ্টা করবে।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.