গ্রেডিয়েন্ট বুস্ট করা কি 1% এর মতো কম ইভেন্টের হারের ডেটার জন্য উপযুক্ত?


14

আমি এন্টারপ্রাইজ মাইনার ব্যবহার করে প্রায় 1% ইভেন্টের ডেটাসেটে গ্রেডিয়েন্ট বুস্ট করার চেষ্টা করছি, তবে এটি কোনও আউটপুট উত্পাদন করতে ব্যর্থ হচ্ছে। আমার প্রশ্নটি, যেহেতু এটি সিদ্ধান্তের ভিত্তিতে ভিত্তিক একটি পদ্ধতির পদ্ধতির, এত কম ইভেন্টের সাথে গ্রেডিয়েন্ট বুস্টিং ব্যবহার করা কি সঠিক?


3
আপনি ভারসাম্যহীন ডেটাসেট নিয়ে কাজ করছেন। এটির সাথে লড়াই করার পক্ষে বুস্টিং সত্যিই একটি ভাল উপায়। বিশদগুলির জন্য দেখুন stats.stackexchange.com/questions/157940/…
ডএল

তবে আমার জন্য লজিস্টিক রিগ্রেশন র্যান্ডম ফরেস্ট বা গ্রেডিয়েন্ট বুস্টিংয়ের চেয়ে ভাল ফলাফল দিচ্ছে। আমি বর্ধিত গাছ চেষ্টা করে আমার মডেলটির পারফরম্যান্সটি উন্নত করতে চেয়েছিলাম।
ব্যবহারকারী 2542275

বুস্টিং দুর্বল শ্রেণিবদ্ধদের উপর ভিত্তি করে। তাত্ত্বিকভাবে, কোনও দুর্বল শ্রেণিবদ্ধকারী যা এলোমেলোভাবে তুলনায় কিছুটা ভাল do অনুশীলনে বিভিন্ন অ্যালগরিদম কিছু ডেটা সেটের জন্য বেশি উপযুক্ত তাই আপনার চয়ন করা দুর্বল শ্রেণিবদ্ধকারী গুরুত্বপূর্ণ। আপনি যে অ্যালগরিদম ব্যবহার করেছেন, সেগুলির ফলাফল এবং ডেটা সেট সম্পর্কে আপনি আরও নির্দিষ্ট করতে পারেন?
ডএল

ঠিক আছে. ডেটাसेट সম্পর্কে: নমুনা আকার> 4 মি, ইভেন্টের হার = 1.2%। পূর্বাভাসের সংখ্যা যা উল্লেখযোগ্য পি-মান <0.05 হ'ল 150 হয়। বেশিরভাগ উল্লেখযোগ্য ভেরিয়েবলের সাথে লজিস্টিক রিগ্রেশন 20% জনসংখ্যায় 3 এর উত্তোলন দেয়। নিউরাল নেটওয়ার্ক প্রায় 2.8 এর একটি লিফট দিয়েছে। গ্রেডিয়েন্ট বুস্টিং কোনও আউটপুট উত্পাদিত করে না, যতক্ষণ না আমি বিপরীত পূর্বের ওজনগুলির সাথে স্ট্রেটেড নমুনা ব্যবহার করি। তবে পারফরম্যান্স খুব খারাপ।
ব্যবহারকারী 2542275

যেহেতু আপনার ডেটা সেটটি বেশ বড়, আপনার সংখ্যালঘু শ্রেণীর পর্যাপ্ত নমুনা থাকা উচিত, তাই আপেক্ষিক ভারসাম্যহীনতার কারণে সমস্যা। আপনার বেশ কয়েকটি বৈশিষ্ট্য রয়েছে তবে খুব বেশি নয়, তবে প্রকৃতপক্ষে সিদ্ধান্ত গাছ এই জাতীয় ডেটাসেটের জন্য কম উপযুক্ত। আমি আপনাকে পরামর্শ দিচ্ছি যে আপনি একটি ভারসাম্যপূর্ণ ডেটাসেট তৈরি করবেন এবং দেখুন যে এটিতে আপনার অ্যালগোরিদমগুলি কতটা ভালভাবে সম্পাদন করে। আমি প্রথম মন্তব্যে যেভাবে বর্ণনা করেছি সেভাবে আপনি মূল ডেটাसेटটিতে অ্যালগরিদম প্রয়োগ করতে সক্ষম হবেন।
ডএল

উত্তর:


7

(এর সংক্ষিপ্ত উত্তর দিতে :)

ভারসাম্যহীন ডেটাসেট নিয়ে কাজ করার সময় গ্রেডিয়েন্ট বুস্টিং মেশিন অ্যালগরিদম ব্যবহার করা ভাল। দৃ strongly়ভাবে ভারসাম্যহীন ডেটাসেটের সাথে ডিল করার সময় এটি ব্যবহার করা মেট্রিকের উপযুক্ততার প্রশ্নে অনেক বেশি প্রাসঙ্গিক। আমাদের যথাযথ প্রান্তিকতার উপর ভিত্তি করে যথাযথতা বা পুনরুদ্ধারের মতো মেট্রিকগুলি এড়ানো উচিত এবং এটিউসিপিআর বা ব্রায়ার স্কোরিংয়ের মতো মেট্রিকগুলি বেছে নেওয়া উচিত, যা আরও সঠিক চিত্র দেয় - চমৎকার সিভি.এসই থ্রেডটি দেখুন: সঠিকতাটি কেন নয় শ্রেণিবদ্ধকরণ মডেলগুলি মূল্যায়নের জন্য সেরা পরিমাপ? আরো বেশী). একইভাবে, আমরা বিভিন্ন বিবিধ শ্রেণিবদ্ধকরণ ব্যয় বরাদ্দ করে একটি সম্ভাব্য সংবেদনশীল পদ্ধতির নিয়োগ করতে পারি (উদাহরণস্বরূপ মাসনাদি-শিরাজি এবং ভাসকনস্লোস (২০১১) ব্যয়-সংবেদনশীল বুস্টিংসাধারণ ভিউ এবং প্রস্তাবিত বুস্টিং অ্যালগরিদমগুলিতে প্রস্তাবিত পরিবর্তনের জন্য বা একটি সহজ পদ্ধতির সাথে একটি বিশেষ আকর্ষণীয় অ্যাপ্লিকেশনটির জন্য এক্সজিবিস্ট আলগোরিদমের জন্য হিগস বোসন চ্যালেঞ্জ রিপোর্টটি পরীক্ষা করে দেখুন; চেন অ্যান্ড হি (2015) বুস্টড ট্রি সহ হিগস বোসন আবিষ্কার আরও বিশদ সরবরাহ করে)।

এটিও লক্ষণীয় যে আমরা যদি কোনও সম্ভাব্য শ্রেণিবদ্ধ (যেমন জিবিএম) নিযুক্ত করি তবে আমরা সক্রিয়ভাবে প্রত্যাশিত সম্ভাবনাগুলি ক্যালিব্রেট করার জন্য সক্রিয়ভাবে দেখতে পারি (উদাহরণস্বরূপ জাদরোজনি এবং এলকান (২০০২) শ্রেণিবদ্ধ স্কোরগুলি সঠিক মাল্টিক্লাস সম্ভাব্যতা অনুমান বা কুল এট আল-তে রূপান্তরিত করে ) ( 2017) বিটা ক্যালিব্রেশন: বাইনারি শ্রেণিবদ্ধের জন্য লজিস্টিক ক্যালিফিকেশনের উপর একটি সু-প্রতিষ্ঠিত এবং সহজেই উন্নতিসাধন করা হয়েছে ) সম্ভাব্যভাবে আমাদের শিক্ষার্থীদের কর্মক্ষমতা বাড়ানোর জন্য। বিশেষত ভারসাম্যহীন ডেটা নিয়ে কাজ করার সময় প্রবণতা পরিবর্তনগুলি ক্যাপচার করার জন্য কেবল ডেটা লেবেল করার চেয়ে তথ্যমূলক হতে পারে। এই পরিমাণে, কিছু যুক্তিযুক্ত হতে পারে যে ব্যয়-সংবেদনশীল পন্থাগুলি শেষের দিকে তেমন সুবিধাজনক নয় (উদাঃ নিকোলাউ এট আল দেখুন (২০১))ব্যয় সংবেদনশীল বৃদ্ধিকারী অ্যালগরিদম: আমাদের কি সত্যই তাদের প্রয়োজন? )। যদিও মূল বিষয়টির পুনরাবৃত্তি করতে, ভারসাম্যহীন অ্যালগরিদমগুলি ভারসাম্যহীন ডেটার জন্য সহজাত খারাপ নয় এবং কিছু ক্ষেত্রে তারা খুব প্রতিযোগিতামূলক বিকল্প দিতে পারে।


আমি বিশ্বাস করি যে বিরল স্কোরিং যথাযথতার পরিমাপের সমান, তাই বিরল ইভেন্টের মডেলগুলি মূল্যায়ন করার সময় যথার্থতার মতো একই সীমাবদ্ধতা থাকবে।
রবার্টএফ

ব্রিয়ার স্কোর নির্ভুলতার সমতুল্য নয়। দয়া করে মনে রাখবেন যে আমরা বেরিয়ার স্কোর গণনার জন্য পূর্বাভাসযুক্ত সম্ভাবনাটি ব্যবহার করি যখন সঠিকতা গণনার জন্য আমরা পূর্বাভাসযুক্ত সম্ভাবনার শক্ত প্রান্তিকতার উপর ভিত্তি করে লেবেল ব্যবহার করি।
usεr11852

পরিষ্কার করার জন্য ধন্যবাদ - পূর্বাভাসীকৃত শ্রেণীর জন্য 0/1 এর পরিবর্তে অনুমানিত সম্ভাবনাটি ব্যবহার করা আরও অর্থবোধ করে।
রবার্টএফ

কুল। আমি আনন্দিত যে আমরা এটি সাজিয়েছি! :)
usεr11852
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.