ক্রস-বৈধকরণ: কে-ফোল্ড বনাম পুনরাবৃত্তি র্যান্ডম সাব-স্যাম্পলিং


10

আমি ভাবছি শ্রেণীবদ্ধকরণ সমস্যার জন্য কোন ধরণের মডেল ক্রস-বৈধতা চয়ন করতে হবে: কে-ভাঁজ বা এলোমেলো উপ-নমুনা (বুটস্ট্র্যাপ নমুনা)?

আমার সর্বোত্তম অনুমানটি হ'ল প্রশিক্ষণের জন্য ডেটা সেট (যা 1000 ডলার আইটেম) 2/3 এবং বৈধতার জন্য 1/3 ব্যবহার করা।

এই ক্ষেত্রে কে-ফোল্ড কেবল তিনটি পুনরাবৃত্তি (ভাঁজ) দেয় যা স্থির গড় ত্রুটি দেখতে যথেষ্ট নয়।

অন্যদিকে আমি এলোমেলো সাব-স্যাম্পলিং বৈশিষ্ট্যটি পছন্দ করি না: কিছু আইটেম কখনও প্রশিক্ষণ / বৈধতার জন্য নির্বাচিত হবে না এবং কিছু একাধিকবার ব্যবহৃত হবে।

শ্রেণিবদ্ধকরণ অ্যালগরিদম ব্যবহৃত: এলোমেলো বন এবং লজিস্টিক রিগ্রেশন।


1
আমার ধারণা একটি পূর্ববর্তী প্রশ্ন: এই নির্বাচনটি কি অ্যালগরিদমের (মূলত এর আচরণ) মূল্যায়নের উপর নির্ভর করে না?
রুবেেন্স

1
@ রুবেস, আমি প্রশ্নটি আপডেট করেছি: আমি আরএফ এবং লজিস্টিক রিগ্রেশন
ছেদ

উত্তর:


7

আপনার যদি পর্যাপ্ত সংখ্যক নমুনা থাকে এবং সমস্ত ডেটা ব্যবহার করতে চান, তবে কে-ভাঁজ ক্রস-বৈধতা যাবার উপায়। 1,500 ডলার থাকা অনেকটা মনে হয় তবে কে-ফোল্ড ক্রস-বৈধকরণের জন্য এটি পর্যাপ্ত কিনা তাও তথ্যের মাত্রা (বৈশিষ্ট্যের সংখ্যা এবং বৈশিষ্ট্যের মান সংখ্যা) এর উপর নির্ভর করে। উদাহরণস্বরূপ, যদি প্রতিটি পর্যবেক্ষণে 100 টি বৈশিষ্ট্য থাকে তবে 1,500 টি পর্যবেক্ষণ কম।

কে-ভাঁজ ক্রস-বৈধকরণের আরেকটি সম্ভাব্য নেতিবাচক দিকটি হ'ল একক, চূড়ান্ত আউটলেটর ফলাফলগুলি স্কিউ করে। উদাহরণস্বরূপ, যদি আপনার কাছে এমন একটি চূড়ান্ত আউটলেট থাকে যা আপনার শ্রেণিবদ্ধাকে ভারীভাবে পক্ষপাত করতে পারে, তবে 10-ভাঁড়ের ক্রস-বৈধকরণে 10 পার্টিশনের 9 টি প্রভাবিত হবে (যদিও এলোমেলো বনাঞ্চলের জন্য, আমি মনে করি না যে আপনার সমস্যাটি হবে) )।

র্যান্ডম সাবসাম্পলিং (উদাহরণস্বরূপ, বুটস্ট্র্যাপ স্যাম্পলিং) পছন্দ হয় যখন আপনি হয় নীচে নমুনাযুক্ত হন বা যখন আপনার উপরের পরিস্থিতি থাকে, যেখানে আপনি চান না যে প্রতিটি পর্যবেক্ষণ কে -1 ভাঁজে প্রদর্শিত হবে appear


4

আমার অনুমান যে আপনি বলছেন যে আপনি 3-ভাঁড়ের ক্রস-বৈধতা ব্যবহার করতে চান কারণ আপনি আপনার ডেটা সম্পর্কে কিছু জানেন (যে কে = 10 ব্যবহার করা অত্যধিক উপকারের কারণ হতে পারে? আমি আপনার যুক্তিতে আগ্রহী)। আমি নিশ্চিত নই যে আপনি এটি জানেন, তবে তা না হলে আপনি কেবল বৃহত্তর কে ব্যবহার করতে পারেন।

আপনি যদি এখনও মনে করেন যে আপনি স্ট্যান্ডার্ড কে-ফোল্ড ক্রস-বৈধতা ব্যবহার করতে পারবেন না, তবে আপনি অ্যালগরিদমকে কিছুটা সংশোধন করতে পারেন: বলুন যে আপনি ডেটা 30 ভাগে বিভক্ত করেছেন এবং প্রতিবার প্রশিক্ষণের জন্য 20 এবং 10 মূল্যায়নের জন্য ব্যবহার করেন (এবং তারপরে স্থানান্তরিত করুন) এক ভাঁজ করুন এবং মূল্যায়ন হিসাবে প্রথম এবং শেষ 9 ব্যবহার করুন এবং বাকী প্রশিক্ষণ হিসাবে)। এর অর্থ হ'ল আপনি আপনার সমস্ত ডেটা ব্যবহার করতে সক্ষম।

আমি যখন কে-ফোল্ড ক্রস-বৈধকরণ ব্যবহার করি তখন আমার যথেষ্ট পরিমাণে ডেটা রয়েছে তা নিশ্চিত করার জন্য আমি সাধারণত একাধিকবার প্রক্রিয়াটি চালিত করি, যদি আপনি না পান তবে আপনি এলোমেলোকরণের উপর নির্ভর করে বিভিন্ন পারফরম্যান্স দেখতে পাবেন। এই জাতীয় ক্ষেত্রে আমি নমুনা দেওয়ার পরামর্শ দেব। কৌশলটি হ'ল এটি প্রায়শই যথেষ্ট।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.