সর্বোচ্চ নির্ভুলতা অর্জনের জন্য কি এলোমেলোভাবে বনভূমিতে বীজ স্থাপন করা 'ন্যায্য'?


11

আমার কাছে এসএলএল ব্যবহার করে একটি র‌্যান্ডম ফরেস্ট রিগ্রেশন রয়েছে এবং আমি নোট করেছি যে এলোমেলো বীজকে বিভিন্ন মানকে সেট করার উপর ভিত্তি করে আমি বিভিন্ন ফলাফল পেয়েছি।

আমি যদি কোন বীজটি সর্বোত্তমভাবে কাজ করে তা প্রতিষ্ঠিত করতে LOOCV ব্যবহার করি, তবে এটি কি বৈধ পদ্ধতি?


1
প্রতিযোগিতায় লোকেরা তা করে। যদিও একাডেমিয়ার পক্ষে এটি ন্যায়সঙ্গত হওয়া শক্ত হবে।
ফায়ারবাগ

2
একটি চরম কেস দৃশ্যের কথা চিন্তা করুন: আমরা একটি খেলা খেলি: আমরা দুটি ডাইস রোল করি এবং আমাদের মধ্যে যারা বেশি পরিমাণে জয়ী হয়। তবে আসলে আমাকে দুবার ডাইস রোল করার অনুমতি দেওয়া হয়েছে। আপনি কি ফর্সা? আমার উল্লেখ করা যাক যে এলোমেলো বীজ সেট করা প্রজননযোগ্য গবেষণার একটি অবিচ্ছেদ্য অঙ্গ এবং সর্বদা করা উচিত। এর অর্থ এই নয় যে আমাদের "অনুকূল বীজ" না পাওয়া পর্যন্ত আমাদের অনেকগুলি বিভিন্ন বীজ চেষ্টা করা উচিত।
usεr11852

@ usεr11852 আপনি বর্তমানে গৃহীত উত্তরের বিষয়ে আমার মন্তব্য সম্পর্কে কী মনে করেন? আমি নিশ্চিত নই যে এটি কিমান্সের মতো এলোমেলো পুনঃসূচনাগুলির চেয়ে আলাদা কিনা। কেউ মনে করে না যে আমরা এটির প্রথম রানটি গ্রহণ করতে আমাদের বাধ্য করা উচিত, বিন্দু পুনর্সূচনাগুলি আর এর মানক ফাংশনটিতে অন্তর্নির্মিত হয় যদি না আপনি মডেলটিকে মডেলের চেয়ে 100 বার কম্মান চলমান হিসাবে বিবেচনা করেন কেবল একক সেরা ক্লাস্টারিং হচ্ছে
জেএলডি

না actual এটি সত্যিকারের এলোমেলোভাবে উপরের ফিটনের খুব সংজ্ঞার মতো বলে মনে হচ্ছে।
মার্ক হোয়াইট

@ চকন: যথাযথ বৈধতার প্রয়োজনীয়তার বিষয়ে আপনার বক্তব্যকে আমি সম্পূর্ণ সমর্থন করি support এটি বলেছে যে আমি মনে করি দুটি ব্যবহারের ক্ষেত্রে একটি মূল পার্থক্য রয়েছে: কে-মানেগুলির ক্ষেত্রে (বা সাধারণভাবে স্টোকাস্টিক অপ্টিমাইজেশন) আমরা প্যারামিটারগুলির একটি "সর্বোত্তম সেট" সন্ধান করি যখন সিভিতে আমরা একটি "প্রতিনিধি সেট" যত্ন করি "। প্রাথমিক ক্ষেত্রে আমরা "আমরা কতটা ভাল হতে পারি" তা দেখানোর চেষ্টা করি যখন পরবর্তী ক্ষেত্রে "আমরা কতটা ভাল থাকব"।
usεr11852

উত্তর:


11

উত্তর না হয়

আপনার মডেলটি আপনি ব্যবহার প্রতিটি বীজের জন্য আলাদা ফলাফল দেয়। এটি মডেলটির অ-নিরঙ্কুশ প্রকৃতির ফলাফল। বৈধতা সেটটিতে পারফরম্যান্সকে সর্বাধিক করে তোলে এমন একটি নির্দিষ্ট বীজ বেছে নেওয়ার অর্থ এই যে আপনি "বিন্যাস" বেছে নিয়েছেন যা এই সেটটি সবচেয়ে ভাল ফিট করে। যাইহোক, এটি গ্যারান্টি দেয় না যে এই বীজের সাথে মডেল একটি পৃথক পরীক্ষার সেটটিতে আরও ভাল পারফর্ম করবে । এর সহজ অর্থ হ'ল আপনি যাচাইকরণ সেটটিতে মডেলটিকে ওভারফিট করেছেন

এই প্রভাবটি হ'ল কারণ আপনি অনেক লোককে দেখেন যে পাবলিক টেস্ট সেটে প্রতিযোগিতায় (যেমন: ক্যাগল) উচ্চমান রয়েছে, লুকানো পরীক্ষার সেটটিতে পড়ে যায় fall এই পদ্ধতির কোনও উপায় দ্বারা সঠিক পদ্ধতির বিবেচনা করা হয় না


4
হ্যাঁ, এই কারণেই ক্রস-বৈধকরণটি একটি শক্তিশালী কৌশল এবং এছাড়াও কেন লোকেরা একটি বৈধতা এবং একটি পরীক্ষা সেট উভয়ই ব্যবহার করে (একটিটি মডেল নির্বাচনের ভিত্তিতে ভিত্তি করে এবং একটি পক্ষপাতহীন মূল্যায়ন পাওয়ার জন্য)।
ডিজিব

1
আমি সন্তুষ্ট নই. ননকনভেক্স অপ্টিমাইজেশনের সাথে এলোমেলো পুনঃসূচনা করা নিয়মিত কারণ বিভিন্ন বীজ একেবারে ভিন্ন মডেলের প্যারামিটারের অনুমানের দিকে নিয়ে যায় এবং কেবল দুর্ভাগ্য দ্বারা আপনি খারাপ রূপান্তর করতে পারেন। উদাহরণস্বরূপ কম্মান সহ এটি সুপরিচিত। এলোমেলোভাবে অরণ্যের সাথে কেবলমাত্র সুযোগটিই সম্ভবত আপনার মডেলটি অনেকগুলি সাবপার বিভাজন করে শেষ করবে। আমি মনে করি না যে এটি বিভিন্ন রানের কারণে বিভিন্ন মডেলের পরামিতি অনুমানের দিকে পরিচালিত হয় এবং এটি কিছুটা অন্যের চেয়ে ভাল করতে পারে recognize অবশ্যই এটি নমুনা কর্মক্ষমতা থেকে সঠিকভাবে মূল্যায়ন করার উপর শর্তযুক্ত।
jld

5
@ ব্যবহারকারী 2723494 সাধারণীকরণ ব্যয় না করে পারফরম্যান্স বাড়ানোর আশায় হাইপার-পরামিতিগুলির জন্য এটি বৈধ। তবে বৈধতা সেটটিতে প্যারামিটারগুলিকে বার বার সূক্ষ্ম সুরকরণে আমি বর্ণিত একই প্রভাবটি তৈরি করতে হবে (বৈধতা সেটটিতে অতিরিক্ত ফিট করা)। কারণ র্যান্ডম বীজবপন তার প্রকৃতি সম্ভাব্যতার সূত্রাবলি দ্বারা এটা পর্যন্ত আরো কারণে কারণে চেয়ে overfitting আসলে একটি ভাল মডেল উত্পাদিত হয়েছে করতে পারফরম্যান্সের উন্নতি করতে সম্ভবত।
ডিজিব

4
@ চকনকে আমি বলিনি যে এটি অসম্ভব। তবে এই পদ্ধতির দ্বারা এটি এমন একটি বীজ নির্বাচন করার সম্ভাবনা বেশি যা প্রকৃতপক্ষে আরও ভাল মডেল তৈরি করে এমন
একটিকে ছাড়িয়ে যায়

4
সত্যি কথা বলতে, আমি কখনও এমএল অ্যালগরিদম (এবং তাদের স্টোকাস্টিক প্রকৃতি থেকে বঞ্চিত করা) একটি ভাল অনুশীলন হিসাবে বিবেচনা করি নি। এই প্রশ্নটি করে ওপি একটি নতুন প্রশ্ন তৈরি করেছে । আমি আপনার প্রতিক্রিয়া পড়তে আগ্রহী!
ডিজিব
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.