র্যান্ডম অরণ্যের সাথে মডেলিংয়ের কি ক্রস-বৈধতা প্রয়োজন?


23

যতদূর আমি দেখেছি, মতামতগুলি সম্পর্কে এই বিষয়ে পৃথক প্রবণতা রয়েছে। সর্বোত্তম অনুশীলন অবশ্যই ক্রস-বৈধতা ব্যবহার করে নির্দেশ করবে (বিশেষত যদি একই ডেটাসেটের অন্যান্য অ্যালগরিদমের সাথে আরএফগুলির তুলনা করা হয়)। অন্যদিকে, মূল উত্সটি বলেছে যে মডেল প্রশিক্ষণের সময় ওওবি ত্রুটিটি গণনা করা হয় তা পরীক্ষার সেট পারফরম্যান্সের একটি সূচক যথেষ্ট। এমনকি ট্র্যাভর হাস্টিও তুলনামূলক সাম্প্রতিক আলোচনায় বলেছে যে "র্যান্ডম অরণ্যগুলি নিখরচায় ক্রস-বৈধতা সরবরাহ করে"। স্বজ্ঞাতভাবে, এটি আমার কাছে বোধগম্য হয়, যদি প্রশিক্ষণ দেওয়া হয় এবং কোনও ডেটাসেটে আরএফ-ভিত্তিক মডেলটি উন্নত করার চেষ্টা করা হয়।

কেউ দয়া করে এলোমেলো বনগুলির সাথে ক্রস-বৈধকরণের প্রয়োজনীয়তার পক্ষে এবং বিপক্ষে যুক্তি দিতে পারেন?


স্পষ্টভাবে মতামত চাওয়া প্রশ্নগুলি সাধারণত স্ট্যাক এক্সচেঞ্জ সাইটগুলি, ডেটাসায়েন্স.স্ট্যাকেক্সেঞ্জের.com / help / dont-ask এ নিরুৎসাহিত করা হয় , সম্ভবত আপনি ব্যবহারকারীদের অভিজ্ঞতার সমর্থনে উদাহরণগুলির প্রয়োজনের জন্য প্রশ্নটি পুনরায় লিখতে পারেন? অথবা একটি পদ বা অন্য অবস্থার জন্য তাত্ত্বিক ভিত্তি সন্ধান করুন।
চিত্র_ডোকার

2
এলোমেলো বনগুলি অন্যান্য এমএল অ্যালগরিদমের তুলনায় কম সম্ভাবনা রয়েছে তবে ক্রস-বৈধকরণ (বা কিছু বিকল্পের সাথে মূল্যায়নের হোল্ড-আউট ফর্ম) এখনও সুপারিশ করা উচিত।
ডেভিড

আমি মনে করি আপনি এই প্রশ্নটি পরিসংখ্যানবিদ এসও-তে জিজ্ঞাসা করবেন: stats.stackexchange.com
মার্সিন

আমি @ ডেভিডকে সেকেন্ড করতে চাই ... এক উপায় বা অন্যভাবে, আপনি ক্রস বৈধতা যাচ্ছেন।

আপনি কি ট্রেভর হাস্টির দাবি করা বিবৃতিটির জন্য একটি রেফারেন্স সরবরাহ করতে পারেন?
টিপানভেরেলা

উত্তর:


7

ডিফল্টরূপে র্যান্ডম অরণ্য প্রশিক্ষণের জন্য 2/3 তম ডেটা সংগ্রহ করে এবং পরীক্ষার জন্য বিশ্রামের জন্য প্রায় 70% ডেটা এবং শ্রেণিবিন্যাসের সময় পরীক্ষার জন্য বিশ্রাম নেয় principle নীতি অনুসারে যেহেতু এটি প্রতিটি গাছের বিভাজনের সময় চলক নির্বাচনটিকে এলোমেলো করে তোলে এটি অসদৃশভাবে প্রবণ নয় অন্যান্য মডেল.যদি আপনি যদি স্কলারনে এনফোল্ডগুলি ব্যবহার করে সিভি ব্যবহার করতে চান তবে আপনি এখনও আউট অফ সেট যেমন oob_score (আউট ব্যাগ) ধারণাটি ব্যবহার করতে পারেন = সত্য যা সিভি ব্যবহার করে বা ব্যবহার না করে মডেল অভিনয় দেখায়। সুতরাং সংক্ষেপে oob_score ব্যবহার করে = nfolds সহ বা না ছাড়াই সত্য বলতে পারবেন যে সিভি ব্যবহার করা আপনার ডেটার পক্ষে ভাল কিনা আপনার সাধারণভাবে যদি আপনার টার্গেটটি নির্দিষ্ট বন্টন অনুসরণ করে এবং আপনার সাথে পর্যবেক্ষণের খুব বেশি তথ্য না থাকে তবে সিভি ব্যবহার করলে তা দেবে না অনেক উন্নতি।


5

একটি মূল পার্থক্য হ'ল ক্রস বৈধতা নিশ্চিত করে যে সমস্ত নমুনা প্রশিক্ষণ এবং পরীক্ষার সেটে উপস্থিত হবে, সুতরাং আপনার 100% ডেটা প্রশিক্ষণের জন্য এবং পরীক্ষার জন্য কোনও পর্যায়ে ব্যবহৃত হয়।

আপনার ডেটাসেটের আকারের উপর ভিত্তি করে বুটস্ট্র্যাপিং, প্রতিস্থাপনের সাথে নমুনা দেওয়া, এলোমেলো বনভূমিতে ঘটলে গাছগুলি যে সমস্ত বিভাজন দেখবে তা গ্যারান্টি দেয় না গাছগুলি সমস্ত দৃষ্টান্ত ধারণ করে। আপনার বনাঞ্চলে পর্যাপ্ত পরিমাণে গাছ থাকলে ওওবি অনুমানটি অসম্পূর্ণভাবে সেরা ওওবি অনুমান মানের দিকে রূপান্তরিত হওয়া উচিত।

উভয় পদ্ধতির যথার্থতা কিছুটা উপাত্ত নির্ভর করে তাই আপনার সামনে থাকা নির্দিষ্ট ডেটাতে উভয় পদ্ধতির তুলনা করা সিভি এবং আরএফ ওওবি অনুমানের অনুরূপ মান দেয় কিনা তা বুদ্ধিমানের হতে পারে।

যদি তারা তা না করে, তবে এটি সম্ভবত সিভিতে কে-র আরও বেশি ভেল দ্বারা সত্য ত্রুটি হারের আরও অনুমানের অন্বেষণ করার পক্ষে হবে।


3

আমি 50k সারিগুলির একটি ডেটা সেট ব্যবহার করে কিছু পরীক্ষা করেছি sklearn.RandomForestRegressor

আমি উল্লেখযোগ্যভাবে পৃথক স্কোর পেয়েছি - আমি মেট্রিকের জন্য rf.oob_prediction_একটি সাধারণীকৃত গিনি ব্যবহার করছি - আমি (0.2927) বা কেফোল্ড সিভি (7 ফোল্ডের জন্য 0.3258 এবং 3 ভাজের জন্য 0.3236) ব্যবহার করি কিনা তার উপর নির্ভর করে ।

এটির সাথে এটি আপনার পয়েন্টটি উপস্থিত হয় "বিশেষত যদি একই ডেটাসেটের সাথে অন্যান্য অ্যালগরিদমের সাথে আরএফগুলির তুলনা করা হয়" তবে OOB পূর্বাভাসের উপর নির্ভর না করে ম্যানুয়াল সিভি ব্যবহারের দিকে দৃ consideration় বিবেচনা করা হয়।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.