[21.7.15 8:31 পূর্বাহ্ন সিএসটি সম্পাদিত]
আমি মনে করি আপনি শ্রেণিবিন্যাসের জন্য আরএফ ব্যবহার করেছেন। কারণ এই ক্ষেত্রে, অ্যালগরিদম কেবলমাত্র একটি লক্ষ্য শ্রেণীর খাঁটি টার্মিনাল নোড সহ সম্পূর্ণরূপে উত্থিত গাছ উত্পাদন করে।
predict(model, data=X_train)
এই কোডিংয়ের লাইনটি একটি কুকুরের মতো [~ 66%] নিজের লেজ তাড়া করছে। যে কোনও প্রশিক্ষণের নমুনার পূর্বাভাস হ'ল প্রশিক্ষণ নমুনার শ্রেণি। রিগ্রেশনের জন্য আরএফ স্টপ করে যদি নোডে 5 বা তার চেয়ে কম নমুনা থাকে বা নোড খাঁটি থাকে। এখানে পূর্বাভাস ত্রুটি ছোট হবে তবে 0% নয়।
মেশিন লার্নিংয়ে আমরা প্রায়শই বড় হাইপোথিসিস স্পেস নিয়ে কাজ করি। এর অর্থ হ'ল আমাদের প্রশিক্ষণ সেটের ডেটা স্ট্রাকচারের জন্য এখনও সবসময় অনেকগুলি মিথ্যা কল্পনা / ব্যাখ্যা / মডেল থাকবে না। শাস্ত্রীয় পরিসংখ্যানগুলিতে হাইপোথিসিসের স্থানটি প্রায়শই ছোট এবং সেইজন্য প্রত্যক্ষ মডেল-ফিট কিছু অনুমানযোগ্যতা তত্ত্ব অনুসারে তথ্যবহুল। মেশিন লার্নিংয়ে মডেলের পক্ষপাতদুষ্টতার সাথে সরাসরি অভাবের ফিট থাকে । বায়াস হ'ল মডেলের "অবিচ্ছেদ্যতা"। এটা নাযাইহোক, জেনারালাইজেশন শক্তি (নতুন ঘটনা পূর্বাভাস করার ক্ষমতা) এর একটি প্রায় অনুমান সরবরাহ করুন। অ্যালগরিদমিক মডেলগুলির জন্য ক্রস-বৈধকরণ আনুমানিক সাধারণীকরণ শক্তির সেরা সরঞ্জাম, কারণ কোনও তত্ত্ব তৈরি হয় না। তবে, যদি স্যাম্পলিং স্যাম্পলিংয়ের মডেল অনুমানগুলি ব্যর্থ হয় তবে মডেলটি কোনওভাবেই অকেজো হতে পারে, এমনকি যদি কোনও ভাল সম্পাদিত ক্রস-বৈধতা অন্যথায় প্রস্তাব দেওয়া হয়। শেষ পর্যন্ত, সবচেয়ে শক্তিশালী প্রমাণটি সন্তুষ্টিজনকভাবে বিভিন্ন উত্সের বাহ্যিক পরীক্ষা-সংস্থাগুলির পূর্বাভাস দেওয়া।
সিভিতে ফিরুন: আউট-অফ-ব্যাগ প্রায়শই একটি স্বীকৃত ধরণের সিভি হয়। আমি ব্যক্তিগতভাবে ধরে রাখব যে ওওবি-সিভি 5-ভাঁজ-সিভি হিসাবে একই ফলাফল সরবরাহ করে তবে এটি একটি খুব সামান্য উপদ্রব। যদি তুলনা করতে যাক এসভিএমকে আরএফ বলতে, তবে OOB-CV ব্যবহারযোগ্য নয় কারণ আমরা সাধারণত SVM ব্যাগ করা এড়াতে পারি। পরিবর্তে এসভিএম এবং আরএফ উভয়ই একই একই ক্রস-বৈধকরণ প্রকল্পে এম্বেড করা হবে যেমন প্রতিটি পুনরাবৃত্তির জন্য মিলবে পার্টিশনের সাথে 10-ভাঁজ 10-পুনরাবৃত্তি। যে কোনও বৈশিষ্ট্য ইঞ্জিনিয়ারিং পদক্ষেপগুলি প্রায়শই ক্রস-বৈধ হওয়া প্রয়োজন। জিনিসগুলি পরিষ্কার রাখতে পারলে পুরো ডেটা পাইপ-লাইন সিভিতে এম্বেড করা যেতে পারে।
আপনি যদি নিজের মডেলটিকে আপনার টেস্ট-সেট (বা ক্রস-বৈধকরণ) দিয়ে টিউন করেন তবে আপনি আবার আপনার অনুমানের স্থানটি স্ফীত করছেন এবং বৈধিকৃত পূর্বাভাসের পারফরম্যান্স সম্ভবত অতিরিক্ত আশাবাদী। পরিবর্তে আপনার চূড়ান্ত অনুকূল মডেলটি নির্ধারণের জন্য আপনার টিউন করার জন্য একটি ক্যালিব্রেশন-সেট (বা ক্যালিব্রেশন সিভি-লুপ) এবং একটি পরীক্ষার বৈধতা সেট (বা বৈধকরণ সিভি-লুপ) প্রয়োজন।
চূড়ান্ত অর্থে, আপনার বৈধতার স্কোরটি কেবলমাত্র পক্ষপাতহীন হবে যদি আপনি কখনই এই ফলাফলটিতে কাজ না করেন, যখন আপনি এটি দেখেন। এটি বৈধতার বৈপরীত্য, কেন আমরা কেন এমন জ্ঞান অর্জন করব যা আপনি যদি এটিতে কাজ না করেন তবেই সত্য। অনুশীলনে সম্প্রদায়টি স্বেচ্ছায় কিছু প্রকাশনার পক্ষপাতিত্ব গ্রহণ করে, যেখানে অযথা দুর্ভাগ্যজনকভাবে ওভার-হতাশাবাদী বৈধতা অর্জনকারীদের তুলনায় যারা গবেষকরা এলোমেলোভাবে একটি অতিরিক্ত-আশাবাদী বৈধতা পেয়েছিলেন তাদের প্রকাশের সম্ভাবনা বেশি। অতএব কখনও কখনও কেন অন্যদের মডেল পুনরুত্পাদন করতে পারে না।