কেন সাইকিট-লার বুটস্ট্র্যাপ ফাংশন পরীক্ষা সেটটির পুনরায় নমুনা দেয়?


15

মডেল মূল্যায়নের জন্য বুটস্ট্র্যাপিং ব্যবহার করার সময়, আমি সর্বদা ভেবেছিলাম যে ব্যাগের বাইরে থাকা নমুনাগুলি সরাসরি পরীক্ষার সেট হিসাবে ব্যবহৃত হয়েছিল। যাইহোক, এই ক্ষেত্রে দেখা হবে না মনে হচ্ছে, অনুমোদিত নয় এমন scikit-শিখতেBootstrap পদ্ধতির, যা আউট-অফ-ব্যাগ তথ্য উপসেট থেকে প্রতিস্থাপন দিয়ে ছবি আঁকার থেকে টেস্ট সেট নির্মাণের বলে মনে হয়। এর পিছনে পরিসংখ্যানগত যুক্তি কী? নির্দিষ্ট কৌশলগুলি আছে যেখানে এই কৌশলটি কেবল ব্যাগ-অফ-ব্যাগ-নমুনা বা তার বিপরীতে মূল্যায়ন করার চেয়ে ভাল?


ক্রস বৈধতা? রীস্যাম্পেলিং?
EngrStudent

আপনি যদি ট্যাগটি উল্লেখ করছেন তবে তা আমার দ্বারা যুক্ত করা হয়নি। আমি আসলে সিভি এর বিকল্প হিসাবে বুটস্ট্র্যাপিং করছি।
গিব্বারফিশ

আমার মনে হয় আপনি ভুল বুঝেছেন। ক্রস বৈধকরণে তারা ডেটার একটি উপসেটে প্রক্রিয়াটি কয়েকবার পুনরাবৃত্তি করতে এবং ফলাফল বা মডেল পরামিতিগুলির প্রকারের দিকে তাকাতে চলেছে। সেক্ষেত্রে প্যারামিটারের প্রকরণটি নিজেই ফিটের মানকে অবহিত করে এবং অগত্যা ওওবি ত্রুটি হয় না। আমি নির্দিষ্ট পাঠাগারটির সাথে পরিচিত নই তাই আমি এই ধারণাটি নিয়ে একটি মন্তব্য রেখেছি।
EngrStudent

উত্তর:


3

বুটস্ট্র্যাপ নমুনাগুলি অনেক পুনরাবৃত্তির দ্বারা অ্যালগরিদমের কার্যকারিতা মূল্যায়নের জন্য ব্যবহৃত হয়। এটি করার সময়, এলোমেলোভাবে পরিবর্তিত সেটগুলির পারফরম্যান্সটি মূল্যায়ন করা হয়।

বিপরীতে উদাহরণস্বরূপ 10 ভাঁজ ক্রস বৈধকরণ করার সময় আপনি বিভিন্ন ট্রেন এবং পরীক্ষা ডেটা সেটগুলিতে কেবল 10 টি পুনরাবৃত্তি করছেন।

n=20i=10,000

আপনার পোস্ট করা লিঙ্কটি নিচে রয়েছে, সুতরাং আমি স্কেলের্নের বর্তমান (0.14) সংস্করণে ফাংশনটির বিবরণ যুক্ত করেছি

পদ্ধতি বর্ণনা

প্রতিস্থাপন ক্রস-বৈধতা পুনরাবৃত্তকারী সাথে এলোমেলো নমুনা ইনপুট পুনর্নির্মাণের সময় ট্রেন পরীক্ষা সেটগুলিতে ডেটা বিভক্ত করার জন্য ট্রেন / পরীক্ষার সূচক সরবরাহ করে এন_সিটার বার: প্রতিটি সময় তথ্যের একটি নতুন এলোমেলো বিভাজন সম্পাদন করা হয় এবং তারপরে প্রতিটি পাশেই নমুনা আঁকানো হয় (প্রতিস্থাপনের সাথে) প্রশিক্ষণ এবং পরীক্ষার সেটগুলি তৈরি করতে বিভক্ত হওয়ার। দ্রষ্টব্য: অন্যান্য ক্রস-বৈধকরণের কৌশলগুলির বিপরীতে, বুটস্ট্র্যাপিং কিছু নমুনা প্রতিটি বিভাজনে কয়েকবার ঘটতে দেয়। তবে ট্রেনের বিভাজনে ঘটে এমন নমুনা কখনই পরীক্ষার বিভক্ত এবং তদ্বিপরীত হয় না। আপনি যদি প্রতিটি নমুনা একবারে ঘটতে চান তবে আপনার পরিবর্তে সম্ভবত শ্যাফলস্প্লিট ক্রস বৈধতা ব্যবহার করা উচিত।


2

সম্ভবত আপনি কিছু ছিল। মনে হয় অন্যরাও একই থ্রেডের দিকে টানছিল এবং চেষ্টা করা এবং সত্যিকারের পদ্ধতির সাথে পদ্ধতির Bootstrapআরও ইচ্ছাকৃত ব্যবহারের পক্ষে অবহেলা করা হয়েছিল ।resamplesklearn.cross_validationStratifiedKFold

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.