বৈধতা এবং মডেল নির্বাচনের জন্য বুটস্ট্র্যাপিং বোঝা


13

আমি মনে করি কীভাবে বুটস্ট্র্যাপিংয়ের মৌলিক কাজগুলি আমি বুঝতে পারি তবে আমি নিশ্চিত না যে আমি কীভাবে মডেল নির্বাচনের জন্য বা অত্যধিক ফিটনেস এড়াতে বুটস্ট্র্যাপিং ব্যবহার করতে পারি understand

মডেল নির্বাচনের জন্য, উদাহরণস্বরূপ, আপনি কি কেবল তার মডেলটি বেছে নেবেন যা তার বুটস্ট্র্যাপের নমুনাগুলি জুড়ে সর্বনিম্ন ত্রুটি (সম্ভবত বৈকল্পিক?) দেয়?

এমন কোনও পাঠ্য রয়েছে যা মডেল নির্বাচন বা বৈধতার জন্য বুটস্ট্র্যাপিং কীভাবে ব্যবহার করবেন তা আলোচনা করে?

সম্পাদনা করুন: দেখুন এই এই প্রশ্নের পিছনে আরো কনটেক্সট জন্য থ্রেডে, এবং @ mark999 দ্বারা উত্তর।


@ সানকুলসু যদি আমার কাছে A, B এবং C মডেল বেছে নেওয়ার জন্য থাকে তবে আমি সাধারণত মডেল বাছাই করতে ক্রস বৈধতা বা বুটস্ট্র্যাপ ব্যবহার করতে পারি 1) আমি ভবিষ্যদ্বাণী সঠিকতা / র‌্যাঙ্কিংয়ে আগ্রহী এবং 2) হোল্ড আউট করার জন্য আমার পর্যাপ্ত ডেটা নেই বৈধতা সেট। কেন এটি ভাল ধারণা হবে না (এবং আমি জানি যে বৈশিষ্ট্য নির্বাচন ইত্যাদির জন্য নেস্টেড বৈধতা গুরুত্বপূর্ণ)।
বি_মিনার

এই থ্রেডে @ চিহ্ন৯৯৯ এর উত্তরটি এখনও ওভারফিটিংয়ের সাথে মোকাবিলা করার সময় পুরো ডেটাসেটে কোনও মডেল শেখার সমাধান হিসাবে বুটস্ট্র্যাপ বৈধকরণের পরামর্শ দেয়। এই উত্তরটি হ'ল যা এই প্রশ্নকে অনেকাংশে অনুপ্রাণিত করেছিল এবং সেই থ্রেডের মূল প্রশ্নটিও এই প্রশ্নের প্রসঙ্গ যুক্ত করতে পারে।
আমেলিও ওয়াজকেজ-রেইনা

1
আমি দুঃখিত - সম্ভবত এটিই আমি একটি পরিসংখ্যানবিদ - তবে আমি মনে করি ক্রস-বৈধতা এবং বুটস্ট্র্যাপ দুটি আলাদা জিনিস হিসাবে। ক্রস-বৈধকরণ দুর্দান্ত এবং অবশ্যই করা হবে (এবং পাশাপাশি বুটস্ট্র্যাপ)। তবে আপনি যদি এ, বি, সি (কেবল তিনটি মডেল) এর মধ্যে বেছে নেওয়ার মতো পরিস্থিতিতে থাকেন তবে বিআইসি আরও ভাল পছন্দ হতে পারে। যেমনটি আমি বলেছি, সমাধানটি সমস্যাটির উপর নির্ভর করে এবং একাধিক পদ্ধতি যথাযথ হতে পারে।
suncoolsu

2
এআইসি সাধারণত বিআইসির চেয়ে কম আন্ডারফিট করে।
ফ্র্যাঙ্ক হ্যারেল

উত্তর:


14

প্রথমে আপনাকে সিদ্ধান্ত নিতে হবে আপনার সত্যিকারের মডেল নির্বাচন দরকার কিনা, অথবা আপনাকে কেবল মডেল করতে হবে। সর্বাধিক পরিস্থিতিতে, মাত্রিকতার উপর নির্ভর করে, একটি নমনীয় বিস্তৃত মডেল ফিটিং পছন্দ করা হয়।

বুটস্ট্র্যাপ কোনও মডেলের পারফরম্যান্স অনুমান করার দুর্দান্ত উপায়। অনুমান করার জন্য সহজ জিনিস হ'ল ভেরিয়েন্স। আপনার মূল বক্তব্যটি আরও, নতুন ডেটা এখনও উপলব্ধি না করে বুটস্ট্র্যাপ কোনও প্রদত্ত মডেলিং পদ্ধতির সম্ভাব্য ভবিষ্যতের পারফরম্যান্সটি অনুমান করতে পারে।

মডেল টিউনিংয়ের পরামিতিগুলি বেছে নেওয়ার এবং মডেলটি অনুমান করার জন্য উভয়কে পুনরায় মডেলিং (বুটস্ট্র্যাপ বা ক্রস-বৈধকরণ) ব্যবহার করা হলে আপনার ডাবল বুটস্ট্র্যাপ বা নেস্টেড ক্রস-বৈধকরণ প্রয়োজন।

সাধারণভাবে বুটস্ট্র্যাপের ক্রস-বৈধকরণের চেয়ে কম মডেল ফিট (প্রায় 300 এর কাছাকাছি) প্রয়োজন (স্থায়িত্বের জন্য 10-গুণ ক্রস-বৈধতা 50-100 বার পুনরাবৃত্তি করা উচিত)।

কিছু সিমুলেশন স্টাডি http://biostat.mc.vanderbilt.edu/rms এ পাওয়া যেতে পারে


2
বাহ, আমি জানতাম না যে 10-গুণ সিভি 50-100 বার পুনরাবৃত্তি করা উচিত! আমাকে আমার শেষ প্রকল্পটি আবার দেখতে হবে এবং তার পরিবর্তে বুটস্ট্র্যাপ পরীক্ষার চেষ্টা করতে হবে। এই ওয়েবসাইটটি ভালবাসুন: আমি প্রতিদিন কিছু শিখি!
ওয়েইন

ধন্যবাদ @ ফ্র্যাঙ্ক! বলুন যে আমার কাছে একই # পরামিতিগুলির সাথে প্রার্থী মডেলগুলির একটি সেট রয়েছে, তারা কি বুটস্ট্র্যাপের অনুমানের তুলনায় কম বৈচিত্র সহ আরও ভাল প্রার্থী (ধরে নিচ্ছেন যে মোট লোকসান বা ঝুঁকি তাদের সকলের জন্যই একই ছিল) লড়াইয়ের জন্য?
অ্যামিলিও ওয়াজকেজ-রেইনা

আমি এটা ধরে নিব তবে এটি সম্ভব।
ফ্র্যাঙ্ক হ্যারেল

দুর্দান্ত উত্তর, আপনাকে ধন্যবাদ! আমি জানতাম না যে মডেল বৈধকরণের জন্য বুটস্ট্র্যাপও ব্যবহার করা যেতে পারে এবং ক্রস বৈধতা অনেকবার পুনরাবৃত্তি করা দরকার। আমি এই পদ্ধতির আরেকটি সুবিধা দেখতে পাচ্ছি: ক্রস বৈধকরণের জন্য পূর্বেই ভাঁজগুলির সংখ্যা নির্ধারিত (বিষয়গতভাবে) প্রয়োজন হয়, সাধারণত 10, যা অনুকূলের চেয়ে কম-বেশি হিউরিস্টিক। তবে যদিও এটি দুর্দান্ত পদ্ধতি, কেন এটি ক্রস বৈধতার মতো জনপ্রিয় বলে মনে হচ্ছে না?
সিক্সলম

বুটস্ট্র্যাপের মডেল বৈধতা মোটামুটি জনপ্রিয়, তবে ক্রস-বৈধতা প্রায় দীর্ঘ হয়েছে। আপনি যেমনটি বলেছিলেন যে সিভিতে # টি ভাঁজ বেছে নেওয়ার ক্ষেত্রে কিছুটা স্বেচ্ছাচারিতা রয়েছে।
ফ্র্যাঙ্ক হ্যারেল

3

মডেল গড়ের জন্য বুটস্ট্র্যাপ ব্যবহার বিবেচনা করুন ।

নীচের কাগজটি সাহায্য করতে পারে, কারণ এটি বুটস্ট্র্যাপ মডেলের গড় পদ্ধতির গড় তুলনা করে (আরও সাধারণভাবে ব্যবহৃত হয়?) বেয়েসিয়ান মডেলিং গড় গড় করে, এবং মডেলটির গড় সম্পাদন করার জন্য একটি রেসিপি দেয়।

বায়ু দূষণ এবং মৃত্যুহারের পার্টিকুলেট পদার্থের টাইম সিরিজ সমীক্ষায় গড় বুটস্ট্র্যাপ মডেল


আমি বেশিরভাগ ক্ষেত্রে গড় গড়ের মডেলগুলির জন্য বুটস্ট্র্যাপের পরামর্শ দেব না। একটি নতুন পদ্ধতি কীভাবে তৈরি করা যায় তা বলার পরিবর্তে একটি মডেলিং পদ্ধতি কীভাবে সম্পাদন করে তা বুটস্ট্রেপই সেরা। যদিও এর ব্যতিক্রম আছে।
ফ্রাঙ্ক হ্যারেল

@ ফ্র্যাঙ্ক হ্যারেল - একমত আমি যে কাগজটি উল্লেখ করেছি সেগুলি প্রযোজ্য আমি মাঝে মাঝে কাজ করি এবং আপনি যে দৃশ্যের বিবরণ দিয়েছিলেন তার জন্য আমি বুটস্ট্র্যাপ ব্যবহার করেছি: নমুনা ত্রুটির কারণে একটি নির্দিষ্ট মডেলের পরিবর্তনের মূল্যায়ন। তবে মডেল নির্বাচনের কারণে অনিশ্চয়তা মূল্যায়ন করা আরও শক্ত এবং বুটস্ট্র্যাপের মডেলটির গড় পদ্ধতির সাহায্য হিসাবে কার্যকর হতে পারে, বিশেষত আমার মতো অনুশীলনকারীদের ক্ষেত্রে, যাদের বয়েসিয়ান মডেল গড় গড়ের সমস্যাগুলি সংস্কার করার অভিজ্ঞতা / পটভূমির অভাব রয়েছে।
জোশ হেমেন

2
না, আমি বলব যে আগাম মডেলটি না জানার কারণে যে ক্ষয় হয়েছে তার মূল্যায়ন দেওয়ার জন্য বুটস্ট্র্যাপটি দুর্দান্ত। এর অর্থ এই নয় যে আপনার প্রয়োজনীয় জিনিসগুলি উন্নত করতে বুটস্ট্র্যাপ ব্যবহার করা উচিত, যেমন অনিশ্চিত মডেলের একটি সেটকে গড়ে গড়ে তোলা। আপনার যদি এইভাবে বুটস্ট্র্যাপটি ব্যবহার করা উচিত তবে গড় মডেলটির পারফরম্যান্সের সততার মূল্যায়ন পেতে আপনার ডাবল বুটস্ট্র্যাপের প্রয়োজন হবে। আমার লক্ষ করা উচিত যে এলোমেলো বনগুলি বুটস্ট্র্যাপ ব্যবহার করে গড় মডেলগুলির একটি ফর্ম।
ফ্রাঙ্ক হ্যারেল

ডাবল বুটস্ট্র্যাপ সম্পর্কে ভাল পয়েন্ট। আমি যে কাগজটি উল্লেখ করেছি তার লেখকগণের এ সম্পর্কে একটি ফলোআপ পেপার রয়েছে: বায়ু দূষণ মরণশীলতা স্টাডিজের মডেল নির্বাচনের মডেল অনিশ্চয়তা হ্রাস করার জন্য বুটস্ট্র্যাপ-পরে-বুটস্ট্র্যাপ মডেল
জোশ হেমেন

ভাল. শুধু মনে রাখবেন যে এটি প্রায়শই একটি ওভারকিল। বিষয়-চালিত পুরো মডেলটি পোজ করা এবং সংকোচনের (দণ্ডিতকরণ) বেশি পরিমাণে ব্যবহার করা গেলে এটি ব্যবহার করা ভাল; তবে এটি এখনও একটি মডেল।
ফ্র্যাঙ্ক হ্যারেল
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.