পূর্বাভাস ত্রুটিটি অনুমান করার জন্য ক্রস বৈধকরণ এবং বুটস্ট্র্যাপিংয়ের মধ্যে পার্থক্য


102

পূর্বাভাস ত্রুটিটি অনুমান করার জন্য ক্রস বৈধকরণ এবং বুটস্ট্র্যাপিংয়ের মধ্যে পার্থক্য সম্পর্কে আমি আপনার মতামত চাই।

ছোট ডেটাसेट মাপ বা বড় ডেটাসেটের জন্য কি আরও ভাল কাজ করা যায়?

উত্তর:


88

এটি বৈকল্পিকতা এবং পক্ষপাতদুষ্টে নেমে আসে (যথারীতি)। সিভি কম পক্ষপাতদুষ্ট বলে মনে হয় তবে কে-ফোল্ড সিভিতে যথেষ্ট বড় বৈচিত্র রয়েছে large অন্যদিকে, বুটস্ট্র্যাপিং এর প্রকরণটি মারাত্মকভাবে হ্রাস করতে পারে তবে আরও পক্ষপাতদুষ্ট ফলাফল দেয় (তারা হতাশাব্যঞ্জক হতে থাকে)। অন্যান্য বুটস্ট্র্যাপিং পদ্ধতিগুলি বুটস্ট্র্যাপ পক্ষপাতমূলক (যেমন such৩২ এবং 2৩২+ বিধি) মোকাবিলা করার জন্য গ্রহণ করা হয়েছে।

অন্য দুটি পন্থা হ'ল "মন্টি কার্লো সিভি" ওরফে "লিভ-গ্রুপ-আউট সিভি" যা অনেকগুলি ডেটা এলোমেলোভাবে বিভক্ত করে তোলে (সাজানোর মতো মিনি প্রশিক্ষণ এবং পরীক্ষার বিভাজন)। এই পদ্ধতির জন্য ভেরিয়েন্সটি খুব কম এবং যদি হোল্ড-আউট-এ থাকা ডেটার পরিমাণ কম থাকে তবে পক্ষপাত খুব খারাপ হয় না। এছাড়াও, পুনরাবৃত্ত সিভি বেশ কয়েকবার কে-ভাঁজ করে এবং নিয়মিত কে-ফোল্ডের মতো ফলাফলের গড় গড় করে। আমি এর পক্ষে সবচেয়ে বেশি আংশিক, যেহেতু এটি কম পক্ষপাতিত্ব রাখে এবং বৈকল্পিকতা হ্রাস করে।

সম্পাদন করা

বড় আকারের নমুনা আকারের জন্য, বৈকল্পিক বিষয়গুলি কম গুরুত্বপূর্ণ হয়ে যায় এবং গণনার অংশটি আরও একটি সমস্যা issues আমি এখনও ছোট এবং বড় নমুনা আকারের জন্য পুনরাবৃত্ত সিভি দ্বারা আটকে থাকব।

কিছু প্রাসঙ্গিক গবেষণা নীচে রয়েছে (esp কিম এবং মলিনারো)।

তথ্যসূত্র

বেনজিও, ওয়াই, এবং গ্র্যান্ডওয়ালেট, ওয়াই (2005)। কে-ভাঁজ ক্রস-বৈধকরণের বৈকল্পিক অনুমানের ক্ষেত্রে বায়াস। জটিল ডেটা সমস্যার জন্য পরিসংখ্যানের মডেলিং এবং বিশ্লেষণ, 75-95।

ব্রাগা-নেটো, ইউএম (2004)। ছোট-নমুনা মাইক্রোয়ারে শ্রেণিবদ্ধকরণ বায়োইনফরম্যাটিক্স, 20 (3), 374–380 এর জন্য ক্রস-বৈধতা বৈধ valid ডোই: 10,1093 / বায়োইনফরম্যাটিক্স / btg419

ইফ্রন, বি (1983)। পূর্বাভাস বিধির ত্রুটি হারের অনুমান করা: ক্রস-বৈধকরণের উন্নতি। আমেরিকান স্ট্যাটিস্টিকাল অ্যাসোসিয়েশন জার্নাল, 316–331।

ইফ্রন, বি।, এবং তিবশিরানী, আর। (1997)। ক্রস-বৈধকরণের উন্নতি: 632+ বুটস্ট্র্যাপ পদ্ধতি। আমেরিকান পরিসংখ্যান সমিতি জার্নাল, 548-5560।

ফুরলেনেলো, সি।, মেরার, এস।, চেমিনি, সি।, এবং রিজোলি, এ। (1997)। বাস্তুসংক্রান্ত ডেটাতে বুটস্ট্র্যাপের 632+ নিয়মের একটি অ্যাপ্লিকেশন। WIRN 97।

জিয়াং, ডাব্লু।, এবং সাইমন, আর। (2007) মাইক্রোয়ারে শ্রেণিবিন্যাসে পূর্বাভাস ত্রুটির অনুমান করার জন্য বুটস্ট্র্যাপ পদ্ধতির তুলনা এবং একটি সমন্বিত বুটস্ট্র্যাপ পদ্ধতির। মেডিসিনে পরিসংখ্যান, 26 (29), 5320–5334।

জোনাথন, পি।, ক্রজানোভস্কি, ডাব্লু।, এবং ম্যাকার্থি, ডাব্লু। (2000)। মাল্টিভিয়ারেট পূর্বাভাসে পারফরম্যান্স মূল্যায়নের জন্য ক্রস-বৈধকরণের ব্যবহার। পরিসংখ্যান এবং কম্পিউটিং, 10 (3), 209-2229।

কিম, জে.এইচ। (2009)। শ্রেণিবদ্ধকরণ ত্রুটির হার অনুমান করা: বারবার ক্রস-বৈধকরণ, বারবার হোল্ড-আউট এবং বুটস্ট্র্যাপ। গণনা সংক্রান্ত পরিসংখ্যান এবং ডেটা বিশ্লেষণ, 53 (11), 3735–3745। ডোই: 10,1016 / j.csda.2009.04.009

কোহাবী, আর। (1995)। সঠিকতা অনুমান এবং মডেল নির্বাচনের জন্য ক্রস-বৈধতা এবং বুটস্ট্র্যাপের একটি অধ্যয়ন। কৃত্রিম বুদ্ধিমত্তার উপর আন্তর্জাতিক যৌথ সম্মেলন, 14, 1137–1145।

মার্টিন, জে, এবং হিরসবার্গ, ডি। (1996)। শ্রেণিবিন্যাস ত্রুটির হারের জন্য ছোট নমুনার পরিসংখ্যান I: ত্রুটি হারের পরিমাপ।

মলিনারো, এএম (2005) পূর্বাভাস ত্রুটির অনুমান: পুনরায় মডেলিং পদ্ধতির একটি তুলনা। বায়োইনফরম্যাটিকস, 21 (15), 3301–3307। ডোই: 10,1093 / বায়োইনফরম্যাটিক্স / bti499

সৌরব্রেই, ডাব্লু। এবং শুমাচাআর 1, এম (2000)। ডেটা-চালিত রিগ্রেশন মডেলগুলির জটিলতা নির্ধারণের জন্য বুটস্ট্র্যাপ এবং ক্রস-বৈধকরণ। মেডিকেল ডেটা বিশ্লেষণ, 26-28।

তিবশিরানী, আরজে, এবং তিবশিরানী, আর। (২০০৯)। ক্রস-বৈধকরণের সর্বনিম্ন ত্রুটি হারের জন্য একটি পক্ষপাত সংশোধন। আরাক্সিভ প্রিপ্রিন্ট আরএক্সিভ: 0908.2904।


2
বুটস্ট্র্যাপ পক্ষপাতিত্ব হতাশাবাদী নয়, এটি আশাবাদী (সাধারণ বুটস্ট্র্যাপ নয় .0632)। এটি কারণ মডেলটি পরীক্ষা করতে বুটস্ট্র্যাপ প্রচুর প্রশিক্ষণের উপাদান ব্যবহার করে যা নমুনা ত্রুটির জন্য প্রচুর ওজন নিয়ে যায়।
ডি 1 এক্স

33

@ ফ্র্যাঙ্ক হ্যারেল এই প্রশ্নটিতে অনেক কাজ করেছেন। আমি নির্দিষ্ট উল্লেখ জানি না।

তবে আমি বরং দুটি কৌশলকে বিভিন্ন উদ্দেশ্যে দেখছি। মডেলটির সিদ্ধান্ত নেওয়ার সময় ক্রস যাচাইকরণ একটি ভাল হাতিয়ার - এটি আপনাকে নিজের চেয়ে বেশি বুদ্ধি এড়াতে সহায়তা করে যে বাস্তবে আপনি বেশি মানা করার সময় আপনার একটি ভাল মডেল রয়েছে।

যখন আপনার মডেলটি স্থির হয়ে যায়, তারপরে বুটস্ট্র্যাপ ব্যবহার করা আরও বেশি অর্থবোধ করে (কমপক্ষে আমার কাছে)।

Http://www.burns-stat.com/pages/Tutor/bootstrap_resampling.html এ আর ব্যবহার করে এই ধারণাগুলির (আরও অনুমানের পরীক্ষাগুলি) একটি ভূমিকা রয়েছে


2
কোনও মডেল নির্বাচন করার জন্য প্রথমে সিভি ব্যবহার করা কি বোধগম্য নয় এবং এর পরে আপনার অনুমানের ত্রুটিগুলি মূল্যায়ন করতে একই ডেটাতে বুটস্ট্র্যাপিং ব্যবহার করে? বিশেষত আমি অজানা নন গাউসিয়ান শোরগোলের সাথে ডেটাতে এমএল ব্যবহার করে লিনিয়ার রিগ্রেশন করতে চাই।
sebhofer

9

আমার বোধগম্যতা হল যে বুটস্ট্র্যাপিং আপনার মডেলের অনিশ্চয়তা পরিমাপ করার একটি উপায়, যখন ক্রড বৈধকরণ মডেল নির্বাচন এবং ভবিষ্যদ্বাণীক নির্ভুলতা পরিমাপের জন্য ব্যবহৃত হয়।


উত্তরের জন্য অনেক ধন্যবাদ। আমি ভেবেছিলাম আপনার যখন ছোট ডেটা সেট থাকে (<30 obs) তখন বুটস্ট্র্যাপিং আরও ভাল। কোন?
অনুদান দিন

আমি তাই মনে হবে। আপনার যদি একটি ছোট নমুনার আকার থাকে তখন ক্রস বৈধতা যুক্তিসঙ্গত হতে পারে। আপনি ক্রস বৈধতা এক ছেড়ে যেতে পারে কিন্তু এটি অতিশক্তিকর হতে থাকে।
গ্লেন

এছাড়াও লক্ষ করুন যে একটি ছোট নমুনা দিয়ে বুটস্ট্র্যাপিং করা কিছু পক্ষপাতদুষ্ট অনুমানের দিকে নিয়ে যাবে, যেমন ইফ্রনের মূল কাগজে উল্লিখিত হয়েছে।
গ্লেন

ভবিষ্যদ্বাণীমূলক নির্ভুলতা পরিমাপ করা কি অনিশ্চয়তা মাপার উপায় নয়? আমি বুঝতে পারছি মডেল নির্বাচনের জন্য সিভি বেশি সাধারণ, তবে আসুন আমি বলি যে আমি একটি লাসোর জন্য এটিসি অনুমান করতে চাই, সিভি নাকি বুটস্ট্র্যাপিং আরও ভাল?
ম্যাক্স ঘেনিস

9

একটি পার্থক্য হ'ল জ্যাককেনিফের মতো ক্রস-বৈধকরণ আপনার সমস্ত ডেটা পয়েন্ট ব্যবহার করে, যেখানে বুটস্ট্র্যাপিং, যা আপনার ডেটা এলোমেলোভাবে প্রতিস্থাপন করে, সমস্ত পয়েন্টগুলিতে আঘাত না করে।

আপনি যতক্ষণ চান বুটস্ট্র্যাপ করতে পারেন, এর অর্থ একটি বৃহত আকারের নমুনা, যা ছোট নমুনাগুলিতে সহায়তা করবে।

ক্রস-বৈধকরণ বা জ্যাকনিফের গড় অর্থ নমুনা গড়ের মতোই হবে, তবে বুটস্ট্র্যাপের গড়ের নমুনা গড়ের মতো হওয়ার সম্ভাবনা খুব কম।

ক্রস-বৈধকরণ এবং জ্যাকনিফের ওজন হিসাবে সমস্ত নমুনা একইরূপে নির্দেশ করে, বুটস্ট্র্যাপের তুলনায় তাদের একটি ছোট (যদিও সম্ভবত ভুল) আস্থার ব্যবধান থাকতে হবে।


2
নীল, আপনার বিবৃতি ভুল বলে মনে হয় 4 টির মধ্যে কমপক্ষে 2 জন। ১. যদিও প্রতিটি নির্দিষ্ট বুস্ট্র্যাপ নমুনা মূল ডেটাপয়েন্টগুলির ~ 63% কভার করে, আমরা যদি সাধারণত (যেমন 10 কে) বুটস্ট্র্যাপ নমুনাগুলি নমুনা করি তবে প্রতিটি বিন্দু কমপক্ষে একটিতে আবৃত হওয়ার সম্ভাবনাটি মূলত 100%। ২. আমি মাত্র একটি দ্রুত সংখ্যার চেক করেছি - বুটস্ট্র্যাপ এবং আউট-অফ-বুটস্ট্র্যাপ নমুনাগুলি পুরো ডেটা গড়ের খুব কাছাকাছি। আপনি নিজে যাচাই করতে পারেন
Kochede

এখানে একটি কোড রয়েছে (এটির ফর্ম্যাট করতে দেখতে "সম্পাদনা করুন" এ ক্লিক করুন): এনপি হিসাবে নিম্পি আমদানি করুন, পিডি এন = 1000 বি = 1000 y = np.random.randn (এন) এর অর্থ, মানেoob = [], [] বি এর জন্য পরিসীমা (বি): আইবি = এনপি.আরন্ডম.চয়েস (এন, এন, রিপ্লেস = ট্রু) মানেব = ওয়াই [ইবি] .মান () অর্থ বি। অ্যাপেনড (মানেব) ইনডুব = এনপি.নেস (এন, ডিটিপি = বুল) ইনডুব [ইবি] = ভুয়া মেনোব্ব = ই [ইন্দোব] ) মুদ্রণ এনপি.মিয়ান (মানেবি), এনপি.মিয়ান (মানেসুব), পিডি.সরিস (y) .মান ()
কোচেদে

@ কোচেড "প্রয়োজনীয় 100%" 100% নয়। "গড়ের খুব কাছাকাছি" গড়ের মতো একই নয়। আপনি নিসেল শব্দ ব্যবহার করছেন। আমি ভুল নই
নিল ম্যাকগুইগান

সুতরাং আপনি কেবল ভুল উত্তরই দিচ্ছেন না, তবে আপনি এগুলি ডিমেগজি দিয়েই জোর করবেন, ঠিক আছে। বুটস্ট্র্যাপের নমুনাগুলি দ্বারা ডেটা প্রত্যাশিত কভারেজ দ্রুত বর্ধমান সংখ্যার সাথে 100% এ রূপান্তরিত হয়। উপরের পরীক্ষায় 10 টিরও কম বুটস্ট্র্যাপ নমুনার পরে সমস্ত ডেটাপয়েন্টগুলি বুটস্ট্র্যাপ দ্বারা আঘাত করা হয়। একইভাবে, বুটস্ট্র্যাপ নমুনার গড়ের প্রত্যাশা নমুনা গড়ের সমান । এবং উপরের পরীক্ষায় 1000 বুটস্ট্র্যাপের নমুনার পার্থক্য 0.1% এর চেয়ে কম (র্যান্ডনের পরিবর্তে np.random.rand ব্যবহার করুন, কারণ র‌্যাণ্ডের গড়ের জন্য 0)
কোচদেড

আপনার রেফারেন্সের জন্য আপডেট হওয়া কোডটি এখানে: এনপি হিসাবে নিম্পি, পিডি হিসাবে প্যান্ডাস আমদানি করুন; এন = 1000; বি = 1000; y = np.random.rand (n); মানেব = []; আচ্ছাদিত = np.zeros (n, dtype = bool); কভারেজ = []; # বি রেঞ্জের জন্য বিগ লুপ (বি): ib = np.random.choice (n, n, প্রতিস্থাপন = সত্য); আচ্ছাদিত [আইবি] = সত্য; Cover.append (Cover.sum () * 1.0 / n); গড় = ই [আইবি] .মান (); মানেb.append (অর্থ); # শেষ লুপ মুদ্রণ কভারেজ [: 10]; মুদ্রণ এনপি.মিয়ান (অর্থ), পিডি.সরিজ (y) .মান (); মুদ্রণ (এনপি.মিয়ান (মানেব) - পিডি.সরিজ (y) .মান ()) / পিডি.সরিজ (y) .মান ();
কোচেদে

2

এগুলি পুনর্নির্মাণের দুটি কৌশল:

ক্রস বৈধকরণে আমরা ডেটা এলোমেলোভাবে কেফোল্ডে বিভক্ত করি এবং এটি ওভারফিটিংয়ে সহায়তা করে তবে এই পদ্ধতির এর অপূর্ণতা রয়েছে। এটি এলোমেলো নমুনা ব্যবহার করে তাই কিছু নমুনা বড় ত্রুটি তৈরি করে। সিভি কমানোর জন্য কৌশল রয়েছে তবে এটি শ্রেণিবিন্যাসের সমস্যাগুলির সাথে এতটা শক্তিশালী নয়। বুটস্ট্র্যাপ এটিকে সহায়তা করে, এটি নিজস্ব নমুনা চেক থেকে ত্রুটিটিকে উন্নত করে..বিস্তারিত জন্য দয়া করে উল্লেখ করুন ..

https://lagunita.stanford.edu/c4x/HumanitiesScience/StatLearning/asset/cv_boot.pdf

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.