কে-ফোল্ড বনাম মন্টি কার্লো ক্রস-বৈধকরণ


29

আমি মূলত তত্ত্বাবধানে মাল্টিভারিয়েট বিশ্লেষণ কৌশলগুলিতে প্রয়োগ করার অভিপ্রায় সহ বিভিন্ন ক্রস বৈধকরণের পদ্ধতিগুলি শেখার চেষ্টা করছি। দু'টি আমি এসেছি হ'ল কে-ফোল্ড এবং মন্টি কার্লো ক্রস-বৈধকরণের কৌশল। আমি পড়েছি যে মন্টে কার্লোতে কে-ফোল্ড একটি ভিন্নতা তবে আমি নিশ্চিত নই যে মন্টে কার্লোয়ের সংজ্ঞাটি কীভাবে তৈরি করে তা আমি পুরোপুরি বুঝতে পেরেছি। কেউ দয়া করে এই দুটি পদ্ধতির মধ্যে পার্থক্য ব্যাখ্যা করতে পারেন?



সুতরাং আমি কি সঠিকভাবে বলতে পারি যে মন্টি কার্লো প্রশিক্ষণ এবং পরীক্ষার সেটগুলির এলোমেলো আকারের এবং কে-ফোল্ড সেটগুলির সংজ্ঞায়িত আকার? আমি উপরের পৃষ্ঠাটি দেখেছি তবে পার্থক্য কী তা পুরোপুরি বুঝতে পারি নি।
লিয়াম

আমি বিভিন্ন ধরণের ক্রস বৈধকরণ এবং আউট-অফ-বুটস্ট্র্যাপ বৈধতার সাথে পরিচিত, তবে মন্টি কার্লো ক্রস বৈধকরণ শব্দটি এখনও পেল না (আমি এটি অন্য কোনও নামে জানিও পারি)। মন্টি কার্লো ক্রস বৈধকরণ কীভাবে কাজ করে তার একটি বিবরণ আপনি লিঙ্ক বা উদ্ধৃত করতে পারেন?
সিবিলেটগুলি

মন্টে কার্লোর সহজ ও উন্মুক্ত অ্যাক্সেসের বিবরণ উইকিতে রয়েছে । আমি কেবল কে-ফোল্ড এবং মন্টে কার্লো পদ্ধতির মধ্যে পার্থক্য দেখতে পাচ্ছি বলে মনে হচ্ছে না।
লিয়াম

উত্তর:


36

k -ফোল্ড ক্রস বৈধকরণ

ধরুন আপনার কাছে 100 ডেটা পয়েন্ট রয়েছে। জন্য ক্রস বৈধতা ধা, এই 100 পয়েন্ট বিভক্ত সমান মাপের এবং পারস্পরিক একচেটিয়া 'ভাঁজে। জন্য = 10, আপনি দায়িত্ব অর্পণ পারে 1-10 পয়েন্ট # 2 ভাঁজ পৌঁছাতে # 1, 11-20 ভাঁজ, ইত্যাদি, বরাদ্দ পয়েন্ট 91-100 দ্বারা শেষ হচ্ছে # 10 ভাঁজ। এরপরে, আমরা পরীক্ষার সেট হিসাবে কাজ করতে একটি ভাঁজ নির্বাচন করি এবং প্রশিক্ষণ ডেটা গঠনের জন্য অবশিষ্ট ভাঁজগুলি ব্যবহার করি । প্রথম রানের জন্য, আপনি পরীক্ষার সেট হিসাবে 1-10 পয়েন্ট এবং প্রশিক্ষণের সেট হিসাবে 11-100 ব্যবহার করতে পারেন। পরের রানটি 11-10 পয়েন্টগুলি পরীক্ষার সেট হিসাবে ব্যবহার করবে এবং 1-10 পয়েন্ট 21-100 পয়েন্টগুলিতে ট্রেন করবে, এবং প্রতিটি ফোল্ড টেস্ট সেট হিসাবে একবার ব্যবহার না করা পর্যন্ত।kkkk1

মন্টে-কার্লো ক্রস বৈধকরণ

মন্টি কার্লো কিছুটা আলাদাভাবে কাজ করে। প্রশিক্ষণ সেট গঠনের জন্য আপনি এলোমেলোভাবে আপনার ডেটার কিছু ভগ্নাংশ নির্বাচন করুন এবং তারপরে বাকী পয়েন্টগুলি পরীক্ষার সেটটিতে নির্ধারণ করুন। এই প্রক্রিয়াটি একাধিকবার পুনরাবৃত্তি হয়, প্রতিটি সময় (এলোমেলোভাবে) নতুন প্রশিক্ষণ এবং পরীক্ষার পার্টিশন তৈরি করে। উদাহরণস্বরূপ, ধরুন আপনি পরীক্ষার ডেটা হিসাবে আপনার 10% ডেটা ব্যবহার করতে পছন্দ করেছেন। তারপরে # 1 তে আপনার পরীক্ষার সেটটি points৪, 90 , 63, 42 , 65, 49, 10, 64, 96 এবং 48 পয়েন্ট হতে পারে the পরের রানে আপনার পরীক্ষার সেটটি 90 , 60, 23, 67 হতে পারে 16, 78, 42 , 17, 73, এবং 26. যেহেতু পার্টিশনগুলি প্রতিটি রানের জন্য স্বতন্ত্রভাবে সম্পন্ন হয়, একই পয়েন্টটি পরীক্ষার সেটটিতে একাধিকবার উপস্থিত হতে পারে,যা মন্টি কার্লো এবং ক্রস বৈধতার মধ্যে প্রধান পার্থক্য

তুলনা

প্রতিটি পদ্ধতির নিজস্ব সুবিধা এবং অসুবিধা রয়েছে। ক্রস বৈধকরণের অধীনে, প্রতিটি বিন্দু ঠিক একবার পরীক্ষা করা হয়, যা ন্যায্য বলে মনে হচ্ছে। যাইহোক, ক্রস-বৈধকরণ কেবলমাত্র আপনার ডেটা বিভাজন করা যেতে পারে এমন কয়েকটি সম্ভাব্য উপায়গুলি অনুসন্ধান করে। মন্টি কার্লো আপনাকে কিছুটা আরও বেশি সম্ভাব্য পার্টিশন অন্বেষণ করতে দেয়, যদিও আপনি সেগুলির পাওয়ার সম্ভাবনা নেই - এখানে সম্ভাব্য উপায়গুলি 50/50 একটি 100 ডাটা পয়েন্ট বিভক্ত করার সম্ভাব্য উপায়গুলি রয়েছে সেট (!)।(10050)1028

আপনি যদি অনুমানের চেষ্টা করছেন (অর্থাত্ পরিসংখ্যানগতভাবে দুটি অ্যালগরিদমের তুলনা করুন), ফোল্ড ক্রস বৈধকরণের ফলাফলের গড় গড় আপনাকে অ্যালগরিদমের পারফরম্যান্সের (প্রায়) নিরপেক্ষ অনুমান করে তবে উচ্চতর বৈকল্পিকতার সাথে (যেমন আপনি চান) কেবলমাত্র 5 বা 10 ডেটা পয়েন্ট থাকা উচিত)। যেহেতু আপনি, নীতিগতভাবে, এটি যতক্ষণ আপনি চান / সামর্থ্য করেন ততক্ষণ চালাতে পারেন, তাই মন্টি কার্লো ক্রস বৈধতা আপনাকে কম পরিবর্তনশীল, তবে আরও পক্ষপাতমূলক অনুমান দিতে পারে।k

5x2 ক্রস বৈধকরণের মত কিছু পন্থা দুটি ফিউজ করেছে ( ধারণাটির জন্য ডায়েটারিচ (1998) দেখুন , যদিও আমি মনে করি তখন থেকে আরও কিছু উন্নতি হয়েছে), বা পক্ষপাতিত্ব সংশোধন করে (যেমন, নাদাউ এবং বেঞ্জিও, 2003 ) ।


2
কেউ জিজ্ঞাসা করেছিলেন, প্রস্তাবিত সম্পাদনা সারির মাধ্যমে মন্টি কার্লো প্রতিস্থাপনের সাথে বা না করে সম্পাদন করা হচ্ছে কিনা। প্রতিটি মন্টি কার্লো চালানোর জন্য, প্রশিক্ষণ এবং পরীক্ষার সেটটি প্রতিস্থাপন ছাড়াই অঙ্কিত হয় (অর্থাত, প্রতিটি পয়েন্ট ট্রেন বা টেস্ট সেট উভয়ই ঠিক একবার দেওয়া হয়)। তবে রানগুলি স্বতন্ত্রভাবে সম্পন্ন হয়, সুতরাং একটি প্রদত্ত উদাহরণ একই সেটটিতে একাধিকবার প্রদর্শিত হতে পারে; এটি মন্টি কার্লো এবং কে-ফোল্ড ক্রস বৈধকরণের মধ্যে প্রধান পার্থক্য!
ম্যাট ক্রাউস

13

ধরা যাক হ'ল ডেটাসেটের আকার, হল ফোল্ড সাবটেক্টের সংখ্যা , হ'ল প্রশিক্ষণ সংস্থার আকার এবং বৈধতা সেটের আকার। সুতরাং, ফোল্ড ক্রস- জন্য এবং মন্টি কার্লো ক্রস-বৈধতার জন্য ।NkkntnvN=k×nvkN=nt+nv

k -ফোল্ড ক্রস-বৈধকরণ (কেএফসিভি) ডাটা পয়েন্টগুলি সমান আকারের পারস্পরিক একচেটিয়া সাবসেটে বিভক্ত করে । প্রক্রিয়াটি তারপরে একটি সাবসেটকে একটি বৈধতা সেট হিসাবে রেখে দেয় এবং বাকি সাবসেটগুলিতে ট্রেন দেয়। এই প্রক্রিয়াটি কে- পুনরাবৃত্তি করে প্রতিবার সাবসেটের বাইরে রেখে । এর আকার থেকে হতে পারে ( কে বলা হয় ছাড়-ওয়ান-আউট ক্রস বৈধতা)। [2] এ লেখকরা বা সেট করার পরামর্শ দিয়েছেন ।NkkkkkN2k=Nk=510

মন্টি কার্লো ক্রস-বৈধকরণ (এমসিসিভি) সহজেই ডেটা পয়েন্টগুলি এবং দুটি স্যাম্পল করে করে দেয়, প্রতিস্থাপন ছাড়াই, ডেটা পয়েন্টগুলিমডেল তারপর উপসেট উপর প্রশিক্ষণ দেওয়া হয় এবং উপসেট উপর যাচাই এ অনুষদে থাকবেই অনন্য প্রশিক্ষণ সেট, কিন্তু MCCV অনেক পুনরাবৃত্তিও চালানোর জন্য প্রয়োজন এড়াতে। ঝাং [৩] দেখায় যে পুনরাবৃত্তির জন্য এমসিসিভি চলমান সমস্ত over অনন্য প্রশিক্ষণ সেট বৈধতার কাছাকাছি ফলাফল রয়েছে । এটি লক্ষ করা উচিত যে সাহিত্যে বৃহত্তর এন এর জন্য গবেষণার অভাব রয়েছে Nntnvntntnv(Nnt)N2(Nnt)

এবং এর পছন্দ পক্ষপাত / বৈকল্পিক বাণিজ্য প্রভাবিত করে। বৃহত্তর বা , কম পক্ষপাত এবং উচ্চতর বৈকল্পিক। বৃহত্তর প্রশিক্ষণ সেটগুলি পুনরাবৃত্তির মধ্যে আরও বেশি মিল, সুতরাং প্রশিক্ষণের ডেটার সাথে মানানসই। এই আলোচনার জন্য আরও [2] দেখুন। কেএফসিভি এবং এমসিসিভির পক্ষপাত এবং প্রকরণটি পৃথক, তবে এবং এর উপযুক্ত স্তরগুলি বেছে নিয়ে দুটি পদ্ধতির পক্ষপাতিত্বকে সমান করা । উভয় পদ্ধতির পক্ষপাত এবং মূল্যগুলির মানগুলি [1] এ দেখানো হয়েছে (এই কাগজটি এমসিসিভিকে পুনরাবৃত্তি-শেখার পরীক্ষার-মডেল হিসাবে উল্লেখ করে)।kntkntknt


[1] বর্মণ, পি। (1989)। সাধারণ ক্রস-বৈধকরণ, ফোল্ড ক্রস বৈধকরণ এবং পুনরাবৃত্তি ফাঁস পরীক্ষামূলক-মডেল পদ্ধতিগুলির তুলনামূলক অধ্যয়ন । Bometrika 76 503-514।v

[২] হস্টি, টি।, তিবশিরানী, আর এবং ফ্রেডম্যান, জে। (২০১১)। পরিসংখ্যানগত শিক্ষার উপাদানসমূহ: ডেটা মাইনিং, অনুমান এবং পূর্বাভাস। দ্বিতীয় এড। নিউ ইয়র্ক: স্প্রিংগার।

[3] জাং, পি। (1993)। মাইল্টফোল্ড ক্রস বৈধকরণের মাধ্যমে মডেল নির্বাচন। অ্যান। তাত্ক্ষণিকবাজার। 21 299–313


7

অন্য দুটি উত্তর দুর্দান্ত, আমি কেবল দুটি ছবি যুক্ত করব পাশাপাশি একটি প্রতিশব্দ।


কে-ভাঁজ ক্রস-বৈধকরণ (কেএফসিভি):

এখানে চিত্র বর্ণনা লিখুন

মন্টি কার্লো ক্রস-বৈধকরণ (এমসিসিভি) = পুনরাবৃত্তি র্যান্ডম সাব-স্যাম্পলিং বৈধতা (আরআরএসএসভি):

এখানে চিত্র বর্ণনা লিখুন


তথ্যসূত্র:

ছবিগুলি (1) ( পৃষ্ঠা 64 এবং 65 ) থেকে এসেছে এবং প্রতিশব্দটি (1) এবং (2) এ উল্লিখিত হয়েছে।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.