- ভাঁজ ক্রস-বৈধকরণে ভাঁজগুলির সর্বোত্তম সংখ্যার : কী সবসময় ছেড়ে যাওয়া সিভি সেরা পছন্দ?


47

গণনা শক্তি বিবেচনার দিক বিবেচনা করে, ক্রস-বৈধকরণে ভাঁজের সংখ্যা বাড়ানো আরও ভাল মডেল নির্বাচন / যাচাইকরণের দিকে পরিচালিত করে (যেমন ভাঁজের সংখ্যা আরও বেশি ভাল)?

যুক্তিটিকে চূড়ান্ত দিকে নিয়ে যাওয়া, কী ছাড় -ওয়ান-আউট ক্রস-বৈধকরণের প্রয়োজনে ফোল্ড ক্রস-বৈধকরণের চেয়ে ভাল মডেলগুলির দিকে পরিচালিত করে?K

এই প্রশ্নের কিছু পটভূমি: আমি খুব কম উদাহরণগুলির সাথে একটি সমস্যা নিয়ে কাজ করছি (উদাহরণস্বরূপ 10 ধনাত্মক এবং 10 negativeণাত্মক), এবং আমার ভয় হয় যে আমার মডেলগুলি খুব ভাল করতে পারে না / খুব অল্প তথ্যের সাথে মানিয়ে যায়।



এই প্রশ্নটি সদৃশ নয় কারণ এটি ছোট ডেটাসেট এবং "কম্পিউটিং পাওয়ার বিবেচনাগুলি একপাশে" সীমাবদ্ধ করে। এটি একটি মারাত্মক সীমাবদ্ধতা, উদাহরণস্বরূপ সংখ্যায় কমপক্ষে রৈখিক (বা উদাহরণস্বরূপ সংখ্যার সংখ্যার বর্গমূলের পূর্বাভাস) কমপক্ষে রৈখিক জটিলতার সাথে প্রশিক্ষণ অ্যালগরিদমযুক্তদের জন্য প্রশ্নটি অযোগ্য।
সার্জ রোগাচ

উত্তর:


46

লিভ-ওয়ান-আউট ক্রস-বৈধকরণ সাধারণত কে-ফোল্ডের চেয়ে ভাল পারফরম্যান্সের দিকে পরিচালিত করে না এবং এটি আরও খারাপ হওয়ার সম্ভাবনা বেশি থাকে , কারণ এটির তুলনামূলকভাবে উচ্চতর বৈকল্পিকতা থাকে (অর্থাত্ এর মানটির চেয়ে মানের তুলনায় ডেটা বিভিন্ন নমুনার জন্য আরও পরিবর্তন হয়) কে-ভাঁজ ক্রস-বৈধকরণ)। এটি একটি মডেল নির্বাচনের মানদণ্ডে খারাপ কারণ এর অর্থ মডেল নির্বাচনের মানদণ্ডটি কার্যকারিতাতে আসল উন্নতি করার পরিবর্তে উপাত্তের নির্দিষ্ট নমুনায় এলোমেলো প্রকরণকে কেবল যেভাবে কাজে লাগাতে পারে সেভাবে অনুকূলিত করা যায়, অর্থাৎ আপনার বেশি পরিমাণে ফিট হওয়ার সম্ভাবনা বেশি মডেল নির্বাচনের মানদণ্ড। অনুশীলনে লিভ-ওয়ান-আউট ক্রস-বৈধকরণ ব্যবহার করার কারণটি হ'ল অনেক মডেলের ক্ষেত্রে এটি মডেলকে ফিটিংয়ের উপ-পণ্য হিসাবে খুব সস্তায় মূল্যায়ন করা যেতে পারে।

যদি কম্পিউটেশনাল ব্যয়টি প্রাথমিকভাবে কোনও সমস্যা না হয় তবে পুনরায় কে-ফোল্ড ক্রস-বৈধকরণ সম্পাদন করার জন্য আরও ভাল পদ্ধতির উপায় হয়, যেখানে কে-ভাঁজ ক্রস-বৈধকরণ পদ্ধতিটি বিভিন্ন সময় এলোমেলো পার্টিশনের সাহায্যে পুনরায় কে ডিসজেয়েন্ট সাবটায় ভাগ করা হয়। এটি বৈকল্পিকতা হ্রাস করে।

যদি আপনার কাছে মাত্র 20 টি নিদর্শন থাকে তবে খুব সম্ভবত আপনি মডেল নির্বাচনের মানদণ্ডকে অতিরিক্ত মানিয়ে নেবেন যা পরিসংখ্যান এবং মেশিন লার্নিংয়ের ক্ষেত্রে অনেক অবহেলিত সমস্যা (নির্লজ্জ প্লাগ: বিষয়টিতে আমার কাগজটি দেখুন )। তুলনামূলক সহজ মডেল বাছাই করা আপনার পক্ষে আরও ভাল and আইএমএইচও অপ্টিমাইজেশান হ'ল পরিসংখ্যানগুলিতে সমস্ত অশুভের মূল, সুতরাং আপনার যদি প্রয়োজন না হয় তবে অনুকূলিত না করাই ভাল এবং আপনি যখনই করবেন সতর্কতার সাথে অপ্টিমাইজ করা ভাল।

আপনি যদি মডেল নির্বাচন সম্পাদন করতে যাচ্ছেন, তবে আপনার যদি পারফরম্যান্সের প্রাক্কলনের প্রয়োজন হয় তবে আপনাকে নেস্টেড ক্রস-বৈধকরণের মতো কিছু ব্যবহার করতে হবে (যেমন আপনার মডেল নির্বাচনকে মডেল ফিটিং পদ্ধতির একটি অবিচ্ছেদ্য অঙ্গ হিসাবে বিবেচনা করা উচিত এবং ক্রস-বৈধতা দিন) যেমন).


8
+1 টি। আপনার "অপটিমাইজেশন হ'ল পরিসংখ্যানগুলিতে সমস্ত
কুফলের

5
ধন্যবাদ @ ডিক্রানমারসুপিয়াল। আমি বেশ অনুসরণ করি না। কেন ছুটি-ওয়ান-আউট নিয়ে শিখেছে মডেলগুলির নিয়মিত কে-ফোল্ড ক্রস বৈধতার তুলনায় উচ্চতর পার্থক্য থাকবে ? আমার স্বজ্ঞাততা আমাকে বলে যে, যেহেতু ভাঁজগুলি জুড়ে আমরা কেবল একটি ডেটা পয়েন্ট সরিয়ে দিই, প্রশিক্ষণগুলি ভাঁজগুলি জুড়ে প্রচন্ডভাবে ওভারল্যাপ হয়ে যায়, তাই আমি মডেলগুলির মধ্যে সামান্যতম পার্থক্য দেখার আশা করব। বা অন্য দিকে যাচ্ছেন, কে-ভাঁজে, কে কম থাকলে প্রতিটি ভাঁজের জন্য প্রশিক্ষণের সেটগুলি বেশ আলাদা হবে এবং ফলস্বরূপ মডেলগুলি আলাদা হওয়ার সম্ভাবনা বেশি থাকে। আমি কি ভূল?
আমিলিও ওয়াজকেজ-রেইনা

এটি তার নিজের একটি খুব ভাল প্রশ্ন, তাই আমি আপনাকে এটি একটি নতুন প্রশ্ন হিসাবে জিজ্ঞাসা করার পরামর্শ দিচ্ছি, এবং এর উত্তর কীভাবে দেওয়া যায় সে সম্পর্কে আমার চিন্তাভাবনা থাকবে!
ডিকরান মার্শুপিয়াল

আপনাকে ধন্যবাদ ডিক্রানমারসুপিয়াল আমি আপনার পরামর্শ অনুসরণ করেছি এবং এখানে একটি পৃথক প্রশ্ন শুরু করেছি ।
আমিলিও ওয়াজকেজ-রেইনা

1
@ ডিক্রানমারসুপিয়াল আমি ভেবেছিলাম আমি এখানে উল্লেখ করব যে আমি এই উত্তরে আপনার "পরিসংখ্যানের অনুকূলিতকরণ " মন্তব্যে অনুপ্রাণিত হয়ে আরও একটি থ্রেড শুরু করেছি । আপনার মন্তব্য আমাকে অভ্যস্ত যে বিস্তৃত দৃষ্টিকোণ থেকে overfitting তাকান।
আমেলিও ভাজকেজ-রেইনা

8

শেখার বক্ররেখাকে বিবেচনা করে কে ভাঁজ সংখ্যা নির্বাচন করা

আমি যুক্তি দিয়ে বলতে চাই যে সংখ্যার উপযুক্ত ভাঁজগুলি বেছে নেওয়া শেখার বক্ররেখার আকৃতি এবং অবস্থানের উপর অনেক বেশি নির্ভর করে, বেশিরভাগ ক্ষেত্রে পক্ষপাতের প্রভাবের কারণে । এই যুক্তিটি, যা ছাড়ার বাইরে থাকা সিভি পর্যন্ত প্রসারিত, মূলত "পরিসংখ্যান শিক্ষার উপাদানসমূহ" অধ্যায় 7.10, পৃষ্ঠা 243 পৃষ্ঠা থেকে নেওয়া হয়েছে।K

প্রভাব আলোচনা জন্য উপর ভ্যারিয়েন্স দেখতে এখানেK

সংক্ষিপ্তসার হিসাবে, যদি শিখনের বক্ররেখা প্রদত্ত প্রশিক্ষণ সেট আকারে যথেষ্ট slালু হয়, তবে পাঁচ-বা দশগুণ ক্রস-বৈধকরণটি সত্য ভবিষ্যদ্বাণী ত্রুটির উপর নজর রাখবে। এই পক্ষপাতটি বাস্তবে কোনও অসুবিধা কিনা তা নির্ভর করে উদ্দেশ্যের উপর। অন্যদিকে, লেভ-ওয়ান-আউট ক্রস-বৈধতার কম পক্ষপাত রয়েছে তবে উচ্চতর বৈকল্পিকতা থাকতে পারে।

একটি খেলনা উদাহরণ ব্যবহার করে একটি স্বজ্ঞাত দৃশ্য

এই যুক্তিটি চাক্ষুষভাবে বুঝতে, নীচের খেলনা উদাহরণটি বিবেচনা করুন যেখানে আমরা কোলাহলপূর্ণ সাইন বক্ররেখাতে বহু ডিগ্রি 4 ডিগ্রি ফিট করি:

এখানে চিত্র বর্ণনা লিখুন

স্বজ্ঞাত এবং দৃষ্টিভঙ্গি হিসাবে, আমরা আশা করি এই মডেলটি অতিরিক্ত ফিটিংয়ের কারণে ছোট ডেটাসেটগুলির জন্য খারাপভাবে ভাড়া দেবে। এই আচরণ শেখার বক্ররেখা প্রতিফলিত হয় যেখানে আমরা প্লটে বিভক্ত একসাথে বনাম প্রশিক্ষণ আকার মিন স্কয়ার ত্রুটি 1 স্ট্যান্ডার্ড ডেভিয়েশন। নোট করুন যে আমি ESL পৃষ্ঠা 243 তে ব্যবহৃত চিত্রটির পুনরুত্পাদন করতে 1 - এমএসই প্লট করার সিদ্ধান্ত নিয়েছি±1±

এখানে চিত্র বর্ণনা লিখুন

যুক্তি নিয়ে আলোচনা হচ্ছে

প্রশিক্ষণের আকার 50 টি পর্যবেক্ষণে বৃদ্ধি পাওয়ার সাথে সাথে মডেলটির কর্মক্ষমতা উল্লেখযোগ্যভাবে উন্নত হয়। উদাহরণস্বরূপ সংখ্যাটি আরও 200 এ বৃদ্ধি করা কেবলমাত্র সামান্য সুবিধা দেয়। নিম্নলিখিত দুটি ক্ষেত্রে বিবেচনা করুন:

  1. যদি আমাদের ট্রেনিং সেট 200 পর্যবেক্ষণ ছিল, ভাঁজ ক্রস বৈধতা 160 এর একটি প্রশিক্ষণ আকার উপর কর্মক্ষমতা যা ট্রেনিং সেট আকার জন্য কর্মক্ষমতা যেমন কার্যত একই অনুমান হবে 200. সুতরাং ক্রস বৈধতা অনেক পক্ষপাত ভোগা করবে না বাড়িয়ে করতে বৃহত্তর মানগুলি খুব বেশি সুবিধা বয়ে আনবে না ( বাম হাতের প্লট )কে5K

  2. তবে যদি প্রশিক্ষণ সেটটিতে পর্যবেক্ষণ থাকে তবে মাপের ক্রস-বৈধতা 40 মাপের প্রশিক্ষণের সেটগুলির তুলনায় মডেলটির কার্যকারিতা অনুমান করতে পারে এবং শেখার বক্ররেখা থেকে এটি একটি পক্ষপাতদুষ্ট ফলাফলের দিকে পরিচালিত করবে। অতএব এই ক্ষেত্রে বাড়িয়ে পক্ষপাতিত্ব হ্রাস করতে প্রবণতা হবে। ( ডান হাতের চক্রান্ত )।5 কে505K

এখানে চিত্র বর্ণনা লিখুন

[আপডেট] - পদ্ধতি সম্পর্কে মন্তব্য

আপনি এই সিমুলেশন কোড জানতে পারেন এখানে । পদ্ধতির নিম্নলিখিত ছিল:

  1. ডিস্ট্রিবিউশন সাইন থেকে 50,000 পয়েন্ট তৈরি করুন যেখানে প্রকৃত জানা যায়ϵsin(x)+ϵϵ
  2. বার Iterate (উদাঃ 100 বা 200 বার)। প্রতিটি পুনরাবৃত্তিতে, মূল বিতরণ থেকে পয়েন্টগুলি পুনরায় মডেল করে ডেটাসেট পরিবর্তন করুনএনiN
  3. প্রতিটি ডেটা সেট করার জন্য : i
    • এক মান জন্য ক্রস বৈধতা কে-ভাঁজ সঞ্চালনK
    • কে-ফোল্ডগুলি জুড়ে গড় গড় স্কোয়ার ত্রুটি (এমএসই) সঞ্চয় করুন
  4. একবার উপরের লুপটি সম্পূর্ণ হয়ে গেলে , একই মানের জন্য ডেটাসেট জুড়ে এমএসইর গড় এবং মান বিচ্যুতি গণনা করুনআমি কেiiK
  5. সমস্ত এর জন্য OO L সমস্ত এলইউসিভিতে যাওয়ার জন্য উপরের পদক্ষেপগুলি পুনরাবৃত্তি করুন{ 5 , , এন }K{5,...,N}

একটি বিকল্প পদ্ধতির হয় রীস্যাম্পেল না প্রতিটি পুনরাবৃত্তির একটি নতুন ডেটা সেট এবং এর পরিবর্তে একই ডেটা সেটটি প্রতিটি সময় রদবদল। এটি একই রকম ফলাফল বলে মনে হচ্ছে।



@ কোডের জন্য আপনাকে ধন্যবাদ! আমি কোডটি তবে কীভাবে আপনি আসল ( আপনার কোডের )) জানেন তা আমি বুঝতে পারি না । আমি আরও মনে করি আপনি বুটস্ট্র্যাপের নমুনার জন্য দুটি ফাংশন (শফল = মিথ্যা), কেএফোল্ডের জন্য একটি (শফল = সত্য) :) সংজ্ঞা দিলে আপনার কোডটি আরও কমপ্যাক্ট হয়ে 1 - 11MSE1112
উঠবে

@me_Tchaikovsky স্মরণ করুন যে ভবিষ্যদ্বাণীকারীর হিসাবে পচে যেতে পারে এবং মডেলটি সত্যিকারের অন্তর্নিহিত ফাংশনটির সাথে মেলে না তখন কোনও পক্ষপাতিত্ব ধরে নিই তবে ত্রুটি শব্দ । অভিন্ন আরভি ভ্যারিয়েন্স হয় তাই এই ক্ষেত্রে ε ~ ইউ ( - .5 , .5 ) 1 / 12 ( - একটি ) 2 1 / 12MSE=Var+Bias2ϵU(.5,.5)1/12(ba)21/12
জেভিয়ার Bourret Sicotte
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.