কীভাবে ছাড়ুন এক-আউট ক্রস-বৈধকরণ? কিভাবে চূড়ান্ত মডেল আউট নির্বাচন করতে


25

আমার কিছু ডেটা রয়েছে এবং আমি এই তথ্য থেকে একটি মডেল (লিনিয়ার রেগ্রেশন মডেল বলি) তৈরি করতে চাই। পরবর্তী পদক্ষেপে, আমি মডেলটিতে লেভ-ওয়ান-আউট ক্রস-বৈধকরণ (এলইউসিভি) প্রয়োগ করতে চাই যাতে এটি কতটা ভাল পারফর্ম করে দেখুন see

যদি আমি LOOCV টি ঠিক বুঝতে পারি তবে আমি এই নমুনা (প্রশিক্ষণের সেট) ব্যতীত প্রতিটি নমুনা ব্যবহার করে আমার প্রতিটি নমুনার (পরীক্ষার সেট) জন্য একটি নতুন মডেল তৈরি করি। তারপরে আমি পরীক্ষার সেটটি ভবিষ্যদ্বাণী করতে এবং ত্রুটিগুলি গণনার জন্য মডেলটি ব্যবহার করি (predictedactual)

পরবর্তী পদক্ষেপে আমি একটি নির্বাচিত ফাংশন ব্যবহার করে উত্পন্ন সমস্ত ত্রুটিগুলিকে একত্রিত করি, উদাহরণস্বরূপ স্কোয়ার ত্রুটিটির অর্থ। আমি এই মানগুলি মডেলের গুণমান (বা ফিটনের ভালতা) বিচার করতে ব্যবহার করতে পারি।

প্রশ্ন: এই মানের-মানগুলির জন্য মডেলটি কোন মডেলের জন্য প্রযোজ্য, তাই আমি যদি আমার মামলার জন্য এলওসিভি থেকে উত্পন্ন মেট্রিকগুলি খুঁজে পাই তবে আমি কোন মডেলটি বেছে নেব? LOOCV বিভিন্ন মডেলের দিকে তাকিয়ে (যেখানে এন নমুনার আকার হয়); কোনটি আমার বেছে নেওয়া উচিত?nn

  • এটি কি মডেল যা সমস্ত নমুনা ব্যবহার করে? এই মডেলটি কখনই এলইউসিভি প্রক্রিয়া চলাকালীন গণনা করা হয়নি!
  • এটি কি মডেলটিতে সবচেয়ে কম ত্রুটি রয়েছে?

উত্তর:


24

n1n

একটি মডেল বেছে নেওয়ার পরিবর্তে, কাজটি হ'ল মডেলটির সমস্ত ডেটা মাপসই করা এবং সেই মডেলের পারফরম্যান্সের সামান্য রক্ষণশীল অনুমানের জন্য এলইউ-সিভি ব্যবহার করা।

তবে লক্ষ করুন যে এলইউসিভিতে একটি উচ্চ বৈকল্পিকতা রয়েছে (আপনি যদি ডেটার ভিন্ন ভিন্ন এলোমেলো নমুনা ব্যবহার করেন তবে আপনি যে মান পাবেন সেটি অনেকটাই পরিবর্তিত হয়) যা প্রায়শই একেবারে পক্ষপাতহীন হলেও পারফরম্যান্স মূল্যায়নের জন্য এটি অনুমানকারীদের একটি খারাপ পছন্দ করে তোলে। আমি এটি মডেল নির্বাচনের জন্য সর্বদা ব্যবহার করি তবে সত্যই এটি সস্তা কারণ (আমি যে কার্নেল মডেলগুলিতে কাজ করছি তার জন্য প্রায় বিনামূল্যে)।


উত্তর করার জন্য ধন্যবাদ. বাক্যটি কি "সেই মডেলের পারফরম্যান্সের সামান্য রক্ষণশীল অনুমানের জন্য LOO-CV ব্যবহার করে না?" সাধারণ ক্ষেত্রে কি ভুল? আমি আরও একটি পয়েন্ট যুক্ত করলে মডেলটি আরও খারাপ হতে পারে, সেক্ষেত্রে LOO-CV হতে পারে। আশাবাদী অনুমান
থোমেগা

1
মডেলটি তৈরি করতে আপনি যত বেশি ডেটা ব্যবহার করেন, সাধারণত মডেলটি তত উন্নত হওয়ার সম্ভাবনা থাকে। অতিরিক্ত পয়েন্টটি যদিও মডেলটিকে আরও খারাপ করে তুলতে পারে, এটি মডেলটিকে আরও ভাল করার সম্ভাবনা বেশি। সুতরাং সাধারণভাবে লোকভের সামান্য হতাশাবাদী পক্ষপাতিত্ব থাকে তবে এটি কেবল খুব সামান্য, এলইউসিভি অনুমানেরটির বৈকল্পিকতা সাধারণত অনেক বেশি বিবেচ্য বিষয়।
ডিকরান মার্শুপিয়াল

পারফরম্যান্স মূল্যায়নের জন্য আপনার কী ব্যবহার করা উচিত ? (ধরে নেওয়া ডেটা সংগ্রহ ব্যয়বহুল তাই আপনি মডেলের সাথে মানিয়ে নেওয়ার জন্য সমস্ত উপলব্ধ ডেটা ব্যবহার করতে চান)।
সিডিশো বব

বুটস্ট্র্যাপ সম্ভবত। আমি যে মডেলগুলি ব্যবহার করি তার বেশিরভাগগুলিতে নিয়মিতকরণের পরামিতি ইত্যাদি থাকে যার সুর করা দরকার, তাই আমি প্রায়শই মডেলগুলিকে সুর করার জন্য এলওসিভি ব্যবহার করি এবং পারফরম্যান্স মূল্যায়নের জন্য বুটস্ট্র্যাপ বা বারবার হোল্ড-আউট ব্যবহার করি।
ডিকরান মার্শুপিয়াল

@ ডিক্রানমারসুপিয়াল আপনি কি নিশ্চিত যে লেভ-ওয়ান-আউট সিভি একটি হতাশাবাদী পক্ষপাতিত্ব সরবরাহ করে? যতদূর আমি জানি, এটি সাধারণত কে-ফোল্ডের চেয়ে কম ত্রুটির প্রাক্কলন সরবরাহ করে। এছাড়াও, LOOCV এর 0 টি বৈকল্পিকতা নেই? আপনি কেবল একবার এলইউসিভি করতে পারেন, তারপরে "আপনার নমুনা শেষ হয়েছে"। আমি কেবলমাত্র ভিন্নতাটিই ভাবতে পারি যা মডেল ফিট করতে ব্যবহৃত প্রশিক্ষণ অ্যালগরিদম দ্বারা উত্পাদিত হয়। তবে এটি আদর্শ পরামিতিগুলির বৈকল্পিকতার সাথে পৃথক হওয়া উচিত, মডেল ত্রুটির সাথে নয়। ধন্যবাদ.
ডি 1 এক্স
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.