এটি সম্ভবত একটি নির্বোধ প্রশ্ন হতে পারে, তবে ক্যারেটের সাথে একটি মডেল তৈরি করার সময় এবং এর মতো কিছু LOOCV
বা (এমনকি আরও বেশি কিছু) ব্যবহার করার সময় LGOCV
, ট্রেন এবং পরীক্ষার সেটগুলিতে ডেটা বিভক্ত করার কী সুবিধা যদি এটি মূলত ক্রস-বৈধকরণের পদক্ষেপের হয় তবে যাইহোক না?
আমি সম্পর্কিত কিছু প্রশ্ন পড়েছি এবং তারা পরামর্শ দিয়েছে যে ক্রস-বৈধকরণের কিছু পদ্ধতি (যেমন ক্যারেট সাইটে এখানে বর্ণিত রয়েছে ) বৈশিষ্ট্য নির্বাচনের উদ্দেশ্যে । তবে আমার ক্ষেত্রে, আমি randomForest
( method = "rf"
) এবং kernlab
( method = svmRadial
) ব্যবহার করছি , যা গোষ্ঠীটিতে তালিকাভুক্ত নয় যা ভবিষ্যদ্বাণীকারীদের শুদ্ধ করার চেষ্টা করে।
সুতরাং, আমার প্রশ্নটি হ'ল আমি যদি এর মতো কিছু ব্যবহার করি তবে আমার cross_val <- trainControl(method = "LGOCV", p = 0.8)
80% ডেটা সম্পর্কে প্রশিক্ষণ দেওয়া, ফলাফল 20 শতাংশের ফলাফলের মডেলটি পরীক্ষা করা এবং সেই বিষয়টি আরও ভালভাবে ধারণা পাওয়ার জন্য বারবার করা কাজ করছেন মডেল?
যদি তা হয় তবে ট্রেন / পরীক্ষার সেটে আমার ডেটা বিভক্ত করার কোনও দরকার আছে কি?
PS আমি আংশিকভাবে জিজ্ঞাসা করছি যে আমি উত্সাহিতভাবে উত্পন্ন ডিওই প্রোটোটাইপগুলিতে মডেলগুলি পরিচালনা করছি (হার্ড পণ্যগুলি মনে করি যেখানে আমরা ইনপুটগুলিকে টুইক করি এবং তারপরে প্রোটোটাইপ সম্পর্কে বিভিন্ন বৈশিষ্ট্যগুলি পরিমাপের জন্য পরীক্ষার পদ্ধতিগুলি ব্যবহার করি)।
এই হিসাবে, আমার কাছে প্রচুর ওভারল্যাপিং প্রেডিক্টর স্তরগুলি থেকে মডেল করার জন্য একটি বিশাল ডেটা সেট নেই - আমরা প্রায়শই প্রতিটি ডিওই পয়েন্টে একটি ট্রায়াল চালাই যেহেতু এই ক্ষেত্রে ডেটা জেনারেশন ব্যয়বহুল। সুতরাং, আমি একটি নির্ভুল মডেলের জন্য আমার যতটা ডেটা করতে পারি তা ব্যবহার করতে চাই, তবে এখানে পরীক্ষা করতে চেয়েছিলাম যে আমি স্পষ্টত কিছু মিস করছি না এবং জিনিসগুলি বিভক্ত না করে একটি দুর্বল মডেল বানাচ্ছি।
সম্পাদনা: @ টপেইপোর প্রশ্নের জবাবে আমি সূত্রের রাসায়নিক ইনপুটগুলি সামঞ্জস্য করার উপর ভিত্তি করে কোনও যৌগের শারীরিকভাবে পরিমাপক বৈশিষ্ট্যগুলি মডেলিং করছি। আমি আমার আসল প্রয়োগটি নিয়ে আলোচনা করতে পারি না, তবে আমি অভ্যন্তরীণ ল্যাটেক্স পেইন্ট তৈরির ভিত্তিতে একটি উদাহরণ তৈরি করব। আমি পরিকল্পিত পরীক্ষা নিরীক্ষা করছি যেখানে আমরা 4-5 টি রাসায়নিক মিশ্রণ করি, সম্ভবত% সলিউড সহ খেলি এবং পলিমারাইজেশন ডিগ্রি সামঞ্জস্য করার জন্য পলিমার দ্রবণকে গরম করার জন্য অনেক সময় ব্যয় করি।
এরপরে আমরা রিওলজি, আণবিক ওজন, পেইন্টের আবরণের কঠোরতা, জলের প্রতিরোধ ইত্যাদি পরিমাপ করতে পারি
আমাদের বেশ কয়েকটি ভেরিয়েবলের শালিক প্রতিলিপি রয়েছে, তবে প্রতিটি ডিওই লেভেল হুবহু এক রকমের এই অর্থে কয়েকটি সত্য প্রতিলিপি রয়েছে। মোট ডেটা সেট ~ 80 টি পর্যবেক্ষণ এবং সম্ভবত 4-5 হুবহু পুনরাবৃত্তি হয়। আমরা 15 টি পৃথক পরীক্ষা করেছি, এবং এর মধ্যে সম্ভবত 5-6 টি প্রতিটি একক পর্যবেক্ষণের জন্য করা হয়েছে। কিছু প্রতিক্রিয়া ডেটা 25-50% জন্য উপস্থিত।
এখান থেকে, আমরা আউটপুট বৈশিষ্ট্যগুলিতে আমাদের 7 ভবিষ্যদ্বাণীকের প্রভাবগুলির মডেল করতে চাই এবং তারপরে নতুন ডিজাইনের স্পেসগুলিকে লক্ষ্য করতে অপ্টিমাইজ করব যা সম্ভবত পছন্দসই বৈশিষ্ট্যগুলি দেয়।
(আমার প্রশ্নটি এখানে এখানে । একবার আমার প্রশিক্ষিত মডেল হয়ে গেলে "বিপরীত" করতে ভাল লাগবে এবং পরবর্তী চেষ্টা করার জন্য সম্ভাব্য ইনপুট স্তরে সর্বোত্তম অনুমান পাওয়ার জন্য পছন্দসই প্রতিক্রিয়াগুলি খাওয়াতে হবে)।
data_set1
থাকি তবে LGOCV
ক্রস-বৈধকরণের দ্বারা গৃহীত পদক্ষেপটি আমি কী বিবেচনা করব ? আমার পড়া থেকে আমি ধরে নিচ্ছি) 1 টি caret
টিউনিং পরামিতিগুলি data_set1
পুনরায় এবং তারপরে 2 ) পুনরাবৃত্তি করে those) সেইগুলি প্যারামগুলি স্থির করে এবং 3) প্রতিটি p = 0.8
নমুনার জন্য # 1 থেকে প্যারাম ব্যবহার করে একটি "সাব মডেল" তৈরি data_set1
করে এবং অবশিষ্ট 0.2 থেকে गेজ যথার্থতার জন্য ভবিষ্যদ্বাণীগুলি পরীক্ষা করে । এটি কি যুক্তিসঙ্গত সংক্ষিপ্তসার?