মডেল নির্বাচনের জন্য নেস্টেড ক্রস বৈধকরণ


91

মডেল নির্বাচনের জন্য কেউ কীভাবে নেস্টেড ক্রস বৈধতা ব্যবহার করতে পারে ?

আমি অনলাইনে যা পড়েছি তা থেকে নেস্টেড সিভি নীচের মতো কাজ করে:

  • অভ্যন্তরীণ সিভি লুপ রয়েছে, যেখানে আমরা গ্রিড অনুসন্ধান চালাতে পারি (যেমন প্রতিটি উপলভ্য মডেলের জন্য কে-ফোল্ড চালানো, যেমন হাইপারপ্যারামিটার / বৈশিষ্ট্যগুলির সংমিশ্রণ)
  • বাইরের সিভি লুপ রয়েছে, যেখানে আমরা একটি পৃথক বাহ্যিক ভাঁজটিতে অভ্যন্তরীণ ভাঁজটিতে জিতে যাওয়া মডেলটির কর্মক্ষমতা পরিমাপ করি।

এই প্রক্রিয়াটির শেষে আমরা মডেলগুলি শেষ করি ( বাইরের লুপের ভাঁজের সংখ্যা হ'ল)। এই মডেলগুলি হ'ল যা অভ্যন্তরীণ সিভি-র মধ্যে গ্রিড অনুসন্ধানে জিতেছিল এবং এগুলি সম্ভবত পৃথক (যেমন গ্রিড অনুসন্ধানের উপর নির্ভর করে বিভিন্ন কার্নেল সহ এসভিএমগুলি, সম্ভবত বিভিন্ন বৈশিষ্ট্য সহ প্রশিক্ষিত)।কেKK

এই আউটপুট থেকে আমি কীভাবে একটি মডেল চয়ন করব? আমার কাছে মনে হচ্ছে যে বিজয়ী মডেলগুলির মধ্যে সেরা মডেলটি নির্বাচন করা মোটামুটি তুলনা হবে না, যেহেতু প্রতিটি মডেলকে ডেটাসেটের বিভিন্ন অংশে প্রশিক্ষণ দেওয়া হয়েছিল এবং পরীক্ষা করা হয়েছিল।K

তাহলে আমি কীভাবে মডেল নির্বাচনের জন্য নেস্টেড সিভি ব্যবহার করতে পারি?

এছাড়াও আমি শিখার পদ্ধতি বিশ্লেষণের জন্য নেস্টেড মডেল নির্বাচন কীভাবে কার্যকর তা আলোচনা করে থ্রেড পড়েছি। আমি বাইরের কে ভাঁজগুলি থেকে প্রাপ্ত স্কোরগুলি নিয়ে কী ধরণের বিশ্লেষণ / চেকগুলি করতে পারি?

উত্তর:


76

এই [বাহ্যিক ক্রস বৈধতা] আউটপুট থেকে আমি কীভাবে একটি মডেল চয়ন করব?

সংক্ষিপ্ত উত্তর: আপনি না।

মডেল ফিটিং পদ্ধতির অংশ হিসাবে অভ্যন্তরীণ ক্রস বৈধকরণের চিকিত্সা করুন । এর অর্থ হিপার-প্যারামিটারের ফিটিং সহ ফিটিং (এটি এখানে অভ্যন্তরীণ ক্রস বৈধকরণকে আড়াল করে) অন্য মডেলের এসিটেশন রুটিনের মতোই।
বাইরের ক্রস বৈধতা এই মডেল ফিটিং পদ্ধতির কর্মক্ষমতা অনুমান করে। তার জন্য আপনি সাধারণ অনুমানগুলি ব্যবহার করেন

  • বাইরের ভাড়াটে মডেলের দ্বারা নির্মিত "বাস্তব" মডেল হয় সমতুল্য সমস্ত ডেটা সঙ্গে।kmodel.fitting.procedure
  • বা, ক্ষেত্রে ১. ব্রেক হয়ে যায় (পুনরায় মডেলিং বৈধকরণের হতাশাবাদী পক্ষপাত), কমপক্ষে বাইরের সারোগেট মডেলগুলি একে অপরের সমতুল্য। এটি আপনাকে পরীক্ষার ফলাফলগুলিকে পুল করতে (গড়) অনুমতি দেয়। এর অর্থ হ'ল যে আপনি তাদের মধ্যে বেছে নেওয়ার দরকার নেই কারণ আপনি ধরে নিচ্ছেন যে তারা মূলত একই রকম are এই দ্বিতীয়টির ভাঙ্গন, দুর্বল অনুমানটি হ'ল মডেল অস্থিতিশীলতা।k

surrogate মডেলগুলির আপাতদৃষ্টিতে সেরা বাছাই করবেন না - এটি সাধারণত "কাটা" পরীক্ষার অনিশ্চয়তা হয়ে যায় এবং একটি আশাবাদী পক্ষপাতিত্বের দিকে পরিচালিত করে।k

তাহলে আমি কীভাবে মডেল নির্বাচনের জন্য নেস্টেড সিভি ব্যবহার করতে পারি?

ভেতরের সিভি নির্বাচন করে।

আমার কাছে মনে হচ্ছে যে কে-বিজয়ী মডেলগুলির মধ্যে সেরা মডেলটি নির্বাচন করা মোটামুটি তুলনা হবে না, যেহেতু প্রতিটি মডেলকে ডেটাসেটের বিভিন্ন অংশে প্রশিক্ষণ দেওয়া হয়েছিল এবং পরীক্ষা করা হয়েছিল।

আপনি ঠিক বলেছেন যে surrogate মডেলগুলির মধ্যে একটি বেছে নেওয়া ভাল ধারণা নয় । তবে আপনি কারণ সম্পর্কে ভুল। আসল কারণ: উপরে দেখুন। তারা একই ডেটাতে প্রশিক্ষিত এবং পরীক্ষিত নয় এই বিষয়টি এখানে "আঘাত" করে না।k

  • একই পরীক্ষার ডেটা না থাকা: আপনি পরে দাবি করতে চান যে পরীক্ষার ফলাফলগুলি কখনই ডেটা না দেখায় সাধারণীকরণ করে, এটি কোনও পার্থক্য করতে পারে না।
  • একই প্রশিক্ষণের ডেটা না থাকা:
    • যদি মডেলগুলি স্থিতিশীল থাকে তবে এটি কোনও পার্থক্য রাখে না: স্থিতিশীলতার অর্থ এখানে প্রশিক্ষণের ডেটা অন্য ক্ষেত্রে কয়েকটি কেস প্রতিস্থাপন করে যদি "ব্যথিত" হয় তবে মডেলটি (বেশি) পরিবর্তন হয় না)
    • যদি মডেলগুলি স্থিতিশীল না হয় তবে তিনটি বিবেচনা গুরুত্বপূর্ণ:
      1. পুনরাবৃত্তি / পুনরাবৃত্তি ফোল্ড ক্রস বৈধতা ব্যবহার করে আপনি প্রকৃতপক্ষে কি পরিমাণ এবং এটি কতটা ক্ষেত্রে তা পরিমাপ করতে পারবেন । এটি আপনাকে একই মামলার জন্য ক্রস বৈধকরণের ফলাফলগুলির তুলনা করতে দেয় যা সামান্য ভিন্নতর প্রশিক্ষণ ডেটার উপর নির্মিত বিভিন্ন মডেল দ্বারা পূর্বাভাস ছিল।k
      2. যদি মডেলগুলি স্থিতিশীল না হয়, তবে ফোল্ড ক্রস বৈধকরণের পরীক্ষার ফলাফলের উপর পর্যবেক্ষণ করা বৈকল্পিকতা বৃদ্ধি পায়: কেবলমাত্র একটি সীমাবদ্ধ সংখ্যক ক্ষেত্রেই মোট পরীক্ষা করা হয় তার কারণে আপনার কেবলমাত্র বৈকল্পিকতা নেই, তবে অতিরিক্ত বৈকল্পিকও রয়েছে মডেলগুলির অস্থিরতার কারণে (ভবিষ্যদ্বাণীমূলক দক্ষতার মধ্যে বৈকল্পিক)।k
      3. অস্থিরতা যদি আসল সমস্যা হয় তবে আপনি "বাস্তব" মডেলটির জন্য পারফরম্যান্সকে ভালভাবে বহন করতে পারবেন না।

যা আমাকে আপনার শেষ প্রশ্নে নিয়ে আসে:

আমি বাইরের কে ভাঁজগুলি থেকে প্রাপ্ত স্কোরগুলি নিয়ে কী ধরণের বিশ্লেষণ / চেকগুলি করতে পারি?

  • পূর্বাভাসগুলির স্থায়িত্ব পরীক্ষা করুন (পুনরাবৃত্ত / পুনরাবৃত্তি ক্রস-বৈধতা ব্যবহার করুন)
  • অপ্টিমাইজড হাইপার-প্যারামিটারগুলির স্থায়িত্ব / তারতম্যের জন্য পরীক্ষা করুন।
    একটি জিনিসের জন্য, বন্যভাবে ছড়িয়ে পড়া হাইপার-প্যারামিটারগুলি ইঙ্গিত করতে পারে যে অভ্যন্তরীণ অপ্টিমাইজেশন কাজ করে না। অন্য একটি জিনিসের জন্য, এটি আপনাকে ভবিষ্যতে অনুরূপ পরিস্থিতিতে ব্যয়বহুল অপ্টিমাইজেশন পদক্ষেপ ছাড়াই হাইপারপ্রেমিটারগুলির বিষয়ে সিদ্ধান্ত নেওয়ার অনুমতি দিতে পারে। ব্যয়বহুল সহ আমি গণ্য সংস্থানসমূহকে উল্লেখ করি না তবে এই "ব্যয়" তথ্য যা "স্বাভাবিক" মডেল পরামিতিগুলির অনুমানের জন্য আরও ভালভাবে ব্যবহার করা যেতে পারে to

  • নির্বাচিত মডেলের অভ্যন্তরীণ এবং বাহ্যিক অনুমানের মধ্যে পার্থক্য পরীক্ষা করুন। যদি কোনও বড় পার্থক্য থাকে (অভ্যন্তরীণটি খুব অত্যধিক প্রতিরোধী হয়) তবে ঝুঁকি রয়েছে যে অতিরিক্ত ফিটের কারণে অভ্যন্তরীণ অনুকূলতা ভালভাবে কাজ করে না।


আপডেট @ ব্যবহারকারী 99889 এর প্রশ্ন: যদি বাইরের সিভি অস্থিতিশীলতা খুঁজে পায় তবে কী করবেন?

প্রথমত, বাইরের সিভি লুপটি সনাক্ত করে যে মডেলগুলি সেই বিষয়ে স্থিতিশীল পূর্বাভাস দেয় না এটি প্রয়োগের জন্য ভবিষ্যদ্বাণী ত্রুটিটি খুব বেশি রয়েছে তা সনাক্ত করার চেয়ে সত্যই পৃথক নয়। এটি মডেল যাচাইকরণের (বা যাচাইকরণ) সম্ভাব্য ফলাফলগুলির মধ্যে একটি যা বোঝায় যে আমাদের কাছে থাকা মডেলটি তার উদ্দেশ্যে উপযুক্ত নয়।

@ ডেভিপদের জবাবে দেওয়া মন্তব্যে, আমি অভ্যন্তরীণ সিভি-তে মডেল অপ্টিমাইজেশান প্রক্রিয়ার অংশ হিসাবে অস্থিতিশীলতা সামলানোর কথা ভাবছিলাম ।

তবে আপনি অবশ্যই সত্য বলেছেন: আমরা যদি বাইরের সিভি অনুসন্ধানের ভিত্তিতে আমাদের মডেলটি পরিবর্তন করি তবে পরিবর্তিত মডেলটির স্বতন্ত্র পরীক্ষার জন্য আরও একটি দফা প্রয়োজনীয়।
তবে, বাইরের সিভিতে অস্থিরতাও একটি চিহ্ন হতে পারে যে অপটিমাইজেশনটি ভালভাবে সেট আপ করা হয়নি - সুতরাং বাইরের সিভিতে অস্থিরতা খুঁজে পাওয়া বোঝায় যে অভ্যন্তরীণ সিভি প্রয়োজনীয় ফ্যাশনে অস্থিতিশীলতার দণ্ড দেয়নি - এটি আমার মূল বিষয় হবে এমন পরিস্থিতিতে সমালোচনা। অন্য কথায়, কেন অপ্টিমাইজেশন ভারী ওভারফিট মডেলগুলিকে নেতৃত্ব দেয় / নেতৃত্ব দেয়?

তবে, এখানে একটি বিশেষত্ব রয়েছে যে আইএমএইচও সঠিক পরিস্থিতিতে সাবধানতার সাথে বিবেচনা করার পরে "চূড়ান্ত" মডেলটির আরও পরিবর্তনটি বঞ্চিত করতে পারে : যেমন আমরা অতিরিক্ত সাফল্য সনাক্ত করেছি, মডেলটিতে কোনও প্রস্তাবিত পরিবর্তন (কম ডিএফ / আরও সীমাবদ্ধ বা সমষ্টি) হবে কম ওভারফিটিংয়ের দিক হতে হবে (বা কমপক্ষে হাইপারপ্রেমেটারগুলি যা অতিরিক্ত মানানসই প্রবণতা কম)। স্বতঃপরীক্ষণের বিষয়টি হ'ল ওভারফিটিং সনাক্ত করা - প্রশিক্ষণ প্রক্রিয়াতে ইতিমধ্যে ব্যবহৃত ডেটা দ্বারা আন্ডারফিটিং সনাক্ত করা যায়।

সুতরাং আমরা যদি কথা বলি, বলুন, পিএলএস মডেলটিতে সুপ্ত পরিবর্তনশীলগুলির সংখ্যা আরও কমিয়ে আনার বিষয়ে তুলনামূলকভাবে সৌম্য হবে (প্রস্তাবিত পরিবর্তনটি সম্পূর্ণ ভিন্ন ধরণের মডেল হতে পারে, এসভিএমের পরিবর্তে পিএলএস বলুন, সমস্ত বেট বন্ধ থাকবে) ), এবং আমি এটি সম্পর্কে আরও স্বাচ্ছন্দ্য বোধ করতাম যদি আমি জানতে পারি যে আমরা যেভাবেই মডেলিংয়ের একটি মধ্যবর্তী পর্যায়ে রয়েছি - সর্বোপরি, যদি অনুকূলিত মডেলগুলি এখনও অস্থির থাকে তবে আরও মামলার প্রয়োজন আছে এমন প্রশ্ন নেই। এছাড়াও, অনেক পরিস্থিতিতে আপনার শেষ পর্যন্ত পড়াশোনা করা প্রয়োজন যা কার্য সম্পাদনের বিভিন্ন দিকগুলি যথাযথভাবে পরীক্ষা করার জন্য ডিজাইন করা হয়েছে (যেমন ভবিষ্যতে অর্জিত ডেটাতে সাধারণীকরণ)। তবুও, আমি জোর দিয়ে বলছি যে পুরো মডেলিংয়ের প্রক্রিয়াটি রিপোর্ট করা দরকার, এবং এই দেরী পরিবর্তনগুলির প্রভাবগুলি যত্ন সহকারে আলোচনা করা দরকার।

এছাড়াও, পারফরম্যান্সের বাইরে থাকা এবং অ্যানালগ সিভি অনুমান সহ সমষ্টি এবং ইতিমধ্যে উপলব্ধ ফলাফলগুলি থেকে এটি সম্ভব হবে - যা আমি এখানে সৌম্য বিবেচনা করতে ইচ্ছুক মডেলটির অন্য ধরণের "পোস্ট প্রসেসিং" is তবুও, এটি আরও ভাল হত যদি সমীক্ষা পৃথক পূর্বাভাসের (যে পৃথক মডেলগুলি স্থিতিশীল বলে বলার আর একটি উপায়) যাচাইয়ের জন্য এটি শুরু করার জন্য ডিজাইন করা হয়েছিল।


আপডেট (2019): আমি এই পরিস্থিতিতে আমার মনে হয়, আরো আমি পক্ষপাতী আসা অভিগমন "দৃশ্যত পাখির ছাড়া নেস্টেড ক্রস বৈধতা"


Wrt মডেল নির্বাচন, শ্রেণিবদ্ধী যদি অস্থির হয়, তবে আমাদের কি সেরাদের মধ্যে মধ্যবর্তী পারফরম্যান্স সহ একটি বেছে নেওয়া উচিত? বাইরের পারফরম্যান্সের সাথে অভ্যন্তরীণ পারফরম্যান্সের তুলনা করার জন্য এই পছন্দটি আপনার পরামর্শের সাথে সাদৃশ্যপূর্ণ।
ভাইপস

2
@ ডেভিপস: যদি মডেলগুলি অস্থির হয়, তবে অপ্টিমাইজেশন কাজ করবে না (অস্থিরতার কারণে অতিরিক্ত বৈচিত্রের কারণ হয়)। মাঝারি (বা গড়) পারফরম্যান্স সহ একটি মডেল নির্বাচন করা যদিও সাহায্য করবে না। পরিবর্তে, যদি মডেলগুলি অস্থিতিশীল হয় তবে আমি আরও নিয়ন্ত্রক মডেলগুলি (যেমন শক্তিশালী নিয়মিতকরণ) বা একটি মডেল এনসেম্বল (যা একটি মডেল নির্বাচন করা থেকে তাত্পর্যপূর্ণভাবে পৃথক) তৈরি করার পরামর্শ দিয়েছি।
সিবিলোইটস

1
@ ব্যবহারকারী 99889: দয়া করে আপডেট করা উত্তর দেখুন।
সিবিলেটগুলি

1
@ ব্যবহারকারী 99889: হ্যাঁ - তবে সেখানে অলৌকিক চিহ্ন আশা করবেন না। যদি 80% ক্ষেত্রে (কে = 5) প্রশিক্ষণ দেওয়া যায় তখন স্থায়িত্ব যদি সমস্যা হয় তবে এটি সম্ভবত কে = 10 অর্থাৎ 90% এন = 80% / কে = 5 সারোগেট মডেলের তুলনায় অতিরিক্ত 12.5% ​​নিয়ে সমস্যা হতে পারে।
cbeleites

1
@ কেবেলাইটস: সম্পর্কিত কল্পিত। মনে করুন আমি একটি প্যারামিটার স্পেস সি করার সিদ্ধান্ত নিয়েছি সি: [1,2,3]। আমি আমার পুরো ডেটাসেটে নেস্টেড সিভি সঞ্চালন করি এবং পারফরম্যান্সটি এত দুর্দান্ত নয়। তাই আমি আমার অনুসন্ধানের স্থানটি সি: [0.5,1,1.5,2,2.5,3,3.5,4] এ প্রসারিত করব। আমি কি খুব খারাপ কিছু করেছি? দেখে মনে হচ্ছে পরীক্ষার তথ্য থেকে প্রাপ্ত জ্ঞানের উপর ভিত্তি করে আমি আমার প্যারামিটারের স্থানটি (যা মডেলিংয়ের প্রক্রিয়ার একটি অংশ) পরিবর্তিত হয়েছি এবং তাই আমার বর্তমান ডেটাসেটের বাইরের কোনও ডেটাসেটের মূল্যায়ন করা দরকার? আপনি যদি সেরা মনে করেন তবে এটি একটি পৃথক প্রশ্ন করতে পেরে খুশি।
ব্যবহারকারীর

27

স্বেচ্ছাসেবীদের দুর্দান্ত উত্তর (+1) ছাড়াও, প্রাথমিক ধারণাটি হ'ল ক্রস-বৈধকরণ কোনও মডেলকে ফিট করার জন্য কোনও পদ্ধতির পারফরম্যান্স মূল্যায়নের জন্য ব্যবহৃত হয় , মডেলটি নয়। আপনার যদি মডেল নির্বাচন সম্পাদন করতে হয়, তবে ক্রস-বৈধকরণ পদ্ধতির প্রতিটি ভাঁজে আপনার এটি স্বাধীনভাবে সম্পাদন করা উচিত, কারণ এটি মডেল ফিটিং পদ্ধতির একটি অবিচ্ছেদ্য অঙ্গ। আপনি যদি ক্রস-বৈধতা ভিত্তিক মডেল নির্বাচন পদ্ধতি ব্যবহার করেন, এর অর্থ আপনি নেস্টেড ক্রস-বৈধকরণের সাথে শেষ করেছেন। প্রতিটি ক্রস-বৈধকরণের উদ্দেশ্য বিবেচনা করা সহায়ক - একটি মডেল নির্বাচনের জন্য, অন্যটি কর্মক্ষমতা অনুমানের জন্য।

আমি পুরো মডেলটিকে (মডেল নির্বাচন সহ) পুরো ডেটাসেটে ফিট করে আমার চূড়ান্ত মডেলটি তৈরি করব, নেস্টেড ক্রস-বৈধতা ব্যবহার করে পারফরম্যান্স সম্পর্কে ধারণা পেতে আমি যে মডেলটি থেকে আশা করতে পারি তার ধারণা পেতে পারি।


1
তোমার দরকার কেন get an idea of the performance?
ভাইপস

1
@ ডেভিপস সাধারণত যদি কোনও পরিসংখ্যানগত পদ্ধতি ব্যবহারিক ব্যবহারের জন্য ব্যবহার করা হয় তবে ব্যবহারকারীরা প্রায়শই এটি কতটা ভাল কাজ করে সে সম্পর্কে কিছু ধারণা নিতে চান (যেমন মেডিকেল স্ক্রিনিং পরীক্ষা)। এছাড়াও যদি আপনি একটি মেশিন লার্নিং অ্যালগরিদম বিকাশ করে থাকেন তবে প্রতিযোগিতামূলক পদ্ধতির তুলনায় এটি কতটা ভাল সম্পাদন করে তার একটি নিরপেক্ষ অনুমান করা দরকারী useful পদ্ধতিটি আসলে কাজ করে কিনা তা যাচাই করার একটি দরকারী মাধ্যম (ক্রস-বৈধকরণ যদি পরামিতিগুলি নির্বাচন করতে এবং পারফরম্যান্স নির্ধারণের জন্য উভয় ব্যবহার করা হয়)।
ডিকরান মার্সুপিয়াল

5
সুতরাং আসলে সিদ্ধান্ত নেওয়ার জন্য কোন প্যারামিটারটি চূড়ান্ত মডেলটিতে ব্যবহার করতে হবে আপনি একবার অন্তঃস্থ লুপটি করবেন? সুতরাং যদি অভ্যন্তরীণ লুপটি 10গুণ বৈধতা হয় তবে আপনি প্রতিটি মডেলকে ট্রেনের 1/10 টি ধারণ করবেন এবং প্রতিটি মডেল এই 10 বার পুনরাবৃত্তি করবেন এবং তারপরে সর্বনিম্ন গড় ত্রুটির সাথে প্যারামিটার মানটি চয়ন করবেন? তারপরে পুরো ডেটা সেটটিতে সেই পরামিতিটির মানটি দিয়ে মডেলটি পুনরায় প্রশিক্ষণ করবেন?
emschorsch

2
হ্যাঁ এটা ঠিক. r
Dikran Marsupial

1
@ ফেডেরিকো টেডেসি নিরপেক্ষ পারফরম্যান্সের প্রাক্কলনকারীকে পেতে কেবল ভিন্ন বিভাজনের চেয়ে ক্রস-বৈধকরণগুলি নেস্ট করা দরকার (আমার পেপার jMLr.csail.mit.edu/papers/volume11/cawley10a/cawley10a.pdf এর অংশ 5.3 দেখুন ) । সাধারণত আমি কেবলমাত্র মডেলগুলির জন্য মডেল নির্বাচনের জন্য এলইউসিভি ব্যবহার করি যেখানে এটি দক্ষতার সাথে গণনা করা যেতে পারে এবং মডেল ছোট ডেটাসেটের জন্য বুটস্ট্র্যাপিং / ব্যাগিং ব্যবহার করতে হবে (বাইরের ক্রস-বৈধকরণের পরিবর্তে OOB ত্রুটি সহ)।
ডিকরান মার্শুপিয়াল

7

আমি মনে করি না যে কেউ সত্যই প্রথম প্রশ্নের উত্তর দিয়েছে। "নেস্টেড ক্রস-বৈধকরণ" দ্বারা আমার মনে হয় তিনি গ্রিডসন্ধানের সাথে এটি একত্রিত করতে চেয়েছিলেন। সাধারণত গ্রিড অনুসন্ধানে সিভি অন্তর্নির্মিত থাকে এবং আমরা কতগুলি ভাঁজ পরীক্ষা করতে চাই তার একটি পরামিতি নেয়। এই দুটিয়ের সংমিশ্রণটি আমি মনে করি এটি একটি ভাল অনুশীলন তবে গ্রিডসন্ধান এবং ক্রসভিলেশন থেকে প্রাপ্ত মডেলটি আপনার চূড়ান্ত মডেল নয়। আপনার সর্বোত্তম প্যারামিটারগুলি বেছে নিতে হবে এবং শেষ পর্যন্ত আপনার সমস্ত ডেটা সহ একটি নতুন মডেলকে প্রশিক্ষণ দেওয়া উচিত, বা এমনকি অদেখা ডেটাতে এখানে ক্রসভিলেশনও করা উচিত এবং যদি মডেলটি সত্যিই খুব ভাল হয় তবে আপনি এটি আপনার সমস্ত ডেটাতে প্রশিক্ষণ দিন। এটি আপনার চূড়ান্ত মডেল।


3
স্পষ্ট করার জন্য, পাইথন সাইকিট-লার্নে, GridSearchCV(refit=True)সর্বোত্তম পরামিতিগুলি ব্যবহার করে পুরো ডেটাতে কোনও মডেলকে রিফাইট করে, যাতে অতিরিক্ত পদক্ষেপের প্রয়োজন হয় না। দস্তাবেজগুলি দেখুন
পল

আপনি রিফিট বিকল্প সম্পর্কে সঠিক। আমি শুধু স্পষ্টভাবে tbe বলছিলাম ছিল !!
আনসেলাল

"গ্রিড অনুসন্ধানের মডেলটি আপনার চূড়ান্ত মডেল নয়"। তবে আমার বক্তব্যটি হ'ল রিফিট = গ্রিডের অনুসন্ধান মডেল হ'ল চূড়ান্ত মডেল। আপনি এবং আমি একই পৃষ্ঠায় থাকা মানে কি? তবে তখনও আমি দেখতে পাই না সিভি দিয়ে গ্রিড অনুসন্ধানে বাসা বাঁধে কোথায়। এটি আমার কাছে সিভিয়ের একক স্তরের মতো মনে হয় (যেমন, গ্রিড অনুসন্ধানে 5-গুণ সিভি সিভি এর একক স্তর)।
পল

রিফিট সম্পর্কে আমরা একই পৃষ্ঠায় আছি। তবে নেস্টেড সিভি দিয়ে আমাদের বোঝানো হয়েছে যে আপনি আপনার গ্রিডসন্ধানের বাইরে অন্য একটি সিভি লুপ তৈরি করেছেন, কিছু তথ্য প্রশিক্ষণের বাইরে রেখেছেন এবং এটি চূড়ান্ত-চূড়ান্ত মডেলটিকে পরীক্ষা করে দেখুন এটি
জেনারেল
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.