ক্যারেট - পুনরাবৃত্তি কে-ভাঁজ ক্রস-বৈধকরণ বনাম নেস্টেড কে-ভাঁজ ক্রস বৈধতা, পুনরাবৃত্তি এন-বার


16

ক্যারেট প্যাকেজ একাধিক মেশিন লার্নিং মডেলগুলির নির্মাণের জন্য একটি উজ্জ্বল আর গ্রন্থাগার, এবং মডেল ভবন ও মূল্যায়ন জন্য বিভিন্ন ফাংশন আছে। প্যারামিটার টিউনিং এবং মডেল প্রশিক্ষণের জন্য, ক্যারেট প্যাকেজটি অন্যতম পদ্ধতি হিসাবে 'রিডার্টভি' সরবরাহ করে।

একটি ভাল অনুশীলন হিসাবে, প্যারামিটার টিউনিং নেস্টেড কে-ফোল্ড ক্রস বৈধকরণ যা নিম্নলিখিত হিসাবে কাজ করে ব্যবহার করা যেতে পারে:

  1. প্রশিক্ষণ 'কে' উপসেটে বিভক্ত করুন
  2. প্রতিটি পুনরাবৃত্তিতে, মডেল প্রশিক্ষণের জন্য 'কে বিয়োগ 1' সাবসেটগুলি নিন এবং মডেল পরীক্ষার জন্য 1 টি সাবসেট (হোল্ডআউট সেট) রাখুন।
  3. আরও ভাগ করে 'কে' বিয়োগ 1 'প্রশিক্ষণটি' কে 'উপসাগরগুলিতে সেট করা হয়েছে এবং পুনরাবৃত্তভাবে নতুন' কে বিয়োগ 1 'উপসেট এবং প্যারামিটার টিউনিংয়ের জন্য' বৈধতা সেট '(গ্রিড অনুসন্ধান) ব্যবহার করুন। এই পদক্ষেপে চিহ্নিত সেরা পরামিতিটি ধাপ 2-এ হোল্ডআউট সেটটিতে পরীক্ষার জন্য ব্যবহৃত হয়।

অন্যদিকে, আমি ধরে নিই, বারবার কে-ভাঁজ ক্রস-বৈধকরণের মাধ্যমে আমরা 1 বারের ধাপটি পুনরাবৃত্তভাবে পুনরাবৃত্তি করতে পারি যতবার আমরা মডেল বৈচিত্র খুঁজে পেতে পারি।

তবে, ক্যারেট ম্যানুয়ালটিতে অ্যালগরিদমটি দেখে মনে হচ্ছে 'পুনরাবৃত্তি' পদ্ধতিটি ক্রড বৈধতা পুনরাবৃত্তি করার পাশাপাশি নেস্টেড কে-ফোল্ড ক্রস বৈধতাও সম্পাদন করতে পারে।

ক্যারেট ট্রেনের অ্যালগরিদম https://topepo.github.io/care/training.html

আমার প্রশ্নগুলি হ'ল:

  1. আমার ক্যারেটের 'রিডারসিভি' পদ্ধতিটি সম্পর্কে কী বোঝানো উচিত তা সঠিক?
  2. যদি তা না হয় তবে আপনি দয়া করে ক্যারেট প্যাকেজটি ব্যবহার করে 'বারবারের সিভি' পদ্ধতিতে নেস্টেড কে-ফোল্ড ক্রস বৈধতা ব্যবহারের উদাহরণ দিতে পারেন?

সম্পাদনা:

এই ক্রম বৈধকরণের কৌশলগুলি এই পদ্ধতিতে নিবন্ধে ব্যাখ্যা এবং তুলনা করা হয়েছে।

ক্রেস্টাজিক ডি, বাটুরোভিক এলজে, লেইই ডিই এবং থমাস এস : রিগ্রেশন এবং শ্রেণিবদ্ধকরণের মডেলগুলি নির্বাচন এবং মূল্যায়ন করার সময় ক্রস-বৈধকরণের ক্ষতিগুলিকেমিনফর্ম্যাটিকস জার্নাল 2014 6 (1): 10। ডোই: 10.1186 / 1758-2946-6-10

আমি ক্যারেট প্যাকেজটি ব্যবহার করে "অ্যালগরিদম 2: পুনরাবৃত্ত স্তরযুক্ত নেস্টেড ক্রস-বৈধকরণ" এবং "অ্যালগরিদম 3: পরিবর্তনশীল নির্বাচন এবং প্যারামিটার টিউনিংয়ের জন্য পুনরায় গ্রিড-অনুসন্ধান ক্রস-বৈধকরণ" এ আগ্রহী

উত্তর:


2

উপস্থাপিত (নেস্টেড) অ্যালগরিদমের সাথে কোনও ভুল নেই এবং প্রকৃতপক্ষে, এটি বিভিন্ন ডেটা সেটগুলিতে পক্ষপাত-বৈসাদৃশ্য সমস্যার জন্য উপযুক্ত দৃ rob়তার সাথে ভাল অভিনয় করতে পারে perform আপনি কখনই বলেননি যে, পাঠক যে বৈশিষ্ট্যগুলি ব্যবহার করছেন তা সর্বাধিক "অনুকূল" হিসাবে ধরে নেওয়া উচিত, তাই যদি এটি অজানা থাকে তবে কয়েকটি বৈশিষ্ট্য নির্বাচনের সমস্যা রয়েছে যা প্রথমে সমাধান করা উচিত।

বৈশিষ্ট্য / প্যারামিটার নির্বাচন

WRএকটিপিপিR- যেখানে শ্রেণিবদ্ধ / মডেল দ্বারা সম্পাদিত পুনরাবৃত্তি শেখার ভিতরে বৈশিষ্ট্য নির্বাচনকে বান্ডিল করা হয়। বিপরীতে, আমি সর্বদা একটি বৈশিষ্ট্য ব্যবহার করিআমিটিRবৈশিষ্ট্য (পরামিতি) নির্বাচনের পক্ষপাতদুটিকে ছোট করার চেষ্টা হিসাবে এটি একটি পৃথক পদ্ধতি নিয়োগ করে যা শ্রেণিবদ্ধ / মডেল থেকে বহুদূরে সরানো। বৈশিষ্ট্য নির্বাচনের সময় (জিজে ম্যাকলাচলান) বনাম ফিল্টারিং এবং নির্বাচন পক্ষপাতের মোড়কে খোঁজ করুন।

সর্বদা একটি প্রধান বৈশিষ্ট্য নির্বাচনের সমস্যা রয়েছে, যার জন্য সমাধানটি হ'ল অবজেক্ট পার্টিশন (ভাঁজ) এর একটি পদ্ধতি গ্রহণ করা, যাতে বস্তুগুলি বিভিন্ন সেটে বিভক্ত হয়। উদাহরণস্বরূপ, 100 সারি এবং 100 কলাম সহ একটি ডেটা ম্যাট্রিক্স অনুকরণ করুন এবং তারপরে অন্য কলামে একটি বাইনারি ভেরিয়েট (0,1) অনুকরণ করুন - এটিকে গ্রুপিং ভেরিয়েবল বলুন। এরপরে, বাইনারি (0,1) ভেরিয়েবলকে গ্রুপিং ভেরিয়েবল হিসাবে ব্যবহার করে প্রতিটি কলামে টি-পরীক্ষা চালান। 100 টি-টেস্টের কয়েকটি বেশিরভাগই সুযোগের দ্বারা গুরুত্বপূর্ণ হয়ে উঠবে; তবে, যত তাড়াতাড়ি আপনি ডেটা ম্যাট্রিক্সকে দুটি ভাগে ভাগ করবেনডি1 এবং ডি2, যার প্রতিটি আছে এন=50, উল্লেখযোগ্য পরীক্ষার সংখ্যা কমেছে। প্যারামিটার নির্বাচনের সময় আপনি যে পরিমাণ ভাঁজগুলি ব্যবহার করতে পারেন তার উপযুক্ত সংখ্যা নির্ধারণ করে আপনার ডেটা দিয়ে এই সমস্যাটি সমাধান না করা পর্যন্ত আপনার ফলাফল সন্দেহ হতে পারে। সুতরাং হোল্ড-আউট অবজেক্টগুলিতে প্রতিটি প্রশিক্ষণের ভাগে ব্যবহৃত বিভিন্ন ধরণের নমুনা আকারের ক্রিয়াকলাপ হিসাবে হোল্ড-আউটগুলিতে ভবিষ্যদ্বাণীমূলক নির্ভুলতার মূল্যায়নের জন্য আপনাকে কিছু ধরণের বুটস্ট্র্যাপ-বায়াস পদ্ধতি স্থাপন করতে হবে, যেমন,π=0.1এন,0.2এন,0,3এন,0.4এন,0.5এন(এটি, শেখার সময় ব্যবহৃত নমুনার আকার বাড়ানো) ব্যবহৃত বিভিন্ন বিবিধ সংখ্যক সিভি ফোল্ডের সাথে মিলিত উদাহরণস্বরূপ, 2, 5, 10 ইত্যাদি

অপ্টিমাইজেশান / কম

আপনি কার্যকারিতা আনুমানিককরণের জন্য কোনও অপ্টিমাইজেশন বা মিনিমাইজেশন সমস্যার সমাধান করছেন বলে মনে হয় যেমন, Y=(এক্স1,এক্স2,...,এক্স), যেখানে উদ্রেকন বা পরামিতিগুলির সাথে একটি ভবিষ্যদ্বাণীপূর্ণ মডেল ব্যবহৃত হয় এবং is Yক্রমাগত-স্কেল করা হয়। এটি দেওয়া হয়েছে এবং আপনার পূর্বাভাসগুলিতে পক্ষপাত হ্রাস করার প্রয়োজনীয়তা দেওয়া হয়েছে (নির্বাচন পক্ষপাত, পক্ষপাত-বৈসাদৃশ্য, প্রশিক্ষণ বস্তুগুলিতে পরীক্ষার বিষয়গুলি থেকে তথ্য ফাঁস ইত্যাদি) আপনি জলাবদ্ধ গোয়েন্দা পদ্ধতির ব্যবহারের সময় সিভি নিয়োগের দিকে নজর দিতে পারেন, যেমন কণা ঝাঁক অপটিমাইজেশন (পিএসও), পিঁপড়া কলোনী অপ্টিমাইজেশন ইত্যাদি। পিএসও (কেনেডি এবং এবারহার্ট, ১৯৯৫ দেখুন) কণার মধ্যে সামাজিক এবং সাংস্কৃতিক তথ্য বিনিময়ের জন্য প্যারামিটার যুক্ত করে যখন তারা শেখার সময় প্যারামিটারের স্থানটি অতিক্রম করে। আপনি যখন ঝাঁকির গোয়েন্দা পদ্ধতির সাথে পরিচিত হন, আপনি দেখতে পাবেন যে আপনি প্যারামিটার সংকল্পে প্রচুর পক্ষপাতিত্বকে অতিক্রম করতে পারেন। শেষ অবধি, আমি জানিনা এখানে কোন র্যান্ডম অরণ্য আছে (আরএফ, দেখুন মেশিন লার্নিংয়ের ব্রেইম্যান, জার্নান see

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.