নিন-হোম-বার্তা:
দুর্ভাগ্যক্রমে, আপনি যে পাঠ্যটি উদ্ধৃত করেছেন তাতে 1 এবং 2 পদ্ধতির মধ্যে দুটি জিনিস পরিবর্তিত হয়েছে:
- পন্থা 2 ক্রস বৈধকরণ এবং ডেটা-চালিত মডেল নির্বাচন / সুরকরণ / অনুকূলিতকরণ সম্পাদন করে
- পন্থা 1 ক্রস বৈধতা বা ডেটা-চালিত মডেল নির্বাচন / সুরকরণ / অপ্টিমাইজেশন ব্যবহার করে না।
- এখানে আলোচিত প্রসঙ্গে ডেটা-চালিত মডেল নির্বাচন / টিউনিং / অপ্টিমাইজেশন ছাড়াই 3 ক্রস বৈধকরণ পুরোপুরি সম্ভবপর (amd IMHO আরও অন্তর্দৃষ্টি নিয়ে যাবে)
- পদ্ধতির 4, কোনও ক্রস বৈধকরণ নয় তবে ডেটা-চালিত মডেল নির্বাচন / টিউনিং / অপ্টিমাইজেশন পাশাপাশি সম্ভব, তবে এটি আরও জটিল।
আইএমএইচও, ক্রস বৈধকরণ এবং ডেটা-চালিত অপ্টিমাইজেশন আপনার মডেলিং কৌশলটি সেট আপ করার ক্ষেত্রে সম্পূর্ণ দুটি পৃথক (এবং মূলত স্বতন্ত্র) সিদ্ধান্ত। শুধুমাত্র সংযোগ যে আপনার লক্ষ্য আপনার অপ্টিমাইজেশান জন্য কার্মিক যেমন ক্রস বৈধতা অনুমান ব্যবহার করতে পারেন। তবে ব্যবহারের জন্য প্রস্তুত অন্যান্য টার্গেট ক্রিয়াকলাপ রয়েছে এবং ক্রস বৈধতা অনুমানের অন্যান্য ব্যবহার রয়েছে (গুরুত্বপূর্ণভাবে, আপনি এগুলি আপনার মডেল যাচাই বাছাইয়ের জন্য ব্যবহার করতে পারেন, ওরফে বৈধতা বা পরীক্ষার জন্য)
দুর্ভাগ্যক্রমে, মেশিন লার্নিং টার্মিনোলজি হ'ল আইএমএইচও বর্তমানে একটি জগাখিচুড়ি যা এখানে মিথ্যা সংযোগ / কারণ / নির্ভরতার পরামর্শ দেয়।
যখন আপনি 3 পদ্ধতির সন্ধান করেন (ক্রস বৈধকরণ অপ্টিমাইজেশনের জন্য নয় তবে মডেল পারফরম্যান্স পরিমাপের জন্য), আপনি "সিদ্ধান্ত" ক্রস বৈধকরণ বনাম পুরো ডেটা সম্পর্কে প্রশিক্ষণ পাবেন এই প্রসঙ্গে একটি মিথ্যা দ্বিবিজ্ঞান হিসাবে সেট করুন: ক্রস বৈধতা ব্যবহার করার সময় শ্রেণিবদ্ধ কর্মক্ষমতা পরিমাপ করতে, যোগ্যতার ক্রস বৈধতা চিত্র পুরো ডেটা সেটে প্রশিক্ষিত কোনও মডেলের জন্য অনুমান হিসাবে ব্যবহৃত হয়। অর্থাত 3 পদ্ধতির সাথে 1 পদ্ধতির অন্তর্ভুক্ত রয়েছে।
এখন, আসুন ২ য় সিদ্ধান্তটি দেখুন: ডেটা-চালিত মডেল অপ্টিমাইজেশন বা না। এটি আইএমএইচও এখানে গুরুত্বপূর্ণ বিষয়। এবং হ্যাঁ, সেখানে বাস্তব জগতে পরিস্থিতিতে কোথায় আছেন তা না ডেটা চালিত মডেল অপ্টিমাইজেশান করছেন উত্তম। ডেটা-চালিত মডেল অপ্টিমাইজেশন একটি ব্যয় করে আসে। আপনি এটি এইভাবে ভাবতে পারেন: আপনার ডেটা সেটের তথ্যগুলি কেবলমাত্র না অনুমান করার জন্য ব্যবহৃত হয়pমডেলটির পরামিতি / গুণফল, তবে অপ্টিমাইজেশন যা করে তা হ'ল তথাকথিত হাইপারপ্যারামিটারগুলি আরও পরামিতিগুলি অনুমান করে। আপনি যদি মডেল ফিটিং এবং অপ্টিমাইজেশন / টিউনিং প্রক্রিয়াটিকে মডেল পরামিতিগুলির অনুসন্ধান হিসাবে বর্ণনা করেন তবে এই হাইপারপ্যারামিটার অপ্টিমাইজেশনের অর্থ হল একটি বৃহত্তর অনুসন্ধানের স্থান বিবেচনা করা হয়। অন্য কথায়, পদ্ধতির 1 (এবং 3) এ আপনি সেই হাইপারপ্যারামিটারগুলি নির্দিষ্ট করে সন্ধানের জায়গাটিকে সীমাবদ্ধ করেন। আপনার বাস্তব বিশ্বের ডেটা সেটটি যথেষ্ট পরিমাণে যথেষ্ট (যথেষ্ট পরিমাণ তথ্য থাকতে পারে) সেই সীমাবদ্ধ অনুসন্ধানের জায়গার মধ্যে ফিট করার অনুমতি দিতে পারে তবে 2 (এবং 4) পদ্ধতির বৃহত অনুসন্ধান স্পেসে সমস্ত প্যারামিটারগুলি যথেষ্ট পরিমাণে ঠিক করতে যথেষ্ট বড় নয়।
আসলে, আমার ক্ষেত্রে আমার প্রায়শই ডেটা-চালিত অপ্টিমাইজেশনের কোনও চিন্তাভাবনা করার জন্য ডেটা সেটগুলির সাথে খুব সামান্য পরিমাণে ডিল করতে হয়। এর পরিবর্তে আমি কী করব: ডেটা এবং ডেটা তৈরির প্রক্রিয়াগুলি সম্পর্কে আমার ডোমেন জ্ঞানটি ব্যবহার করে কোন মডেলটি ডেটা এবং প্রয়োগের শারীরিক প্রকৃতির সাথে ভাল মেলে তা সিদ্ধান্ত নিতে decide এবং এগুলির মধ্যে, আমাকে এখনও আমার মডেল জটিলতা সীমাবদ্ধ করতে হবে।