ক্রস-বৈধতা বিশ্লেষণের ফলস্বরূপ কি কেউ আমাকে বলতে পারে? এটি কি কেবলমাত্র গড় যথার্থতা বা এটি পরামিতিগুলির সাথে কোনও মডেল দেয়?
কারণ, আমি কোথাও শুনেছি যে প্যারামিটার টিউনিংয়ের জন্য ক্রস-বৈধতা ব্যবহৃত হয়।
ক্রস-বৈধতা বিশ্লেষণের ফলস্বরূপ কি কেউ আমাকে বলতে পারে? এটি কি কেবলমাত্র গড় যথার্থতা বা এটি পরামিতিগুলির সাথে কোনও মডেল দেয়?
কারণ, আমি কোথাও শুনেছি যে প্যারামিটার টিউনিংয়ের জন্য ক্রস-বৈধতা ব্যবহৃত হয়।
উত্তর:
ক্রস-বৈধতা প্রশিক্ষণের এবং পরীক্ষার নমুনায় ডেটাগুলির কয়েকটি এলোমেলো পার্টিশনের ওভারেজ করে নমুনার নির্ভুলতার একটি পরিমাপ দেয়। এটি প্রায়শই প্যারামিটারের কয়েকটি (বা অনেক) সম্ভাব্য মানগুলির জন্য ক্রস-বৈধকরণ এবং পরামিতি মানটি যা সর্বনিম্ন ক্রস-বৈধকরণ গড় ত্রুটি দেয় তা বেছে নিয়ে প্যারামিটার টিউনিংয়ের জন্য ব্যবহৃত হয়।
সুতরাং প্রক্রিয়া নিজেই আপনাকে কোনও মডেল বা প্যারামিটারের প্রাক্কলন দেয় না, তবে বিকল্পগুলির মধ্যে চয়ন করতে সহায়তা করতে আপনি এটি ব্যবহার করতে পারেন।
জোনাথনের উত্তর যুক্ত করতে।
তবে, আপনি যদি প্যারামিটার টিউনিংয়ের জন্য ক্রস বৈধতা ব্যবহার করেন তবে প্রকৃতপক্ষে আউট-স্যাম্পলগুলি আপনার মডেলের অংশ হয়ে যায়। চূড়ান্ত মডেলটির কার্যকারিতা সঠিকভাবে পরিমাপ করতে আপনার আরও একটি স্বাধীন নমুনা প্রয়োজন need
মডেল কর্মক্ষমতা পরিমাপের জন্য নিযুক্ত, ক্রস বৈধকরণ কেবল গড় যথাযথতার চেয়ে আরও বেশি পরিমাপ করতে পারে:
দ্বিতীয় যে জিনিসটি আপনি ক্রস যাচাইয়ের সাথে পরিমাপ করতে পারবেন তা হ'ল প্রশিক্ষণের ডেটা পরিবর্তনের ক্ষেত্রে মডেল স্থিতিশীলতা: ক্রস যাচাইকরণ প্রচুর "সারোগেট" মডেল তৈরি করে যা প্রশিক্ষণপ্রাপ্ত সামান্য ভিন্ন প্রশিক্ষণ সেট। যদি মডেলগুলি স্থিতিশীল থাকে তবে এই সমস্ত সারোগেট মডেল সমান, যদি প্রশিক্ষণটি অস্থিতিশীল হয়, সারোগেট মডেলগুলি অনেক বেশি পরিবর্তিত হয়। আপনি এই "অনেকগুলি পরিবর্তিত" পরিমাণ নির্ধারণ করতে পারেন যেমন একই নমুনার (পুনরাবৃত্ত / পুনরাবৃত্ত ক্রস বৈধকরণে) বিভিন্ন সরোগেট মডেলের পূর্বাভাসের বৈকল্পিক হিসাবে বা উদ্বৃত্ত মডেলগুলির পরামিতিগুলির বৈকল্পিক হিসাবে।
পূর্ববর্তী উত্তরগুলি যুক্ত করতে, আমরা শুরু থেকে শুরু করব:
প্রশিক্ষণের তথ্যগুলিতে আপনি আপনার মডেলগুলিকে উপভোগ করতে পারেন এমন কয়েকটি উপায় রয়েছে, কয়েকটি সুস্পষ্ট, কিছু কম some প্রথম এবং সবচেয়ে গুরুত্বপূর্ণটি হ'ল ডেটাতে ট্রেনিং প্যারামিটারগুলি (ওজন) (ওজন ফিটিং প্যারামিটারগুলিতে লজিস্টিক রিগ্রেশন, নিউরাল নেটওয়ার্কে নেটওয়ার্ক ওয়েট ইত্যাদি) over তারপরে আপনি ডেটাতে শব্দটি মডেল করবেন - যদি আপনি অত্যধিক ফিট হন তবে আপনি কেবল অন্তর্নির্মিত উত্পাদনকারী ক্রিয়াটি ক্যাপচার করবেন না, তবে নমুনার আকারের কারণে এবং এলোমেলোতার কারণেও যে নমুনা জনগণের নিখুঁত প্রতিনিধিত্ব নয়। এই ওভারফিটটি মডেলের নির্দিষ্ট বৈশিষ্ট্যগুলিকে (সাধারণ জটিলতায়) দণ্ডিত করে কিছুটা পরিমাণ হ্রাস করতে পারে। নিউরাল নেটওয়ার্ক (ড্রপআউট নামে পরিচিত) থেকে কিছু নিউরন সরিয়ে, ট্রেনের নমুনায় পারফরম্যান্স আর উল্লেখযোগ্যভাবে উন্নতি না হওয়ার পরে প্রশিক্ষণ বন্ধ করে এটি করা যেতে পারে,https://ieeexplore.ieee.org/docament/614177/ ) ইত্যাদি)। তবে এই নিয়মিতকরণ কৌশলগুলি নিজেরাই প্যারামিট্রাইজড (আপনি কখন থামবেন ?, কত নিউরন অপসারণ করবেন? ইত্যাদি)। এছাড়াও বেশিরভাগ মেশিন লার্নিং মডেলের বেশ কয়েকটি হাইপার-প্যারামিটার রয়েছে যা প্রশিক্ষণ শুরুর আগে সেট করা দরকার। এবং এই হাইপার-প্যারামিটারগুলি প্যারামিটার টিউনিং পর্যায়ে সুর করা হয়।
এটি আমাদের দ্বিতীয় স্থানে নিয়ে আসে এবং আরও সূক্ষ্ম ধরণের ওভারফিটিং: হাইপার-প্যারামিটার ওভারফিটিং। নমুনার কে -1 ভাঁজগুলিতে বার বার আপনার মডেলটিকে স্ক্র্যাচ থেকে প্রশিক্ষণ দিয়ে এবং শেষ ভাঁজে পরীক্ষা করে "সেরা" হাইপার-প্যারামিটারগুলি সন্ধান করতে ক্রস-বৈধকরণ ব্যবহার করা যেতে পারে।
সুতরাং এটি ঠিক কিভাবে করা হয়? অনুসন্ধান কৌশল (টেনশি দ্বারা প্রদত্ত) উপর নির্ভর করে, আপনি মডেলের হাইপার-পরামিতিগুলি সেট করে এবং প্রতিবার বিভিন্ন পরীক্ষার ভাঁজ ব্যবহার করে আপনার মডেল কে-র প্রশিক্ষণ দেন। আপনি সমস্ত পরীক্ষার ভাঁজগুলিতে মডেলটির গড় কার্যকারিতা "মনে রাখবেন" এবং হাইপার-প্যারামিটারগুলির একটি সেট জন্য পুরো প্রক্রিয়াটি পুনরাবৃত্তি করুন। তারপরে আপনি হাইপার-প্যারামিটারগুলির সেটটি চয়ন করেন যা ক্রস-বৈধকরণের সময় সেরা পারফরম্যান্সের সাথে মিলে যায়। আপনি দেখতে পাচ্ছেন যে, এই পদ্ধতির গণনা ব্যয় অত্যধিকভাবে হাইপার-প্যারামিটার সেটের সংখ্যার উপর নির্ভর করে যা বিবেচনা করা দরকার। সে কারণেই এই সেটটি বেছে নেওয়ার জন্য কিছু কৌশল তৈরি করা হয়েছে (এখানে আমি তেনশি যা বলেছিল তা সাধারণ করতে চলেছি):
তবে এটি গল্পের শেষ নয়, কারণ হাইপার-প্যারামিটারগুলি ডেটাকেও উপভোগ করতে পারে (এবং করবে)। বেশিরভাগ ক্ষেত্রে আপনি কেবল এটির সাথেই বেঁচে থাকতে পারেন, তবে আপনি যদি আপনার মডেলটির সাধারণীকরণ শক্তি সর্বাধিক করতে চান তবে আপনি হাইপার-প্যারামিটারগুলিও চেষ্টা করতে এবং নিয়মিত করতে চাইতে পারেন। প্রথমে, আপনি নেস্টেড গ্রিড অনুসন্ধান ব্যবহার করে নমুনা ছাড়াই ডেটাতে পারফরম্যান্সটি মূল্যায়ন করতে পারেন (বিশদ: http://scikit-learn.org/stable/auto_example/model_selection/plot_nested_cross_omotation_iris.html , আলোচনা: নেস্টেড ক্রস বৈধতা মডেল নির্বাচনের জন্য) বা কেবলমাত্র একটি বৈধতা সেট ব্যবহার করুন যা হাইপার-প্যারামিটার টিউনিংয়ের জন্য ব্যবহৃত হয় না। হাইপার-প্যারামিটার স্পেসে নিয়মিতকরণের ক্ষেত্রে এটি একটি কমবেশি একটি মুক্ত প্রশ্ন। কিছু ধারণার মধ্যে হাইপার-প্যারামিটার মানগুলির সেরা সেট না বেছে নেওয়া অন্তর্ভুক্ত থাকে তবে মধ্যের কাছাকাছি কিছু; যুক্তিটি নিম্নরূপে চলে: সেরা হাইপার-প্যারামিটার মানগুলি সম্ভবত ট্রেনের অন্যান্য ডেটার চেয়ে ভাল সম্পাদন করে, খারাপ পরামিতিগুলি কেবল খারাপ, তবে মাঝের অংশগুলি সম্ভবত সেরাগুলির চেয়ে আরও ভাল সাধারণীকরণ অর্জন করতে পারে । এন্ড্রু এনজি একটি প্রবন্ধ লিখেছিলেন। অন্য বিকল্পটি আপনার অনুসন্ধানের স্থান সীমাবদ্ধ করছে (আপনি এখানে শক্তিশালী পক্ষপাতিত্ব প্রবর্তন করে নিয়মিত করছেন - অনুসন্ধানের জায়গার বাইরের মানগুলি কখনও স্পষ্টতই নির্বাচিত হবে না)।
পার্শ্ব মন্তব্য: পারফরম্যান্স মেট্রিক হিসাবে নির্ভুলতা ব্যবহার করা বেশিরভাগ ক্ষেত্রে খুব খারাপ ধারণা, f1 এবং f_beta স্কোরগুলিতে সন্ধান করুন - এই মেট্রিকগুলি বেশিরভাগ ক্ষেত্রে আপনি বাইনারি শ্রেণিবদ্ধকরণ সমস্যার ক্ষেত্রে আসলে কী অপছন্দ করার চেষ্টা করছেন তা আরও ভালভাবে প্রতিফলিত করবে।
সংক্ষিপ্তসার হিসাবে: স্বয়ংক্রিয়ভাবে ক্রস-বৈধকরণটি নমুনা ছাড়াই ডেটাতে মডেলটির পারফরম্যান্সের মূল্যায়ন করতে ব্যবহৃত হয়, তবে হাইপার-প্যারামিটার স্পেসে অনুসন্ধান কৌশলগুলির সাথে একত্রে হাইপার-পরামিতিগুলি সুর করতেও ব্যবহার করা যেতে পারে। ভাল হাইপার-প্যারামিটার সন্ধান করা কমপক্ষে ওভারফিটিং এড়াতে বা হ্রাস করতে দেয় তবে মনে রাখবেন যে হাইপার-প্যারামিটারগুলি ডেটাকেও উপভোগ করতে পারে।
আপনি যদি বিজ্ঞান-শিখার পটভূমি থেকে থাকেন তবে এই উত্তরটি সহায়ক হতে পারে।
কে-ফোল্ড ক্রস-বৈধকরণটি ডেটা k
পার্টিশনে বিভক্ত করতে ব্যবহৃত হয় , অনুমানকারীটি k-1
পার্টিশনের উপর প্রশিক্ষিত হয় এবং তারপরে পার্টিশনে পরীক্ষা করা হয় kth
। এর মতো, কোন পার্টিশনটি পার্টিশন হওয়া উচিত তা বেছে নেওয়া kth
, k
সম্ভাবনা রয়েছে। অতএব আপনি আপনার অনুমানের k
সমস্ত k
সম্ভাবনার ফলাফল পান ।
এগুলি কম্পিউটেশনালি ব্যয়বহুল পদ্ধতি, তবে আপনি যদি বিভিন্ন অনুমানের চেষ্টা করতে চলেছেন তবে আপনি সিভি সহ হাইপারপ্যারামিটার টিউনিং করার জন্য এই তিনটি ব্যবহার করতে পারেন:
আমি। গ্রিড অনুসন্ধানসিভি - সমস্ত অনুমানের জন্য হাইপারপ্যারামিটারগুলির জন্য সমস্ত সম্ভাব্য পি এবং সি এর একটি সম্পূর্ণ তালিকা। শেষ পর্যন্ত সেই নির্দিষ্ট অনুমানের সিভি এর গড়টির গড় ব্যবহার করে সেরা হাইপারপ্যারামিটার দেয়।
আ। র্যান্ডমাইজডসাইসসিভি - হাইপারপ্যারামিটারগুলির সমস্ত পি এবং সি করে না, তবে একটি এলোমেলো পদ্ধতির সাহায্যে নিকটতম সম্ভাব্য নির্ভুল অনুমানকারীকে গণনার ক্ষেত্রে আরও বেশি সঞ্চয় করে।
III। বেয়েস সার্চসিভি - scikit-learn
একটি এলোমেলো অনুসন্ধান এবং ফিটের ফলাফল করার জন্য বেইসিয়ান অপ্টিমাইজেশনের অংশ নয় ।
tl: dr : সিভি কেবলমাত্র আপনার অনুমানের জন্য উচ্চ পক্ষপাত এবং উচ্চ প্রকার এড়ানোর জন্য ব্যবহৃত হয় কারণ আপনি যে ডেটাটি অতিক্রম করছেন। আশা করি এটি সহায়ক ছিল।