পৃথক মডেলিং / বৈধতা সেটগুলি ব্যবহার করে কোনও রিগ্রেশন মডেল তৈরি করার সময়, বৈধতার ডেটা "পুনর্বার" করা কি উপযুক্ত?


13

ধরুন আমি মডেলিং / বৈধতা পর্যবেক্ষণের মধ্যে একটি 80/20 বিভক্ত পেয়েছি। আমি মডেলিং ডেটা সেটটিতে একটি মডেল ফিট করেছি এবং যাচাইকরণ ডেটা সেটটিতে আমি যে ত্রুটিটি দেখছি তাতে আমি আরামদায়ক। ভবিষ্যতের পর্যবেক্ষণগুলি স্কোর করার জন্য আমি আমার মডেলটি রোলআউট করার আগে, 100% ডেটাতে আপডেট হওয়া প্যারামিটারের অনুমানের জন্য মডেলিং ডেটার সাথে বৈধতাটি আবার সংযুক্ত করা কি উপযুক্ত? আমি এ সম্পর্কে দুটি দৃষ্টিভঙ্গি শুনেছি:

  1. আমি যে বৈধতা সম্পাদন করেছি তা হ'ল মডেল কাঠামোর বৈধতা, অর্থাৎ আমি প্রয়োগ করেছি ভবিষ্যদ্বাণীকারী এবং রূপান্তরগুলির সেট। আমি যখন আমার অনুমানগুলি আপডেট করতে এটি ব্যবহার করতে পারি তখন আমার 20% ডেটা টেবিলের মধ্যে রেখে দেওয়া কোনও অর্থবোধ করে না।

  2. আমি যে বৈধতা সম্পাদন করেছি তা হ'ল আমি আমার মডেলিং ডেটা সেটে গণনা করেছি এমন পরামিতি অনুমানের বৈধতা। আমি যদি মডেলটিকে ফিট করে থাকি তবে আমি অনুমানগুলি পরিবর্তন করেছি এবং আপডেট হওয়া মডেলের কর্মক্ষমতা পরীক্ষা করার জন্য আমার আর উদ্দেশ্যমূলক উপায় নেই।

আমি সর্বদা # 1 টির যুক্তি অনুসরণ করেছি, তবে সম্প্রতি আমি বেশিরভাগ লোককে # 2 নিয়ে তর্ক করতে শুনেছি। আমি অন্যেরা এ সম্পর্কে কী ভাবছেন তা দেখতে চেয়েছিলাম। আপনি এই বিষয় নিয়ে সাহিত্যে বা অন্য কোথাও কোনও ভাল আলোচনা দেখেছেন?

উত্তর:


6

বিকল্প 1 সঠিক এক। আপনি আপনার মডেলের প্যারামিটারগুলি আপডেট করতে বৈধতা ডেটা সেট যুক্ত করতে পারেন।

এটাই উত্তর। এখন এটি আলোচনা করা যাক। আপনি যা করেছেন তা আপনার বিকল্প 1 ছিল। উপরের বিষয়টি স্পষ্ট হয় যদি আপনি বুটস্ট্র্যাপিংয়ের কে-ফোল্ড ক্রস-বৈধকরণ করেন (এবং আপনার এটি করা উচিত ছিল - এটি আপনার প্রশ্ন থেকে পরিষ্কার নয়)।

5 ভাঁজ ক্রস বৈধকরণে, আপনার সমান আকারের 5 টি এলোমেলো সেটগুলিতে আপনার থাকা ডেটা ভাগ করুন। আসুন তাদের এ, বি, সি, ডি এবং ই ডাকুন। তারপরে আপনি আপনার মডেলের প্যারামিটারগুলি (মডেল নিজেই) সেটের 4 টিতে শিখুন, এ, বি, সি এবং ডি বলুন এবং এটি পরীক্ষা করুন বা এটিতে বৈধতা দিন পঞ্চম মডেল ই। (এটি আপনি করেছেন)। তবে তারপরে আপনি পরীক্ষা / বৈধকরণ (ডি বলুন) হিসাবে অন্য সেটটি নির্বাচন করুন এবং অন্যান্য 4 (এ, বি, সি এবং ই) ব্যবহার শিখুন। এটি ডি তে পরীক্ষা করুন, পুনরাবৃত্তি করুন।

আপনি আপনার ভবিষ্যদ্বাণীমূলক মডেল ত্রুটিটি 5 টি পরীক্ষার গড় ত্রুটি - এবং ভবিষ্যদ্বাণীমূলক ত্রুটি কীভাবে শিখন এবং পরীক্ষার সেটগুলির উপর নির্ভর করে সে সম্পর্কে আপনার কিছুটা বোঝাপড়া রয়েছে। সর্বোত্তম ক্ষেত্রে দৃশ্যে সমস্ত 5 টি ত্রুটির ত্রুটি একইরকম এবং ভবিষ্যতে আপনার মডেল সেই স্তরে অভিনয় করবে তা আপনি যুক্তিসঙ্গত নিশ্চিত হতে পারেন।

তবে কি মডেল ?? শেখার প্রতিটি সেটের জন্য আপনার কাছে মডেলের জন্য আলাদা প্যারামিটার থাকবে। এ, বি, সি, ডি দিয়ে শেখা একটি প্যারামিটার সেট পি 1 তৈরি করে, এ, বি, সি, ই, প্যারামিটার সেট পি 2, পি 5 পর্যন্ত শিখছে। এগুলির কোনওটিই আপনার মডেল নয়।

আপনি যা পরীক্ষা করেছেন তা হ'ল মডেলগুলি তৈরির একটি পদ্ধতির প্রত্যাশিত ত্রুটি , যে পদ্ধতিটি আপনি শিখার সেটটি তখন এ, বি, সি, ডি এবং যখন এটি এ, বি, সি, ই এবং অন্যান্য সময়ে অনুসরণ করেছিলেন। এই পদ্ধতিটি যা প্রত্যাশিত ত্রুটি সহ একটি মডেল তৈরি করে।

তাহলে চূড়ান্ত মডেলটি কী? এটি আপনার উপলব্ধ সমস্ত ডেটা (এ, বি, সি, ডি এবং ই) এর পদ্ধতির প্রয়োগ। প্যারামিটার সেট পি 0 সহ একটি নতুন মডেল, যা আপনি আগে কখনই উত্পন্ন করেন নি, এটি পরীক্ষা করার জন্য আপনার কাছে কোনও ডেটা নেই (যেহেতু আপনি প্যারামিটারগুলি P0 নির্ধারণে সমস্ত ডেটা "ব্যবহার" করেছিলেন) এবং তবুও আপনার কাছে যুক্তিসঙ্গত প্রত্যাশা রয়েছে যে এটি ভবিষ্যতে সঞ্চালিত হবে অন্যান্য মডেলগুলির হিসাবে ডেটা (পি 1, পি 2 ...) একই পদ্ধতি ব্যবহার করে নির্মিত হয়েছিল।

আপনি যদি ক্রস-বৈধতা বা বুটস্ট্র্যাপ না করেন (বুটস্ট্র্যাপটি ব্যাখ্যা করতে কিছুটা জটিল হয় - তবে আমি এই আলোচনা থেকে বাদ দিই)? আপনি যদি কেবলমাত্র একটি শিখন / বৈধতা বিভাজন এবং ত্রুটির একটি পরিমাপ সম্পাদন করেন। তারপরে, আর্গুমেন্ট 2 কিছুটা সঠিক হতে পারে তবে আপনার একটি বড় সমস্যা রয়েছে - আপনার কাছে মডেলের ত্রুটির একটি মাত্র পরিমাপ রয়েছে এবং আপনি এটি জানেন না যে এটির যাচাই করতে ব্যবহৃত ডেটার উপর ত্রুটিটি কতটা নির্ভরশীল। সম্ভবত, ভাগ্যক্রমে, আপনার 20% বৈধতা সেটটি পূর্বাভাস দেওয়া বিশেষত সহজ ছিল। একাধিক ত্রুটি ত্রুটি না করে, এটি অনুমান করা খুব ঝুঁকিপূর্ণ যে আপনার ভবিষ্যদ্বাণীপূর্ণ মডেলের প্রত্যাশিত ত্রুটি হার ভবিষ্যতের ডেটার জন্য একই থাকবে।

"বড় ঝুঁকি" কোনটি? এই ত্রুটিটি ভবিষ্যতের ডেটাগুলির জন্য মূলত একই থাকবে বলে ধরে নিতে বা আপনার মডেলটি শিখতে আরও ডেটা যুক্ত করা কোনও উপায়ে মডেলটিকে "স্ক্রু" করবে এবং ভবিষ্যতে ত্রুটির হার বাড়িয়ে দেবে? এর উত্তর কীভাবে দিতে হবে তা আমি সত্যিই জানি না তবে আমি এমন মডেলগুলির বিষয়ে সন্দেহ করব যেগুলি আরও ডেটার সাথে আরও খারাপ হয় ....

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.