ক্রস-বৈধতার পরে আপনি কীভাবে 'পরীক্ষা' ডেটাसेट ব্যবহার করবেন?


25

আমি দেখেছি এমন কিছু বক্তৃতা এবং টিউটোরিয়ালে , তারা আপনার ডেটাটিকে তিন ভাগে ভাগ করার পরামর্শ দেয়: প্রশিক্ষণ, বৈধতা এবং পরীক্ষা and তবে পরীক্ষার ডেটাসেট কীভাবে ব্যবহার করা উচিত এবং পুরো ডেটা সেটের উপরে ক্রস-বৈধকরণের চেয়ে এই পদ্ধতিটি কীভাবে ভাল তা পরিষ্কার নয়।

ধরা যাক আমরা একটি পরীক্ষার সেট হিসাবে আমাদের 20% ডেটা সংরক্ষণ করেছি। তারপরে আমরা বাকীটি নিয়ে যাই, কে কে ভাঁজগুলিতে বিভক্ত করি এবং ক্রস-বৈধতা ব্যবহার করে আমরা এমন মডেলটি খুঁজে পাই যা এই ডেটাসেট থেকে অজানা ডেটাতে সেরা ভবিষ্যদ্বাণী করে। আসুন আমরা যে সর্বোত্তম মডেলটি পেয়েছি তা আমাদের 75% নির্ভুলতা দেয় ।

বিভিন্ন প্রশ্নোত্তর ওয়েবসাইটগুলির বিভিন্ন টিউটোরিয়াল এবং প্রচুর প্রশ্ন বলছে যে এখন আমরা একটি সংরক্ষিত (পরীক্ষা) ডেটাসেটে আমাদের মডেলটি যাচাই করতে পারি। তবে এটি ঠিক কীভাবে করা হয়েছে তা আমি এখনও পেতে পারি না বা এটির মূল উদ্দেশ্য কী।

ধরা যাক আমরা পরীক্ষার ডেটাসেটে 70% নির্ভুলতা পেয়েছি । তাহলে আমরা কী করব? আমরা আমাদের পরীক্ষার ডেটাসেটটিতে উচ্চতর স্কোর না পাওয়া পর্যন্ত আমরা কি অন্য একটি মডেল এবং তারপরে আরেকটি চেষ্টা করি? তবে এক্ষেত্রে এটি দেখতে সত্যই মনে হচ্ছে আমরা কেবলমাত্র আমাদের সীমাবদ্ধ (মাত্র 20%) পরীক্ষার সেটগুলিতে এমন মডেলটি সন্ধান করব । এর অর্থ এই নয় যে আমরা সেই মডেলটি সন্ধান করব যা সাধারণভাবে সেরা।

অধিকন্তু, আমরা এই স্কোরটিকে মডেলটির সাধারণ মূল্যায়ন হিসাবে কীভাবে বিবেচনা করতে পারি, যদি এটি কেবলমাত্র একটি সীমিত ডাটা সেটে গণনা করা হয়? যদি এই স্কোরটি কম হয় তবে সম্ভবত আমরা দুর্ভাগ্য এবং "খারাপ" পরীক্ষার ডেটা নির্বাচন করেছি selected

অন্যদিকে, আমরা যদি আমাদের সমস্ত ডেটা ব্যবহার করি এবং তারপরে কে-ফোল্ড ক্রস-বৈধকরণ ব্যবহার করে মডেলটি বেছে নিই, আমরা এমন মডেলটি খুঁজে পাব যা আমাদের কাছে থাকা পুরো ডেটা সেট থেকে অজানা তথ্যের উপর সর্বোত্তম ভবিষ্যদ্বাণী করে ।


1
আপনি সেই পরীক্ষার সেটটিতে আপনার সেরা মডেলটি মূল্যায়ন করুন এবং এতে কার্যকারিতাটি প্রতিবেদন করুন। এটি আপনার মডেলের পারফরম্যান্সের সেরা অনুমান । ইয়াসের আবু-মোস্তফার রচনা "ডাটা থেকে শিক্ষা" বইয়ের প্রথম দুটি অধ্যায়টি পড়ার পরামর্শ দিচ্ছি। খুব সংক্ষিপ্ত এবং খুব অ্যাক্সেসযোগ্য। work.caltech.edu/telecourse.html
ভ্লাদিস্লাভস ডভগ্যালিক্স

1
আপনার প্রস্তাবিত বইটির জন্য ধন্যবাদ! তবে আপনার প্রশ্নের উত্তর সম্পর্কে - আপনি বলছেন এটি "আপনার মডেলের পারফরম্যান্সের সেরা অনুমান", তবে এটি আসলে একটি ছোট (20%) পরীক্ষার সেটটিতে কোনও মডেলের পারফরম্যান্সের অনুমান , এটি হয় না মডেল সাধারণভাবে পারফরম্যান্স মানে।
সেরিহি

2
আসলে এটি সাধারণভাবে আপনার মডেলটির অভিনয় সম্পর্কে সেরা অনুমান। আপনার মডেল পক্ষপাতদুষ্ট হতে পারে এবং / বা উচ্চ বৈকল্পিকতায় ভুগতে পারে তবে আপনার পরীক্ষার সেটটিতে মডেলটির পারফরম্যান্স হ'ল এটি কোনও অদেখা ডেটা কীভাবে সম্পাদন করবে তা সেরা সূচক।
ভ্লাদিস্লাভস ডভগ্যালিক্স

ধন্যবাদ জিওন! আমার কাছে এখনও অস্পষ্ট একমাত্র বিষয়টি, পরীক্ষার ডেটা সেট ব্যবহার করে মডেলটি মূল্যায়ন করার পরে আমরা কী করব ?
সেরিহই

আপনি যদি ফলাফলগুলিতে খুশি হন বা মডেলটির উন্নতি করার জন্য আরও ভাল বৈশিষ্ট্য / অ্যালগরিদম / আরও ডেটা খুঁজে পান তবে আপনি মডেলটিকে জাহাজটি পাঠান।
ভ্লাদিস্লাভস ডভগ্লেক্লেস

উত্তর:


20

এটি ক্রস-বৈধতা এবং পরীক্ষার সেটগুলি সম্পর্কে আমি উত্তর দিয়েছি এমন আরও একটি প্রশ্নের অনুরূপ । এখানে বোঝার মূল ধারণাটি হ'ল স্বাধীন ডেটাসেট । মাত্র দুটি পরিস্থিতি বিবেচনা করুন:

  1. আপনার যদি প্রচুর সংস্থান থাকে তবে আপনি আদর্শভাবে একটি ডেটাসেট সংগ্রহ করবেন এবং ক্রস-বৈধকরণের মাধ্যমে আপনার মডেলটিকে প্রশিক্ষণ দেবেন। তারপরে আপনি অন্য একটি সম্পূর্ণ স্বাধীন ডেটাসেট সংগ্রহ করবেন এবং আপনার মডেলটি পরীক্ষা করবেন । তবে, যেমনটি আমি আগেই বলেছি, সাধারণত অনেক গবেষকের পক্ষে এটি সম্ভব হয় না।

এখন, আমি যদি এমন একজন গবেষক হয়ে থাকি যে এত ভাগ্যবান না হয় তবে আমি কী করব? ঠিক আছে, আপনি সেই সঠিক দৃশ্যের নকল করার চেষ্টা করতে পারেন:

  1. কোনও মডেল প্রশিক্ষণ নেওয়ার আগে আপনি আপনার ডেটা বিভক্ত করে এটিকে পাশের দিকে রেখে দেবেন ( ক্রস-বৈধকরণের সময় কখনও স্পর্শ করবেন না )। এটি উপরের আদর্শ দৃশ্যে উল্লিখিত খুব একই স্বাধীন ডেটাসেটটি অনুকরণ করতে। যদিও এটি একই ডেটাसेट থেকে এসেছে মডেল প্রশিক্ষণ সেই নমুনাগুলি থেকে কোনও তথ্য নেবে না (যেখানে ক্রস-বৈধকরণের সাথে সমস্ত ডেটা ব্যবহৃত হয়)। একবার আপনি আপনার মডেলকে প্রশিক্ষণ দিলে আপনি এটির পরীক্ষার সেটটিতে এটি প্রয়োগ করতে পারেন , যা প্রশিক্ষণের সময় কখনও দেখা যায়নি এবং ফলাফল পাবেন। আপনার মডেলটি আরও সাধারণীকরণযোগ্য এবং সবেমাত্র আপনার ডেটা শিখেনি তা নিশ্চিত করার জন্য এটি করা হয় ।

আপনার অন্যান্য উদ্বেগের সমাধান করতে:

আসুন ধরা যাক আমরা পরীক্ষার ডেটা সেটটিতে 70% নির্ভুলতা পেয়েছি, সুতরাং আমরা কী করব? আমরা কি অন্য একটি মডেল চেষ্টা করি এবং তারপরে অন্যটি না করে আমরা আমাদের পরীক্ষার ডেটা সেটটিতে hight স্কোর পাব?

সাজান, ধারণাটি হ'ল আপনি নিজের ডেটা থেকে সেরা মডেল তৈরি করছেন এবং এরপরে এর আগে কখনও দেখা হয়নি এমন আরও কিছু ডেটাতে এটি মূল্যায়ন করছেন। আপনি আপনার ক্রস-বৈধকরণ প্রকল্পটি পুনরায় মূল্যায়ন করতে পারেন তবে একবার আপনার সুরযুক্ত মডেল (অর্থাত্ হাইপার পরামিতি) পরে আপনি সেই মডেলটির সাথে এগিয়ে চলেছেন কারণ এটি আপনার তৈরি সেরা best কীটি আপনার টেস্ট ডেটা ব্যবহারের জন্য কখনও নয় । পরীক্ষার ডেটা থেকে আপনার ফলাফল হ'ল 'সাধারণ' ডেটাতে আপনার মডেলের কর্মক্ষমতা। এই প্রক্রিয়াটির অনুলিপি করা ডেটাসেটগুলির স্বাধীনতা (যা পুরো বিষয়টি ছিল) সরিয়ে ফেলবে। এটি পরীক্ষা / বৈধতা ডেটা সম্পর্কিত অন্য প্রশ্নেরও ঠিকানা ।

এবং এছাড়াও, আমরা কীভাবে এই স্কোরটিকে মডেলটির সাধারণ মূল্যায়ন হিসাবে বিবেচনা করতে পারি, যদি এটি কোনও সীমিত ডাটা সেটে গণনা করা হয়? যদি এই স্কোরটি কম হয়, তবে আমরা "খারাপ" পরীক্ষার ডেটা নির্বাচন করতে দুর্ভাগ্যজনক হয়েছি।

আপনি যদি আপনার ডেটা সঠিকভাবে বিভক্ত করেন তবে এটি অসম্ভাব্য। আপনার এলোমেলোভাবে আপনার ডেটা বিভক্ত করা উচিত (যদিও শ্রেণি ভারসাম্যের জন্য সম্ভাব্য স্তরযুক্ত)। আপনি যদি ডেটাসেটটি যথেষ্ট পরিমাণে বড় হন যে আপনি আপনার ডেটাটি তিন ভাগে বিভক্ত করছেন, আপনার পরীক্ষার সাবসেটটি যথেষ্ট পরিমাণে বড় হওয়া উচিত যে সুযোগটি খুব কম যে আপনি সবেমাত্র খারাপ ডেটা বেছে নিয়েছেন। এটি সম্ভবত আপনার মডেল অত্যধিক ফিট হয়ে গেছে।


3
এই ধরণের বিস্তারিত ব্যাখ্যার জন্য আপনাকে ধন্যবাদ! আমার কাছে এখনও অস্পষ্ট একমাত্র বিষয়টি, পরীক্ষার ডেটা সেট ব্যবহার করে মডেলটি মূল্যায়ন করার পরে আমরা কী করব ? রেজাল্ট কম হলে কী হবে? আমরা কি অন্য একটি মডেল চেষ্টা করি?
সেরিহি

আমি উপরে যেমন বলেছি, আপনি নিজের ক্রস-বৈধকরণটির পুনরায় মূল্যায়ন করতে পারেন এবং মডেল প্রশিক্ষণের জন্য আপনার 'পরীক্ষার' ডেটা ব্যবহার না করার পরে আপনার পদ্ধতিটি এতদিন উন্নতি করা যায় কিনা তা দেখুন। যদি আপনার ফলাফল কম হয় তবে আপনি সম্ভবত আপনার মডেলকে উপস্থাপন করবেন। আপনার ডেটাসেটে কেবলমাত্র এতটাই ভবিষ্যদ্বাণীপূর্ণ শক্তি থাকতে পারে।
সিডেটারম্যান

ক্রস বৈধতা কেবল বারবার প্রশিক্ষণ এবং পরীক্ষার সেটে বিভক্ত হয় না (উদাহরণস্বরূপ পরীক্ষার সেটটি প্রথম 20% পরে দ্বিতীয় 20% তারপর তৃতীয় এবং এই জাতীয়, বা সমস্ত এলোমেলোভাবে পরীক্ষার এন বার জন্য 20% বাছাই করে এবং গড় যথার্থতা গণনা করে) এবং ঠিক একই জিনিসটি করছেন, যা আপনি পরীক্ষার সেটটি দিয়ে করছেন বলে বর্ণনা করছেন? পরীক্ষা না হওয়া পর্যন্ত একেবারে অ্যালগরিদমে দেখানো হচ্ছে না?
জেলফির কাল্টসটাহল

2
@ জেলফির নং, প্রতিটি ভাঁজ প্রতিটি হাইপারপ্যারমিটার সংমিশ্রণের সাথে একাধিকবার মূল্যায়ন করা হয়। কেবল সেরা ফলাফলটি বেছে নেওয়া কোনও 'স্বতন্ত্র' পরীক্ষার সেটের চেয়ে বেশি ফলাফলের প্রতিবেদন করতে পারে। ধারণাটি হ'ল কোন পরামিতিগুলি এই ভাঁজগুলি জুড়ে সাধারণীকরণ করে এবং কোনও পরীক্ষার সেটটিতে সেই আর্কিটেকচারটি ব্যবহার করে সেটি মডেলটি কীভাবে 'জেনারালাইজযোগ্য' তা নির্ধারণ করতে কখনও দেখেনি।
cdeterman

1
আমি এটি যুক্ত করতে চাই যে আসলে আপনার স্বাধীন পরীক্ষার সেটটিতে পারফরম্যান্স দেখার চেষ্টা করা এবং ফিরে যেতে এবং আপনার মডেলটিকে পুনরায় প্রশিক্ষণের সিদ্ধান্ত নেওয়া আপনার পরীক্ষার সেটটিকে আর পুরোপুরি স্বতন্ত্র করে না । আপনি নিখুঁত নির্ভুলতা না পাওয়া পর্যন্ত আপনি এটি অসীম বহুবার করতে পারেন। একাডেমিক রেফারেন্সের ক্ষেত্রে, আমি "ডেটা থেকে শিক্ষা" বইয়ের প্রস্তাব দিই, এখানে লেখক ( work.caltech.edu/telecourse.html ) দ্বারা নিখরচায় অনলাইন কোর্সও রয়েছে ।
মাইকেল

4

আপনি যা করতে যাচ্ছেন তা যদি কাঁচা বা সর্বনিম্ন প্রিপ্রোসেসড ডেটাসেটের (যেমন এক-হট এনকোডিং এবং / অথবা এনএগুলি অপসারণ) ডিফল্ট সেটিংস সহ কোনও মডেলকে প্রশিক্ষণ দেওয়া হয় তবে আপনার আলাদা টেস্ট সেটের প্রয়োজন নেই, আপনি কেবল প্রশিক্ষণ নিতে পারেন আপনার আপনার বৈধতা সেটগুলিতে ট্রেন সেট এবং পরীক্ষা করুন, বা আরও ভাল, আপনার পারফরম্যান্সটি অনুমান করতে ক্রস-বৈধতা ব্যবহার করে পুরো সেটটিতে ট্রেন।

যাইহোক, ডেটা সম্পর্কে আপনার জ্ঞানের সাথে সাথে আপনি আপনার মূল কৌশল থেকে কোনও পরিবর্তন আনতে বাধ্য হবেন, আপনি এখন আপনার ফলাফলটিকে "কলঙ্কিত" করেছেন। কিছু উদাহরণ অন্তর্ভুক্ত:

  • মডেল পছন্দ: আপনি লজিস্টিক, লাসো, এলোমেলো বন, এক্সজিবিস্ট এবং ভেক্টর মেশিন সমর্থন করেছেন এবং সেরা মডেলটি চয়ন করেছেন

  • প্যারামিটার টিউনিং: আপনি অনুকূল হাইপারপ্যারামিটারগুলি খুঁজে পেতে একটি এক্সজিবিস্ট টিউন করেছেন

  • বৈশিষ্ট্য নির্বাচন: আপনি আপনার মডেলটিতে অন্তর্ভুক্ত করার জন্য বৈশিষ্ট্যগুলির সর্বোত্তম উপসেটটি বেছে নিতে পশ্চাদপদ নির্বাচন, জেনেটিক অ্যালগরিদম, বোরুটা ইত্যাদি ব্যবহার করেছেন You

  • অনুপস্থিত অনুপস্থিতি: আপনি গড়ের সাথে বা অন্যান্য ভেরিয়েবলগুলির উপর ভিত্তি করে একটি সাধারণ মডেলের সাথে অনুপস্থিত ভেরিয়েবলগুলি অভিযুক্ত করলেন

  • বৈশিষ্ট্যটির রূপান্তর: আপনি আপনার সংখ্যার ভেরিয়েবলগুলিকে একটি জেড-স্কোর প্রতিস্থাপনের জন্য কেন্দ্রিক করেছেন এবং মাপ দিয়েছেন (গড় থেকে স্ট্যান্ডার্ড বিচ্যুতির সংখ্যা)

উপরের সমস্ত ক্ষেত্রে, একটি একক হোল্ডআউট সেট বা এমনকি ক্রস-বৈধতা ব্যবহার করে আপনাকে রিয়েল-ওয়ার্ল্ড পারফরম্যান্সের একটি বাস্তবসম্মত প্রাক্কলন দেয় না কারণ আপনি আপনার সিদ্ধান্তের ভবিষ্যতের ডেটাতে থাকা তথ্য ব্যবহার করছেন না। পরিবর্তে, আপনি আপনার ডেটার জন্য সেরা মডেল, সেরা হাইপারপ্যারামিটার, সেরা বৈশিষ্ট্য সেট ইত্যাদি চেরি-বাছাই করছেন এবং আপনি আপনার ডেটাতে কৌশলটি কিছুটা "ওভারফিটিং" বোধ করার সম্ভাবনা করছেন। বাস্তব-জগতের পারফরম্যান্সের একটি সৎ অনুমান পেতে, আপনাকে এমন ডেটাতে স্কোর করতে হবে যা সিদ্ধান্ত প্রক্রিয়াতে মোটেই প্রবেশ করেনি, সুতরাং আপনার প্রশিক্ষণ (মডেলিং) এবং বৈধতা থেকে পৃথক একটি স্বাধীন পরীক্ষা সেট ব্যবহারের সাধারণ অভ্যাস একটি মডেল বাছাই, বৈশিষ্ট্য, হাইপারপ্যারামিটার, ইত্যাদি) সেট।

একটি পরীক্ষার সেট রাখার বিকল্প হিসাবে, আপনি পরিবর্তে নেস্টেড ক্রস-বৈধতা নামক একটি প্রযুক্তি ব্যবহার করতে পারেন। এটির জন্য আপনার সম্পূর্ণ মডেলিং কৌশলটি (রূপান্তর, অভিশংসন, বৈশিষ্ট্য নির্বাচন, মডেল নির্বাচন, হাইপারপ্যারমিটার টিউনিং) একটি নন-প্যারাম্যাট্রিক ফাংশন হিসাবে কোড করা এবং তারপরে সেই পুরো ফাংশনটিতে ক্রস-বৈধতা সম্পাদন করা যেমন এটি কেবল কোনও মডেল ফিট ফাংশন। বেশিরভাগ এমএল প্যাকেজগুলিতে এটি করা কঠিন, তবে আপনার প্রশিক্ষণ কৌশলটি সংজ্ঞায়িত করার জন্য মোড়ক ব্যবহার করে এবং তার পরে আপনার মোড়ানো শিখার পুনরায় মডেলিংয়ের মাধ্যমে এমএলআর প্যাকেজটির সাহায্যে আরে খুব সহজেই প্রয়োগ করা যেতে পারে:

https://mlr.mlr-org.com/articles/tutorial/nested_resampling.html


1

আমি ধরে নিচ্ছি যে আপনি শ্রেণিবিন্যাস করছেন।

আপনার ডেটা নিন এবং এটি 70/30 প্রশিক্ষণ ডেটা / টেস্টডাটা সাবটায় ভাগ করুন। প্রশিক্ষণ ডেটা সাবসেটটি নিন এবং এটি 70/30 আবার ট্রেনিংডাটা / বৈধতা ডেটা সাবসেটগুলিতে ভাগ করুন। এখন আপনার কাছে আপনার আসল ডেটার 3 টি উপগ্রহ রয়েছে - প্রশিক্ষণ ডেটা (.7 * .7), বৈধতা ডেটা (.7 * .3) এবং টেস্টডেটা (.3)।

আপনি আপনার মডেল প্রশিক্ষণ ডেটা দিয়ে প্রশিক্ষণ দিন। তারপরে, আপনি বৈধতা ডেটা ব্যবহার করে সেই মডেলের কর্মক্ষমতা পরীক্ষা করে দেখুন, যা আমরা ট্রেনিংডাটা হিসাবে স্বতন্ত্র হিসাবে ভাবতে পারি এবং সেইজন্য মডেলটি কতটা সাধারণীকরণ করছে তার একটি ভাল মূল্যায়ন। আসুন ভান করুন যে আপনি 75% নির্ভুলতা অর্জন করেছেন।

এখন আপনি নিজের মডেলটিকে অনেক সময় নির্বিচারে পুনরায় প্রশিক্ষণ দিন। প্রতিটি পুনরায় প্রশিক্ষণ, আপনি হাইপারপ্যারামিটারগুলির একটি আলাদা সেট মূল্যায়ন করছেন (আপনার মডেলটির তুলনায় আপনার মডেলটিকে প্রথম স্থানে খাওয়ানো হচ্ছে এমন প্যারামিটারগুলি অপ্টিমাইজ করছে) তবে এখনও প্রশিক্ষণডাটা সাবসেট ব্যবহার করছেন। প্রতিটি পুনরায় প্রশিক্ষণ, আপনি আবার যাচাইডাটাতে পারফরম্যান্স চেক করে নতুন মডেলকে কতটা জেনারেল করে তোলে তা আবারও পরীক্ষা করে দেখছেন।

একবার আপনি যে হাইপারপ্যারামিটারগুলির মূল্যায়ন করতে চেয়েছেন তার প্রতিটি সংমিশ্রণটি পরীক্ষা করে নিলে, আপনি হাইপারপ্যারামিটারগুলির সেটটি চয়ন করেন যা আপনাকে বৈধতা ডেটাতে আপনার সেরা পারফরম্যান্স দিয়েছিল - আসুন আপনি বৈধতা ডেটাতে আপনার সেরা পারফরম্যান্সের ভান করুন 80% যথার্থতা। এগুলি আপনার চূড়ান্ত হাইপারপ্যারামিটার এবং সেই হাইপারপ্যারামিটারগুলির দ্বারা সংজ্ঞায়িত মডেলটি আপনি এই পরবর্তী পদক্ষেপের জন্য ব্যবহার করবেন।

এখন আপনি এমন মডেল গ্রহণ করেন যা আপনার চূড়ান্ত হাইপারপ্যারামিটার ব্যবহার করে এবং টেস্টডেটা মূল্যায়ন করে। এই পুরো প্রক্রিয়াটি শুরু হওয়ার পরে এই প্রথম টেস্টডাটা টাচ করা হয়েছে! আপনি যদি টেস্টডেটা পারফরম্যান্সটি যা ভেলিয়েটডাটা (যদিও এটি সাধারণত কিছুটা কম হবে) তে আপনার পারফরম্যান্সের সাথে তুলনীয় হয়, তবে আপনি আত্মবিশ্বাসী বোধ করতে পারেন যে আপনার মডেল প্রত্যাশা অনুযায়ী কাজ করে এবং ভাল জেনারেলাইজ করে! যদি এটি হয়, এটি আপনার চূড়ান্ত মডেল!

কেন এই সব? আপনি অতিরিক্ত সাফল্য এড়ানোর চেষ্টা করছেন। আপনার মডেলটি প্রশিক্ষণ ও টিউন করার সময় আপনি যে ডেটা ব্যবহার করেন তার চেয়ে বেশি ঝুঁকির ঝুঁকি থাকে। আপনি যদি মাত্র একটি ডেটা সেট ব্যবহার করে প্রশিক্ষণ, টিউন (বৈধকরণ) এবং পরীক্ষা করে থাকেন তবে আপনি সেই ডেটাটিকে বেশি উপভোগ করতে পারবেন এবং এটি ভাল হবে না। প্রশিক্ষণ এবং পরীক্ষার ডেটা পৃথক করে (এবং পরীক্ষার ডেটা ব্যবহার করে আপনি সুরটি ধরে নিয়েছেন) ভাঙ্গার মাধ্যমে, আপনার নিজের অভ্যন্তরীণভাবে পরীক্ষা করার সুযোগ রয়েছে, তবে এখনও সুযোগ রয়েছে যে আপনি এখন পরীক্ষার ডেটাকে সরিয়ে দিচ্ছেন। সে কারণেই আমরা একটি তৃতীয় ডেটা সেট ছড়িয়ে দিয়েছি, যাচাই করি, সুতরাং আমাদের নিজেদেরকে অভ্যন্তরীণভাবে সৎ রাখার একটি অতিরিক্ত স্তর রয়েছে। বৈধতা ডেটা দিয়ে টিউন করা আমাদের ওভারফিট থেকে ট্রেনিংডাটাতে রাখে। টেস্টডাটা সহ চূড়ান্ত পরীক্ষা-নিরীক্ষা আমাদের ওভারফিট থেকে বৈধতা ডেটাতে রাখে।


এই উত্তর গৃহীত উত্তর থেকে আলাদা কীভাবে ?
জান কুকাক্কা

মূল প্রশ্নটি স্পষ্টভাবে এমন একটি ওয়ার্কফ্লো সম্পর্কে জিজ্ঞাসা করছে যা ক্রস বৈধকরণকে অন্তর্ভুক্ত করে না। এটি কীভাবে কাজ করে এবং কেন এটি নির্ভরযোগ্য তা জিজ্ঞাসা করার জন্য আমি তাঁর প্রশ্নটি পড়েছি। গৃহীত উত্তরটি এমন একটি ওয়ার্কফ্লো নিয়ে আলোচনা করে যার মধ্যে ক্রস বৈধতা রয়েছে। আমি ব্যাখ্যা করতে চেয়েছিলাম যে কোনও ব্যক্তি যদি শিক্ষানবিস হয় এবং সম্ভবত সেই সময়ে না হয় তবে লোকেরা অগত্যা ক্রস বৈধতা ব্যবহার না করে এটি কী করে। দুঃখিত যদি এটি পোস্ট করা ভুল হয় - আমি একজন নতুন ব্যবহারকারী এবং কোনও নিয়ম ভঙ্গ করার অর্থ নেই।
জন ডি

0

আসুন এটি নীচের দিকে তাকান

  1. সাধারণ চর্চা

    ক) প্রশিক্ষণের ডেটা - মডেল পরামিতিগুলি বেছে নেওয়ার জন্য ব্যবহৃত।

     i) E.g., finding intercept and slope parameters for an ordinary linear 
        regression model. 
    
     ii) The noise in the training data-set is used in some extent 
         in over-fitting model parameters. 
    

    খ) বৈধতা ডেটা - হাইপার-পরামিতিগুলি বেছে নেওয়ার জন্য ব্যবহৃত হয়।

     i)  E.g., we may want to test three different models at step 1.a, say 
         linear model with one, two or three variables.   
    
     ii) The validation data-set is independent from training data, and thus, they provide 
         'unbiased' evaluation to the models, which help to decide which 
         hyper-parameter to use. 
    
     iii) We note that, a model trained in 1.a, say y = b_0+b_1*x_1, does 
         not learn anything from this data-set. So, the noise in this data- 
         set is not used to over-fit the parameters (b_0, b_1), but, over- 
         fit exists in choosing which linear model to use (in terms of 
         number of variables). 
    

    গ) পরীক্ষার ডেটা - উপরোক্ত দুটি পদক্ষেপ থেকে আউটপুটটির আস্থা অর্জন করতে ব্যবহৃত হয়

    i) Used once a model is completely trained
    
  2. অংশ 1 এ দেখার আরও একটি উপায়

    ক) আমাদের মডেল প্রার্থী পুলটি 5-ডাইমেনসন সেট, অর্থাৎ,

    i) Dimension 1: number of variables to keep in the regression model, 
       e.g., [1, 2, 3].
    
    ii) Dimension 2-5: (b_0, b_1, b_2, b_3). 
    

    খ) পদক্ষেপ 1 এ মডেল প্রার্থীদের 5-মাত্রা থেকে 1-মাত্রায় হ্রাস করুন।

    গ) পদক্ষেপ 1 বি মডেল প্রার্থীদের 1-মাত্রা থেকে 0-মাত্রায় হ্রাস করুন, যা একক মডেল।

    d) তবে ওপি ভাবতে পারে যে উপরের 'চূড়ান্ত' আউটপুট পরীক্ষার ডেটা সেটটিতে যথেষ্ট ভাল পারফর্ম করছে না এবং এইভাবে পুরো প্রক্রিয়াটি আবারও করুন, সাধারণ লিনিয়ার রিগ্রেশনের পরিবর্তে রিজ রিগ্রেশন ব্যবহার করে বলুন। তারপরে পরীক্ষার ডেটা সেটটি একাধিকবার ব্যবহৃত হয় এবং সুতরাং এই ডেটার শব্দটি লিনিয়ার রিগ্রেশন বা রিজ রিগ্রেশন ব্যবহার করবেন কিনা তা সিদ্ধান্ত নেওয়ার ক্ষেত্রে কিছুটা উত্সাহ অর্জন করতে পারে।

    ঙ) প্যারামিটার, হাইপারপ্যারামিটারস, মডেল ধরণের এবং প্রাক প্রসেসিং পদ্ধতিগুলির সাথে একটি উচ্চ মাত্রিক মডেল পুলের সাথে মোকাবিলা করার জন্য, আমাদের কাছে উপস্থিত ডেটার যে কোনও বিভাজন মূলত সিদ্ধান্ত গ্রহণের প্রক্রিয়াটিকে সংজ্ঞায়িত করছে

    i)  Sequentially reducing the model pool to zero-dimension.
    
    ii) Allocating data noise overfitting to different steps of dimension 
        reductions (overfitting the noise in the data is not avoidable but 
        could be allocated smartly). 
    
  3. ওপির প্রশ্নের উপসংহার এবং উত্তর

    ক) দ্বি-বিভক্ত (প্রশিক্ষণ ও পরীক্ষা), ত্রি-বিভক্ত (প্রশিক্ষণ, যাচাইকরণ ও পরীক্ষার) বা বিভক্তির বেশি সংখ্যক মূলত মাত্রিকতা হ্রাস করা এবং ডেটা বরাদ্দ করা (বিশেষত গোলমাল এবং অতিরিক্ত ফিটনের ঝুঁকি) about

    খ) কিছু পর্যায়ে, আপনি একটি 'চূড়ান্ত' মডেল প্রার্থী পুলে আসতে পারেন এবং তারপরে, আপনি অনুমিতিকভাবে মাত্রা হ্রাস করার প্রক্রিয়াটি কীভাবে ডিজাইন করবেন তা ভাবতে পারেন

    i) At each step of reducing the dimensions, the output is satisfactory, 
      e.g., not using just 10 data points with large noise to estimate a 
      six-parameter liner model. 
    
    ii) There are enough data for you to reduce the dimension to zero 
       finally. 
    

    গ) কী অর্জন করতে না পারলে খ

    i) Use model and data insight to reduce the overall dimensionality of 
      your model pool. E.g., liner regression is sensitive to outliers thus 
      not good for data with many large outliers. 
    
    ii) Choose robust non-parametric models or models with less number of 
       parameter if possible. 
    
    iii) Smartly allocating the data available at each step of reducing the 
        dimensionality. There is some goodness of fit tests to help us decide 
        whether the data we use to train the model is enough or not. 
    
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.