পরীক্ষার ডেটা প্রশিক্ষণের ডেটা ফাঁস না হয় তা নিশ্চিত করতে আমি কীভাবে সাহায্য করতে পারি?

60

মনে করুন আমাদের কাছে কোনও ভবিষ্যদ্বাণীপূর্ণ মডেল তৈরি করছে তবে কেউ সঠিকভাবে পরিসংখ্যান বা মেশিন লার্নিং নীতিগুলিতে পারদর্শী নয়। হতে পারে আমরা সেই ব্যক্তিকে তারা শেখার সাথে সাথে সহায়তা করছি বা হতে পারে সেই ব্যক্তি কোনও ধরণের সফ্টওয়্যার প্যাকেজ ব্যবহার করছেন যার ব্যবহার করার জন্য ন্যূনতম জ্ঞানের প্রয়োজন।

এখন এই ব্যক্তিটি খুব ভালভাবেই চিনতে পারে যে আসল পরীক্ষাটি নমুনা ছাড়াই ডেটা -র সঠিকতার (বা অন্য যে কোনও মেট্রিক) থেকে আসে । যাইহোক, আমার উদ্বেগটি হ'ল উদ্বিগ্ন হওয়ার জন্য সেখানে প্রচুর সূক্ষ্মতা রয়েছে। সাধারণ ক্ষেত্রে, তারা তাদের মডেল তৈরি করে এবং প্রশিক্ষণের ডেটাতে এটি মূল্যায়ন করে এবং আউট-আউট টেস্টিং ডেটাতে এটি মূল্যায়ন করে। দুর্ভাগ্যক্রমে কিছু সময়ে সেই সময়ে ফিরে আসা এবং কিছু মডেলিংয়ের প্যারামিটারটি সরিয়ে ফেলা এবং একই "পরীক্ষামূলক" ডেটাতে ফলাফলগুলি পরীক্ষা করা খুব সহজ হয়ে যায়। এই মুহুর্তে ডেটা যদিও আর স্যাম্পল ডেটা-র সত্য নয়, এবং অতিরিক্ত ফিটিং কোনও সমস্যা হয়ে উঠতে পারে।

এই সমস্যাটি সমাধানের একটি সম্ভাব্য উপায় হ'ল অনেকগুলি নমুনা ছাড়াই ডেটাসেট তৈরি করার পরামর্শ দেওয়া হবে যাতে প্রতিটি পরীক্ষার ডেটাসেট ব্যবহারের পরে বাতিল করা যায় এবং একেবারে পুনরায় ব্যবহার না করা। যদিও এর জন্য অনেকগুলি ডেটা ম্যানেজমেন্ট দরকার, বিশেষত বিশ্লেষণের আগে বিভক্তকরণ অবশ্যই করা উচিত (সুতরাং আপনার আগে কতগুলি বিভাজন জানতে হবে)।

সম্ভবত আরও প্রচলিত পদ্ধতি হ'ল কে-ফোল্ড ক্রস বৈধতা। তবে কিছুটা অর্থে যে "প্রশিক্ষণ" এবং "টেস্টিং" ডেটাসেটের মধ্যে পার্থক্য হারিয়ে ফেলেছে যা আমি মনে করি দরকারী হতে পারে, বিশেষত এখনও যারা শিখছেন তাদের পক্ষে। এছাড়াও আমি নিশ্চিত নই যে এটি সমস্ত ধরণের ভবিষ্যদ্বাণীপূর্ণ মডেলগুলির জন্য অর্থবোধ করে।

কোনও অভিজ্ঞতার ব্যবহারকারীর কাছে কিছুটা পরিষ্কার থাকার পরেও আমি কীভাবে অত্যধিক মানসিক চাপ এবং পরীক্ষার ফাঁস হওয়া সমস্যাটি কাটিয়ে উঠতে সহায়তা করতে অগ্রাহ্য করেছি?

— মাইকেল ম্যাকগোয়ান
সূত্র

মাইকেল, আমি এমএল সাইট থেকে একটি সদৃশ থ্রেড বন্ধ করে দিয়েছি এবং উত্তরগুলি এখানে একত্রিত করেছি। আপনি যে পরিবর্তন করতে চেয়েছিলেন তা প্রতিবিম্বিত করতে দয়া করে এই প্রশ্নটি সম্পাদন করতে দ্বিধা বোধ করুন - অজান্তেই আপনার অর্থ পরিবর্তনের ভয়ে আমি তা গ্রহণ করতে চাই না।

— whuber

এই প্রশ্নটি পুরানো এবং এর একটি স্বীকৃত উত্তর রয়েছে, তবে আমি আমার মাথা থেকে বেরোতে পারি না যে প্রাথমিক দিকটি বিরোধী বলে মনে হচ্ছে। যদি এটি শেখার অনুশীলনগুলি সম্পর্কে হয় তবে তার কাছে যাওয়ার সর্বোত্তম উপায় হ'ল তাদের ব্যর্থ হতে দেওয়া এবং একটি ওভারফিট মডেল তৈরি করা যা পরবর্তীকালে ভাল পূর্বাভাস দেয় না। (সম্ভবত কোনও গোপন হোল্ডআউট ডেটাসেট রাখুন যাতে আপনি তাদের ব্যবহারের ত্রুটিটি দেখান)) তবে এটির মতোও মনে হচ্ছে যে আপনি এমন কোনও মডেল তৈরি করছেন যাতে অযোগ্য ব্যক্তিরা পেয়েছেন যা কেউ গুরুত্বের সাথে নেবে এবং তার উপর পদক্ষেপ নেবে এবং আপনি ক্ষয়টি হ্রাস করার চেষ্টা করছেন অতি নিকটে. আপনি যেমন বলেছেন তেমন প্রচুর সূক্ষ্মতা রয়েছে।

— ওয়েইন

50

আপনি ঠিক বলেছেন, এটি মেশিন লার্নিং / স্ট্যাটিস্টিকাল মডেলিংয়ে একটি উল্লেখযোগ্য সমস্যা। মূলত এই সমস্যাটি সমাধান করার একমাত্র উপায় হ'ল একটি স্বতন্ত্র পরীক্ষার সেটটি ধরে রাখা এবং অধ্যয়ন শেষ হওয়া অবধি এটিকে রাখা এবং চূড়ান্ত বৈধতার জন্য এটি ব্যবহার করা।

তবে অনিবার্যভাবে লোকেরা পরীক্ষার ফলাফলের ফলাফলগুলি দেখবে এবং তারপরে তাদের মডেলটি সেই অনুযায়ী পরিবর্তন করবে; তবে এটি অগত্যা জেনারালাইজেশন পারফরম্যান্সে উন্নতি সাধন করবে না কারণ বিভিন্ন মডেলের পারফরম্যান্সের পার্থক্য মূলত আমাদের কাছে থাকা টেস্ট ডেটার নির্দিষ্ট নমুনার কারণে হতে পারে। এই ক্ষেত্রে, একটি পছন্দ করার সময় আমরা কার্যকরভাবে পরীক্ষার ত্রুটিটিকে বেশি চাপিয়ে দিই।

এটি সীমাবদ্ধ করার উপায় হ'ল পরীক্ষার ত্রুটিটির যথাসম্ভব ক্ষুদ্রতর করা (যেমন পরীক্ষার ত্রুটির পরিবর্তনশীলতা আমরা দেখতে পাই যে আমরা একই অন্তর্নিহিত বিতরণ থেকে টানা টেস্ট সেট হিসাবে ডেটার বিভিন্ন নমুনা ব্যবহার করেছি কিনা)। এটি সম্ভব হলে বৃহত পরীক্ষার সেট ব্যবহার করে খুব সহজেই অর্জন করা যায়, বা উদাহরণস্বরূপ বুটস্ট্র্যাপিং বা ক্রস-বৈধকরণ যদি খুব বেশি ডেটা না পাওয়া যায়।

আমি খুঁজে পেয়েছি যে মডেল নির্বাচনের এই ধরণের ওভার-ফিটিং সাধারণভাবে প্রশংসিত হওয়ার চেয়ে অনেক বেশি ঝামেলাজনক, বিশেষত পারফরম্যান্সের অনুমানের ক্ষেত্রে, দেখুন

জিসি কাওলি এবং এনএলসি টালবট, মডেল নির্বাচনের ক্ষেত্রে ওভার-ফিটিং এবং পারফরম্যান্স মূল্যায়নে পরবর্তী নির্বাচনের পক্ষপাতিত্ব, মেশিন লার্নিং রিসার্চ জার্নাল, ২০১০। গবেষণা, খন্ড 11, পৃষ্ঠা 2079-2107, জুলাই 2010 (www)

এই ধরণের সমস্যাটি বিশেষত বেঞ্চমার্ক ডেটাসেটের ব্যবহারকে প্রভাবিত করে, যা অনেকগুলি গবেষণায় ব্যবহৃত হয়েছে এবং প্রতিটি নতুন অধ্যয়ন সুস্পষ্টভাবে পূর্ববর্তী গবেষণার ফলাফলগুলির দ্বারা প্রভাবিত হয়, সুতরাং পর্যবেক্ষিত পারফরম্যান্স সম্ভবত সত্যের একটি অতিরিক্ত-আশাবাদী অনুমান হতে পারে পদ্ধতির কর্মক্ষমতা। আমি যেভাবে এটি ঘুরে দেখার চেষ্টা করি তা হ'ল অনেকগুলি ডেটাসেট (যাতে পদ্ধতিটি একটি নির্দিষ্ট ডেটাসেটের সাথে টিউন করা যায় না) এবং পারফরম্যান্স অনুমানের জন্য একাধিক এলোমেলো পরীক্ষা / প্রশিক্ষণ বিভাজন (অনুমানের বৈচিত্র্য হ্রাস করতে) ব্যবহার করে। তবে ফলাফলগুলি এখনও এই সতর্কতার প্রয়োজন যে এই মানদণ্ডগুলি অত্যধিক ফিট।

এটি ঘটে যাওয়ার আরেকটি উদাহরণ হ'ল বৈধতা সেটের ভিত্তিতে লিডার-বোর্ডের সাথে মেশিন লার্নিং প্রতিযোগিতা। অনিবার্যভাবে কিছু প্রতিযোগী লিডার বোর্ডকে আরও এগিয়ে নিতে তাদের মডেলটির সাথে ঝাঁকুনি রাখেন তবে চূড়ান্ত র‌্যাঙ্কিংয়ের নীচে চলে যান। এর কারণ হ'ল তাদের একাধিক পছন্দগুলি বৈধতা সেটকে ওভার-ফিট করেছে (কার্যকরভাবে ছোট বৈধতা সেটটিতে এলোমেলো পরিবর্তনগুলি শিখছে)।

আপনি যদি কোনও পরিসংখ্যানগতভাবে খাঁটি পরীক্ষার সেট রাখতে না পারেন তবে আমি ভয় পাচ্ছি যে দুটি সেরা বিকল্প হ'ল (i) নতুন পরিসংখ্যানগতভাবে খাঁটি পরীক্ষার সেট তৈরি করার জন্য কিছু নতুন তথ্য সংগ্রহ করা বা (ii) নতুন মডেলটি যে ভিত্তিতে তৈরি হয়েছিল তা তৈরি করা পরীক্ষা সেট ত্রুটি পর্যালোচনা করার পরে করা কোনও পছন্দ, সুতরাং পারফরম্যান্সের অনুমানের একটি আশাবাদী পক্ষপাতিত্ব থাকতে পারে।

— ডিকরান মার্সুপিয়াল
সূত্র

1

+1 অভিজ্ঞতার দ্বারা এই উত্তরটি কতটা ভালভাবে অবহিত করা হয়েছে এবং এটি কতটা কার্যকরভাবে প্রশ্নটিকে সম্বোধন করে আমি মুগ্ধ হয়েছি।

— হোবার

3

চিয়ার্স হুবহু, বেশ কয়েক বছর ধরে এটি আমার মূল গবেষণার বিষয়, এবং আমি দেখতে পেয়েছি যে মেশিন লার্নিংয়ে বহুল ব্যবহৃত মডেল নির্বাচনের পদ্ধতিগুলি খুব ভঙ্গুর এবং আরও নিখুঁতভাবে তাদের মূল্যায়ন করা হয়, তারা যত কম কাজ করবে বলে মনে হয়। এটি আমাকে অবাক করে দেবে না যে মেশিন লার্নিংয়ে ব্যবহৃত অনেকগুলি পদ্ধতি পুরানো আরও সহজ পদ্ধতির চেয়ে ভাল কোনও কাজ করে না, কেবল পারফরম্যান্স মূল্যায়নের সময় পক্ষপাতদুষ্ট মডেল নির্বাচন পদ্ধতি ব্যবহারের কারণে। প্রশ্নটি আসলেই একটি ভাল, টিঙ্কারিং করে নিজেই মডেল নির্বাচন পদ্ধতিতে অংশ না নেওয়া গুরুত্বপূর্ণ!

— ডিকরান মার্সুপিয়াল

অনেক আগ্রহব্যাঞ্জক. (আমি নিজেই প্রশ্নটি

— উত্সাহিত

2

(+1) দুর্দান্ত প্রতিক্রিয়া। পরীক্ষার নির্ভুলতার অতিরিক্ত-আশাবাদী পরিমাপের ফলনকারী একই ডাটাবেসে একাধিক শ্রেণিবদ্ধের ব্যবহারটি সর্বোত্তম শ্রেণিবদ্ধ নির্বাচন এবং ত্রুটির হার অনুমানের ক্ষেত্রে নেতিবাচক পক্ষপাত নিয়ে আলোচনা করা হয়েছে : উচ্চ-মাত্রিক পূর্বাভাস সম্পর্কিত একটি অভিজ্ঞতামূলক গবেষণা , বিএমসি এমআরএম ২০০৯, ৯::৮ ( এখানে কিছু পিডিএফ স্লাইড সহ), শ্রেণিবিন্যাসের নিয়মের তুলনায় একাধিক-নিয়মের পক্ষপাতিত্বের বিষয়ে অন্যান্য আলোচনার সাথে (ইউসফি এট আল।, বায়োইনফরম্যাটিকস 2011, 27 (12): 1675)।

— chl

কাগজগুলির লিঙ্কগুলির জন্য ধন্যবাদ, তারা আকর্ষণীয় দেখায়।

— ডিকরান মার্শুপিয়াল

15

এটির সুনিশ্চিত করার একটি উপায় হ'ল "টিঙ্কারিং" এমনকি মডেলকে ফিট করার জন্য আপনি যে সমস্ত কিছু করছেন তা কোড আপ করে রেখেছেন তা নিশ্চিত করা । এইভাবে, আপনি যখন বারবার প্রক্রিয়াটি চালাবেন, ক্রস-বৈধকরণের মাধ্যমে বলুন, আপনি রানগুলির মধ্যে সামঞ্জস্য রেখেছেন। এটি নিশ্চিত করে যে পরিবর্তনের সম্ভাব্য সমস্ত উত্স ক্রস-বৈধকরণ প্রক্রিয়া দ্বারা ক্যাপচার করা হয়েছে।

অন্য অতি গুরুত্বপূর্ণ বিষয় হ'ল উভয় ডেটা সেটে আপনার প্রতিনিধি নমুনা রয়েছে তা নিশ্চিত করা। যদি আপনার ডেটা সেটটি পূর্বাভাস দেওয়ার জন্য যে ধরণের ডেটা ব্যবহার করার প্রত্যাশা করে থাকে সেগুলির প্রতিনিধিত্ব না করে তবে আপনি যা করতে পারেন তা খুব বেশি নেই। সমস্ত মডেলিং এমন একটি অনুমানের উপর নির্ভর করে যে "ইনডাকশন" কাজ করে - আমরা যে জিনিসগুলি পর্যবেক্ষণ করি নি সেগুলি আমরা পর্যবেক্ষণ করা জিনিসগুলির মতো আচরণ করে।

সাধারণ নিয়ম হিসাবে, জটিল মডেল ফিটিং পদ্ধতিগুলি থেকে দূরে থাকুন যতক্ষণ না (i) আপনি কী করছেন তা আপনি জানেন না এবং (ii) আপনি সহজ পদ্ধতিগুলি ব্যবহার করে দেখেছেন এবং দেখেছেন যে সেগুলি কার্যকর হয় না এবং জটিল পদ্ধতিটি কীভাবে সংশোধন করে সহজ পদ্ধতিতে সমস্যা। "সিম্পল" এবং "কমপ্লেক্স" অর্থ ফিটিং করা ব্যক্তিকে "সরল" বা "জটিল" অর্থে বোঝানো হয়। এটি এত গুরুত্বপূর্ণ হওয়ার কারণটি হ'ল এটি আপনাকে ফলাফলগুলিতে একটি "স্নিফ টেস্ট" বলতে চাইলে তা প্রয়োগ করতে দেয়। ফলাফল কি ঠিক দেখাচ্ছে? আপনি যে পদ্ধতিটি বুঝতে পারেন না তার ফলাফলগুলি আপনি "গন্ধ" নিতে পারবেন না।

উল্লেখ্য: এর পরে, আমার উত্তর এর বরং দীর্ঘ অংশ আমার অভিজ্ঞতা, যা হয় উপর ভিত্তি করে তৈরি এলাকা, সঙ্গে সম্ভবত বড়। আমি প্রায় নিশ্চিত যে নীচে যা কিছু অনুসরণ করা হবে তা বা ক্ষেত্রে প্রযোজ্য হবে না $N>>p$ $p$ $N\approx p$ $N<p$

যখন আপনার একটি বড় নমুনা থাকে, তখন প্রদত্ত পর্যবেক্ষণ ব্যবহার এবং না করার মধ্যে পার্থক্য খুব কম, তবে আপনার মডেলিং খুব "স্থানীয়" না হয়। এটি কারণ প্রদত্ত ডেটা পয়েন্টের প্রভাবটি সাধারণত এর ক্রম । সুতরাং বড় ডেটা সেটগুলিতে, আপনি পরীক্ষার ডেটা সেটটি "হোল্ডিং" থেকে পেয়ে যাবেন সেগুলি মূলত প্রশিক্ষণ ডেটা সেটে এটির ব্যবহার থেকে প্রাপ্ত রেসিডুয়ালগুলির সমান। আপনি এটিকে সাধারণ সর্বনিম্ন স্কোয়ার ব্যবহার করে দেখাতে পারেন। অবশিষ্ট আপনি ব্যতীত থেকে পেতেতম পর্যবেক্ষণ (অর্থাত যদি আমরা পরীক্ষা সেটে পর্যবেক্ষণ করা টেস্ট সেট ত্রুটি হবে) হয় , কোথায় $\frac{1}{N}$ $i$ $e_i^{test}=(1-h_{ii})^{-1}e_i^\mathrm{train}$ $e_i^\mathrm{train}$ প্রশিক্ষণ অবশিষ্ট, এবং বড় ধরনের লিভারেজ বা তম ডাটা পয়েন্ট। এখন আমাদের কাছে , যেখানে হল রিগ্রেশন-এ ভেরিয়েবলের সংখ্যা। এখন যদি , তাহলে এটি অত্যন্ত কঠিন কোন যথেষ্ট বড় পরীক্ষা সেট এবং ট্রেনিং সেট ত্রুটি মধ্যে একটি উপলব্ধিজনক পরিবর্তন আনতে হবে। আমরা একটি সরলীকৃত উদাহরণ নিতে পারি, ধরুন (ইন্টারসেপ্ট এবং ভেরিয়েবল), $h_{ii}$ $i$ $\sum_ih_{ii}=p$ $p$ $N>>p$ $h_{ii}$ $p=2$ $1$ $N\times p$ ডিজাইনের ম্যাট্রিক্সটি (প্রশিক্ষণ এবং পরীক্ষার সেট উভয়) এবং লিভারেজটি $X$

h_{i i} = x_{i}^{T} (X^{T} X)^{- 1} x_{i} = \frac{1}{N s_{x}^{2}} (\begin{matrix} 1 & x_{i} \end{matrix}) (\begin{matrix} \bar{x^{2}} & - \bar{x} \\ - \bar{x} & 1 \end{matrix}) (\begin{matrix} 1 \\ x_{i} \end{matrix}) = \frac{1 + {\tilde{x}}_{i}^{2}}{N}

$h_{ii}=x_i^T(X^TX)^{-1}x_i=\frac{1}{Ns_x^2} \begin{pmatrix}1 & x_i \end{pmatrix} \begin{pmatrix}\overline{x^2} & -\overline{x}\\ -\overline{x} & 1\end{pmatrix} \begin{pmatrix}1 \\ x_i\end{pmatrix} =\frac{1+\tilde{x}_i^2}{N}$

$\overline{x}=N^{-1}\sum_ix_i$ $\overline{x^2}=N^{-1}\sum_ix_i^2$ $s_x^2=\overline{x^2}-\overline{x}^2$ $\tilde{x}_i=\frac{x_i-\overline{x}}{s_x}$ $x_i$ $\frac{1}{N}$ $100$ $\tilde{x}_i=5$ $h_{ii}=\frac{26}{100}$ $1-\frac{26}{100}=\frac{74}{100}$ $10000$ $1-\frac{26}{10000}$ $1\text{%}$ $10000$ $\tilde{x}=50$ $25\text{%}$

$N>>p$ $2$ $h_{ii}=x_i^TEE^T(X^TX)^{-1}EE^Tx_i$ $E$ $X^TX$ $\Lambda$ $h_{ii}=z_i^T\Lambda^{-1}z_i=\sum_{j=1}^p\frac{z_{ji}^2}{\Lambda_{jj}}$ $z_i=E^Tx_i$ $x_i$

$k$ ${\bf{e}}_{\{k\}}^\mathrm{test}=(I_k-H_{\{k\}})^{-1}{\bf{e}}_{\{k\}}^\mathrm{train}$ $H_{\{k\}}=X_{\{k\}}(X^TX)^{-1}X_{\{k\}}^T$ $X_{\{k\}}$ $N>>p$

মূলত, বিআইসি বা এআইসির মতো প্রশিক্ষণ এবং পরীক্ষার ত্রুটির মধ্যে পার্থক্যের জন্য অ্যাকাউন্টে জরিমানার শব্দটি ব্যবহার করার ক্ষেত্রে এগুলি হ্রাস পায়। এটি কার্যকরভাবে পরীক্ষার সেট ব্যবহারের মতো একই ফলাফল অর্জন করে, তবে আপনি সম্ভাব্য দরকারী তথ্য ফেলে দিতে বাধ্য হন না। বিআইসির মাধ্যমে, আপনি মডেলটির পক্ষে প্রমাণগুলি সংশোধন করছেন যা গাণিতিকভাবে দেখাচ্ছে:

p (D | M_{i} I) = p (y_{1} y_{2} \dots y_{N} | M_{i} I)

$p(D|M_iI)=p(y_1y_2\dots y_N|M_iI)$

নোট করুন যে এই পদ্ধতিতে আমরা কোনও অভ্যন্তরীণ প্যারামিটার অনুমান করতে পারি না - প্রতিটি মডেল অবশ্যই সম্পূর্ণ নির্দিষ্ট করা উচিত বা এর অভ্যন্তরীণ পরামিতিগুলি একত্রিত করা উচিত। তবে, বারবার পণ্যের নিয়ম ব্যবহার করে, এবং তারপরে ফলাফলটির লগ গ্রহণ করে আমরা এই চেহারাটিকে ক্রস বৈধকরণের (কোনও নির্দিষ্ট ক্ষতি ফাংশন ব্যবহার করে) তৈরি করতে পারি: $M_i$

p (D | M_{i} I) = p (y_{1} | M_{i} I) p (y_{2} \dots y_{N} | y_{1} M_{i} I)

$p(D|M_iI)=p(y_1|M_iI)p(y_2\dots y_N|y_1M_iI)$

= p (y_{1} | M_{i} I) p (y_{2} | y_{1} M_{i} I) p (y_{3} \dots y_{N} | y_{1} y_{2} M_{i} I)

$=p(y_1|M_iI)p(y_2|y_1M_iI)p(y_3\dots y_N|y_1y_2M_iI)$

= \dots = \prod_{i = 1}^{N} p (y_{i} | y_{1} \dots y_{i - 1} M_{i} I)

$=\dots=\prod_{i=1}^{N}p(y_i|y_1\dots y_{i-1}M_iI)$

⟹ \log [p (D | M_{i} I)] = \sum_{i = 1}^{N} \log [p (y_{i} | y_{1} \dots y_{i - 1} M_{i} I)]

$\implies\log\left[p(D|M_iI)\right]=\sum_{i=1}^{N}\log\left[p(y_i|y_1\dots y_{i-1}M_iI)\right]$

এটি ক্রস বৈধকরণের একটি ফর্মের পরামর্শ দেয়, তবে যেখানে প্রশিক্ষণ সেটটি নিয়মিত আপডেট করা হচ্ছে সেখানে পরীক্ষার সেট থেকে এক সময় এক পর্যবেক্ষণ - কালম্যান ফিল্টারের মতো। আমরা বর্তমান প্রশিক্ষণ সেট ব্যবহার করে পরীক্ষা সেট থেকে পরবর্তী পর্যবেক্ষণের পূর্বাভাস দিচ্ছি, শর্তাধীন লগ-সম্ভাবনা ব্যবহার করে পর্যবেক্ষণকৃত মান থেকে বিচ্যুতি পরিমাপ করব এবং তারপরে নতুন পর্যবেক্ষণটি অন্তর্ভুক্ত করার জন্য প্রশিক্ষণ সেটটি আপডেট করব। তবে মনে রাখবেন যে এই পদ্ধতিটি উপলব্ধ সমস্ত ডেটা পুরোপুরি হজম করে, একই সাথে প্রতিটি তদারকিকে "আউট-অফ-স্যাম্পল" কেস হিসাবে পরীক্ষা করা হয় কিনা তা নিশ্চিত করে। এটিও আক্রমণকারী, আপনি "পর্যবেক্ষণ 1" বা "পর্যবেক্ষণ 10" বলুন তাতে কিছু আসে যায় না; ফলাফল একই (গণনাগুলি অন্যের তুলনায় কিছু অনুক্রমের পক্ষে সহজতর হতে পারে)। ক্ষতির ফাংশনটিও "অভিযোজিত" এটি যদি আমরা সংজ্ঞায়িত করি $L_i=\log\left[p(y_i|y_1\dots y_{i-1}M_iI)\right]$ , তবে এর তীক্ষ্ণতা উপর নির্ভর করে , কারণ লোকসান ফাংশনটি প্রতিনিয়ত নতুন ডেটা দিয়ে আপডেট হচ্ছে। $L_i$ $i$

আমি পরামর্শ দেব যে এইভাবে ভবিষ্যদ্বাণীপূর্ণ মডেলগুলি মূল্যায়ন করা বেশ ভাল কাজ করবে।

— probabilityislogic
সূত্র

4

+1 - উত্তোলনের ভাল পরামর্শ এবং আকর্ষণীয় আলোচনা (বড় ডেটাসেটের জন্য)। আমি ছোট ছোট ডেটাসেটগুলি ব্যবহার করি, যেখানে অতিরিক্ত ফিট করার সম্ভাবনা থাকে এবং এ জাতীয় পরিস্থিতিতে প্রান্তিক সম্ভাবনা ("প্রমাণ") বেশি পরিমাণে ফিট করা খুব সহজ এবং আপনি শুরু করার চেয়ে খারাপ মডেলটি দিয়ে শেষ করতে পারেন। আমার সন্দেহ হয় এআইসি এবং বিআইসি একইভাবে "ভঙ্গুর"। মূলত অপ্টিমাইজেশন হ'ল পরিসংখ্যানগুলিতে সমস্ত অশুভের মূল, যেমন কোনও সীমাবদ্ধ নমুনার উপর ভিত্তি করে আপনি যে কোনও পছন্দ বা প্যারামিটার পছন্দ করেন সেগুলি ওভার-ফিটিংয়ের সম্ভাবনার পরিচয় দেয়। প্রান্তিককরণ অনেক বেশি নিরাপদ তবে সাধারণত গণনা ব্যয়বহুল।

— ডিকরান মার্সুপিয়াল

2

+1 - বিশেষত তৃতীয় অনুচ্ছেদে (প্রথমে সহজ পদ্ধতি ব্যবহার করুন)। ভাল ওল 'পেরেটো-বিধি সম্পর্কে মনে করিয়ে দেয়। যদি মেশিন

— শিখাররা

8

আমি মনে করি এটির গ্যারান্টি দেওয়ার একমাত্র উপায় হ'ল অন্য কারও কাছে পরীক্ষার ডেটা রয়েছে । ক্লায়েন্ট-পরামর্শদাতার সম্পর্কের ক্ষেত্রে এটি মোটামুটি সহজেই পরিচালনা করা যায়: ক্লায়েন্ট পরামর্শদাতাকে প্রশিক্ষণ দেয় যেগুলির উপর মডেলগুলি তৈরি করতে হবে এবং এই প্রশিক্ষণ সংস্থার মধ্যে পরামর্শক অতিরিক্ত তথ্য না দেওয়ার জন্য প্রয়োজনীয় যে কোনও উপায়ে তথ্য বিভক্ত করতে পারেন can ঘটতে; পরবর্তীকালে মডেলগুলি ক্লায়েন্টকে তাদের পরীক্ষার ডেটা ব্যবহার করতে ফেরত দেওয়া হয়।

একজন পৃথক গবেষকের পক্ষে এটি যুক্তি দাঁড়ায় যে সর্বোত্তম অনুশীলনটি তাই এই সেটআপটিকে নকল করে। এর অর্থ হ'ল সমস্ত মডেল নির্বাচন সম্পন্ন হওয়ার পরে পরীক্ষা করার জন্য কিছু ডেটা লুকিয়ে রাখা। দুর্ভাগ্যক্রমে, আপনি যেমনটি বলেছেন, এটি অনেক লোক অনুশীলন করে না এবং এমন লোকদের ক্ষেত্রেও ঘটে যাদের আরও ভাল জানা উচিত!

তবে শেষ পর্যন্ত এটি নির্ভর করে মডেলের জন্য কী ব্যবহৃত হচ্ছে on আপনি যদি কেবলমাত্র সেই একক ডাটাসেটের পূর্বাভাসে আগ্রহী হন, তবে সম্ভবত আপনি নিজের পছন্দসই সমস্ত উপকার করতে পারেন? তবে আপনি যদি নিজের মডেলটিকে এমন একটি হিসাবে উন্নীত করতে চেষ্টা করছেন যা ভালভাবে জোর করে, বা কিছু বাস্তব বিশ্বের অ্যাপ্লিকেশনটিতে মডেলটি ব্যবহার করে, তবে অবশ্যই এটি তাত্পর্যপূর্ণ।

সেখানে একটি পার্শ্ব ইস্যু যা আমি উল্লেখ করা উচিত, যা এমনকি যদি আপনি সেই সমস্ত পদ্ধতি সঠিকভাবে অনুসরণ, আপনি কি এখনও পর্যন্ত মডেলের যে overfitted হয়, ডাটা কারণে সত্যিই হচ্ছে না দিয়ে শেষ করতে পারেন IID । উদাহরণস্বরূপ, যদি ডেটাতে অস্থায়ী পারস্পরিক সম্পর্ক থাকে তবে আপনি যদি আপনার প্রশিক্ষণের সমস্ত ডেটা ১-২ বার থেকে নেন এবং time সময়ে পরীক্ষা করেন তবে আপনি দেখতে পেতে পারেন যে পূর্বাভাস ত্রুটিটি প্রত্যাশার চেয়ে বড় larger বিকল্পভাবে সেখানে পরীক্ষামূলক-নির্দিষ্ট আর্টফ্যাক্ট থাকতে পারে, যেমন পরিমাপ ডিভাইস ব্যবহৃত হচ্ছে বা মানব পরীক্ষায় বিষয়গুলির পুল, যা মডেলগুলির সাধারণীকরণ প্রত্যাশার চেয়ে খারাপ হতে পারে।

— TDC
সূত্র

হ্যাঁ, আমি সচেতন যে আশ্চর্যজনকভাবে একটি নমুনা ছাড়াই নমুনা তৈরি করা কঠিন কারণ দুর্ঘটনাক্রমে অস্থায়ী সম্পর্কের সাথে শেষ হওয়া সহজ এবং কী নয়।

— মাইকেল ম্যাকগওয়ান

1

কিছু সংস্থাগুলি এটিকে নীতি হিসাবে প্রয়োগ করে, যেমন প্রয়োগ করা হয় যেমন ডাটাবেস viewঅনুমতিগুলি সেট করে সেই অনুযায়ী যেখানে কিছু দল টেস্ট-ডেটা-প্রাইভেসি এবং অন্যগুলি পরীক্ষার ডেটা-ব্লাইন্ড থাকে।

— আইজোসেফ

6

এটি একটি খুব ভাল প্রশ্ন এবং একটি খুব সূক্ষ্ম সমস্যা। অবশ্যই খারাপ উদ্দেশ্যযুক্ত ভুল রয়েছে, যা আপনাকে প্রতারিত করার চেষ্টা করে এমন কারও কাছ থেকে আসে। তবে কীভাবে দুর্ঘটনাজনিত ফাঁস এড়ানো এবং সৎ ভুলগুলি এড়ানো যায় তার একটি গভীর প্রশ্ন রয়েছে।

আমাকে কিছু অপারেশনাল ভাল অভ্যাস তালিকাবদ্ধ করুন। এগুলি সবই আমি এক পর্যায়ে যে সৎ ভুল থেকে শুরু করেছি:

আপনার ডেটা তিনটি গ্রুপে আলাদা করুন: ট্রেন, বৈধকরণ এবং পরীক্ষা।
কোনটি যুক্তিসঙ্গত এবং কোনটি নয় সে বিষয়ে তর্ক করতে সক্ষম হওয়ার জন্য সমস্যা সেটআপটি বুঝুন। সমস্যাটি বুঝুন, ডেটা প্রতিনিধিত্ব করে তাতে অনেক সময় সূক্ষ্ম ভুল বোঝাবুঝি ফাঁস হতে পারে। উদাহরণস্বরূপ, যখন কেউ কোনও ভিডিওর একই ফ্রেমে প্রশিক্ষণ এবং পরীক্ষা না করে, একই ভিডিওর দুটি ফ্রেম বিভিন্ন ভাঁজে পড়লে তা আরও সূক্ষ্ম হয়, একই ভিডিওর দুটি ফ্রেম সম্ভবত একই ব্যক্তিকে একই আলো জ্বালিয়ে দেয় এবং আরও ।
পূর্বে লিখিত ক্রস বৈধকরণ পদ্ধতিগুলির সাথে অত্যন্ত সতর্কতা অবলম্বন করুন। আপনার লিখিত না থাকায় আরও বেশি (এলআইবিএসভিএম এখানে একজন বড় অপরাধী)।
আপনার অফিস সাথির প্রতিবেদন করা হলেও, কোনও কিছু জানানোর আগে কমপক্ষে দুবার প্রতিটি পরীক্ষার পুনরাবৃত্তি করুন। কোনও পরীক্ষা চালানোর আগে সংস্করণ নিয়ন্ত্রণ হ'ল আপনার বন্ধু, আপনি কোডটির কোন সংস্করণ চালাচ্ছেন তা লিখুন।
আপনার ডেটা স্বাভাবিক করার সময় খুব সাবধান হন। অনেক সময় এটি ভাবার দিকে পরিচালিত করে যে আপনি একই সাথে পুরো ডেটাसेटটি পরীক্ষা করতে চান যা আপনি আবার বাস্তবসম্মত হন না।

— carlosdc
সূত্র

প্রশিক্ষণ / মূল্যায়ন সেটগুলি সম্পর্কে একটি প্রশ্ন ছিল এবং আমি এ সম্পর্কে একটি তাত্ত্বিক সংক্ষিপ্ত বিবরণ দিলাম মেশিনেরিনিং.স্ট্যাকেক্সচেঞ্জ / এ / ১৯ / / ১১৪ - স্ট্রেটেড হোল্ডআউট, কে-ফোল্ড ক্রস বৈধতা এবং পুনরাবৃত্তি পরীক্ষাগুলির ব্যাখ্যা। আমার অশিক্ষিত মনের কাছে, এই পদ্ধতিগুলি উপরের প্রশ্নটিকে সম্পূর্ণরূপে সম্বোধন করে এবং বাকিটি কেবল "শিক্ষকের সমস্যা"। এছাড়াও, আপনার তালিকার সমস্ত অনুশীলনগুলি "কেবল আড়ম্বরপূর্ণ, অগ্রহণযোগ্য ভুল" ঠিক করেছে এবং আমি সেখানে কোনও সূক্ষ্মতা দেখতে পাচ্ছি না। আমি কী অনুপস্থিত তা বুঝতে খুব আগ্রহী - আপনি কি মন্তব্য করতে পারবেন?

— andreister

আমি সম্মত হই যে তারা সকলেই opালু থেকে আসে। আমি এও উল্লেখ করেছিলাম যে এগুলি মোটেই তাত্ত্বিক নয় (তারা বলছেন যে তারা কার্যকর) said আমি আমার পোস্টটি কিছুটা সম্পাদনা করেছি।

— কার্লোসডিসি

5

ইতিমধ্যে দেওয়া উত্তরের উত্তরে অনেকগুলি গুরুত্বপূর্ণ বিষয় কভার করা হয়েছে।

ইদানীং, আমি পরীক্ষার তথ্যের পরিসংখ্যানগত স্বাধীনতার জন্য এই ব্যক্তিগত চেক তালিকাটি তৈরি করেছি:

ডেটা স্তরক্রমের সর্বোচ্চ স্তরে ডেটা বিভক্ত করুন (যেমন রোগী-ভিত্তিক বিভাজন)
পরিচিত বা সন্দেহযুক্ত কনফন্ডারদের জন্য পৃথক পৃথকভাবেও বিভক্ত করুন, যেমন যন্ত্রগুলিতে দিন-দিন পরিবর্তিতকরণ ইত্যাদি for
(DoE এর পরিমাপের এলোমেলো ক্রমের যত্ন নেওয়া উচিত **)
প্রথম (সাধারণত প্রাক প্রক্রিয়াজাতকরণ) পদক্ষেপের সাথে শুরু হওয়া সমস্ত গণনার পদক্ষেপ যা একাধিক রোগীকে জড়িত * যাচাইকরণের পুনরায় মডেলিংয়ের ক্ষেত্রে প্রতিটি সার্গেট মডেলের জন্য আবার করা দরকার। হোল্ড-আউট / ইন্ডিপেন্ডেন্ট টেস্ট সেট ভ্যালিডিয়েশনের জন্য, পরীক্ষার রোগীদের এই পদক্ষেপের আগে পৃথক করা দরকার ।
- গণনাটিকে প্রিপ্রোসেসিং বলা হয় বা প্রকৃত মডেলের অংশ হিসাবে বিবেচনা করা হয় তা নির্বিশেষে এটি নির্বিশেষে।
- সাধারণ অপরাধী: অর্থ কেন্দ্রীকরণ, ভেরিয়েন্স স্কেলিং (সাধারণত কেবলমাত্র হালকা প্রভাব), পিসিএ বা পিএলএসের মতো মাত্রিক হ্রাস (ভারী পক্ষপাত হতে পারে, উদাহরণস্বরূপ প্রস্থের ক্রম দ্বারা ত্রুটির কোনও মূল্যায়ন কম)
চূড়ান্ত মডেলটি স্বতন্ত্রভাবে বৈধকরণের জন্য যে কোনও ধরণের ডেটা-চালিত অপ্টিমাইজেশন বা মডেল নির্বাচনের জন্য অন্য (বহিরাগত) পরীক্ষার প্রয়োজন।
কিছু সাধারণীকরণের পারফরম্যান্স রয়েছে যা কেবলমাত্র নির্দিষ্ট স্বতন্ত্র পরীক্ষার সেট দ্বারা পরিমাপ করা যায়, যেমন ভবিষ্যতে পরিমাপকৃত মামলার ক্ষেত্রে ভবিষ্যদ্বাণীমূলক পারফরম্যান্স কীভাবে অবনতি হয় (আমি কেবল টাইম সিরিজের পূর্বাভাসের সাথে কাজ করছি না, কেবল উপকরণের প্রবাহের সাথে)। তবে এটির জন্য সঠিকভাবে ডিজাইন করা বৈধতা অধ্যয়ন প্রয়োজন।
আমার ক্ষেত্রে আরও একটি অদ্ভুত ধরণের ডেটা লিক রয়েছে: আমরা জৈবিক টিস্যুগুলির স্থানিকভাবে সমাধান করেছি বর্ণালীকে। পরীক্ষার বর্ণালির রেফারেন্স লেবেলিংকে বর্ণবাদী তথ্যের বিরুদ্ধে অন্ধ করা দরকার, এমনকি যদি এটি একটি ক্লাস্টার বিশ্লেষণ ব্যবহার করার জন্য প্রলুব্ধ করে এবং তখনই নির্ধারণ করুন যে প্রতিটি ক্লাস্টার কোন শ্রেণীর অন্তর্ভুক্ত (এটি আধা-তত্ত্বাবধানে থাকা পরীক্ষার ডেটা হবে যা না স্বতন্ত্র)।
শেষ কিন্তু অবশ্যই কম নয়: পুনরায় মডেলিং বৈধকরণের কোডিংয়ের সময়, আমি প্রকৃতপক্ষে ডেটাতে গণনা করা সূচকগুলি রোগীদের প্রশিক্ষণ, দিন ইত্যাদি থেকে পরীক্ষার সারি দখল করতে না পরিচালিত করে কিনা তা পরীক্ষা করে দেখি whether

নোট করুন যে "স্বাধীনতা নিশ্চিত করার জন্য বিভক্ত করা হয়নি" এবং "কোনও হিসাব হওয়ার আগে বিভক্ত হওয়া যে একের অধিক কেস জড়িত তার আগেও" টেস্টিংয়ের সাথে ঘটতে পারে যা একটি স্বাধীন পরীক্ষার সেট ব্যবহার করার দাবি করে, এবং পরবর্তীকালে ডেটা বিশ্লেষক হলেও পরীক্ষার মামলার রেফারেন্সে অন্ধ হয়েছি। চূড়ান্ত মডেল উপস্থাপন না করা পর্যন্ত পরীক্ষার ডেটা যদি না রাখা হয় তবে এই ভুলগুলি ঘটতে পারে না।

* আমি রোগীদের কেবলমাত্র বিবরণের স্বাচ্ছন্দ্যের জন্য ডেটাতে শীর্ষতম শ্রেণিবিন্যাস হিসাবে ব্যবহার করছি।
** আমি বিশ্লেষণী রসায়নবিদ: যন্ত্রের চালিকা একটি পরিচিত সমস্যা। প্রকৃতপক্ষে, রাসায়নিক বিশ্লেষণ পদ্ধতির বৈধতার অংশটি নির্ধারণ করে যাচাই হয়েছে যে কতবার বৈধতা নমুনাগুলির বিরুদ্ধে ক্যালিব্রেশনগুলি পরীক্ষা করা দরকার এবং কতবার ক্র্যাশমাঙ্কনটি আবার করা দরকার।

এফডাব্লুআইডাব্লু: বাস্তবে, আমি যেখানে অ্যাপ্লিকেশনগুলি দিয়ে থাকি

$p$ মাত্রার অনুক্রম হল , $10^2 - 10^3$
$n_{rows}$ সাধারণত চেয়ে বড় হয় তবে $p$
$n_{biol. replicates}$ বা হয় (প্রস্থের ক্রম: , খুব কমই ) $n_{patients}$ $\ll p$ $10^0 - 10^1$ $10^2$
বর্ণালী পরিমাপ পদ্ধতির উপর নির্ভর করে, একের সমস্ত সারি বলুন, রোগী খুব অনুরূপ বা বরং পৃথক হতে পারে কারণ বিভিন্ন ধরণের বর্ণালীর সংকেত-থেকে-শব্দের অনুপাত (উপকরণ ত্রুটি) এর পরিমাণ বা তার পরিমাণের দ্বারাও পৃথক হতে পারে

ব্যক্তিগতভাবে, আমি এখনও সেই অ্যাপ্লিকেশনটি পূরণ করতে পারিনি যেখানে শ্রেণিবদ্ধের বিকাশের জন্য আমি একটি উপযুক্ত স্বতন্ত্র পরীক্ষার সেটকে আলাদা করে রাখার জন্য পর্যাপ্ত স্বতন্ত্র মামলা পাই। সুতরাং, আমি এই সিদ্ধান্তে পৌঁছেছি যে পদ্ধতিটি এখনও বিকাশাধীন অবস্থায় সঠিকভাবে পুনর্নির্মাণের বৈধতা হ'ল আরও ভাল বিকল্প। যথাযথ বৈধতা অধ্যয়নগুলি শেষ পর্যন্ত করা দরকার, তবে এটি সম্পদের একটি বিশাল অপচয় (বা ফলাফলগুলি বৈকল্পের কারণে কোনও কার্যকর তথ্য বহন করবে না) তা করে যখন পদ্ধতি বিকাশ এমন একটি পর্যায়ে রয়েছে যেখানে এখনও পরিস্থিতি পরিবর্তিত হয়।

— cbeleites
সূত্র

2

যদি আমি সঠিকভাবে মনে রাখি তবে কিছু পূর্বাভাস প্রতিযোগিতা (যেমন নেটফ্লিক্স বা কাগল-এ থাকা) এই স্কিমটি ব্যবহার করে:

"উত্তর" সহ একটি প্রশিক্ষণ সেট রয়েছে। পরীক্ষার সেট # 1 রয়েছে, যার জন্য গবেষক উত্তর সরবরাহ করে। গবেষক তাদের স্কোর খুঁজে বের করে। পরীক্ষার সেট # 2 রয়েছে, যার জন্য গবেষক উত্তর সরবরাহ করেন, তবে গবেষক তাদের স্কোরটি খুঁজে পান না। গবেষক জানেন না যে # 1 এবং # 2 তে কোন পূর্বাভাসের কেস রয়েছে।

এক পর্যায়ে, সেট # 2 দৃশ্যমান হয়ে উঠতে হবে, তবে আপনি কমপক্ষে দূষণ সীমাবদ্ধ করেছেন।

— zbicyclist
সূত্র

2

কিছু ক্ষেত্রে যেমন বায়োলজিকাল সিকোয়েন্স-ভিত্তিক ভবিষ্যদ্বাণীকারীরা একের বেশি সেটগুলিতে কেসগুলি উপস্থিত না হয় তা নিশ্চিত করার পক্ষে যথেষ্ট নয়। আপনাকে এখনও সেটগুলির মধ্যে নির্ভরতা সম্পর্কে চিন্তা করতে হবে।

উদাহরণস্বরূপ, সিকোয়েন্স-ভিত্তিক ভবিষ্যদ্বাণীকারীদের জন্য, একটিকে বিভিন্ন সেট (বিভিন্ন ক্রস-বৈধকরণ সেট সহ) সিকোয়েন্সগুলি উচ্চ স্তরের সিক্যুয়েন্স মিলের ভাগ না করে তা নিশ্চিত করে অপ্রয়োজনীয়তা অপসারণ করতে হবে।

— ইটামার
সূত্র

2

আমি বলব যে "কে-ফোল্ড ক্রস বৈধকরণ" তাত্ত্বিক দৃষ্টিকোণ থেকে সঠিক উত্তর, তবে আপনার প্রশ্নটি সাংগঠনিক এবং শিক্ষাদানের বিষয়গুলি সম্পর্কে আরও বেশি মনে হয় তাই আমি আলাদাভাবে উত্তর দেব।

লোকেরা যখন "এখনও শিখছে" তখন প্রায়শই মনে করা হয় যে তারা কীভাবে "দ্রুত এবং dirtily" অ্যালগরিদম এবং সমস্ত "অতিরিক্ত" জ্ঞান প্রয়োগ করতে শিখছেন (সমস্যা প্রেরণা, ডেটাসেট প্রস্তুতি, বৈধতা, ত্রুটি বিশ্লেষণ, ব্যবহারিক গেটচস এবং আরও অনেক কিছু) ) "পরে" শিখতে হবে যখন তারা "আরও প্রস্তুত" হবে।

এটি সম্পূর্ণ ভুল।

আমরা যদি কোন শিক্ষার্থী চাই বা যে কেউ একটি পরীক্ষা সেট এবং প্রশিক্ষণের সেটের মধ্যে পার্থক্য বুঝতে পারি, তবে সবচেয়ে খারাপটি হবে দুটি সেট দুটি আলাদা ছেলেদের দেওয়া যেমন আমরা মনে করি যে "এই পর্যায়ে" "অতিরিক্ত জ্ঞান" ক্ষতিকর। এটি সফ্টওয়্যার বিকাশে জলপ্রপাতের মত - শুদ্ধ ডিজাইনের কয়েক মাস, খাঁটি কোডিংয়ের কয়েক মাস, তারপরে কয়েক মাস খাঁটি পরীক্ষার এবং শেষ পর্যন্ত মমত্ববোধের ফলাফল।
পড়াশোনার জলপ্রপাত হিসাবে যাওয়া উচিত নয়। শিক্ষার সমস্ত অংশ - সমস্যা প্রেরণা, অ্যালগরিদম, ব্যবহারিক গোটচস, ফলাফল মূল্যায়ন - অবশ্যই একসাথে আসতে হবে, ছোট পদক্ষেপে। (সফ্টওয়্যার বিকাশে চতুর পদ্ধতির মতো)।

সম্ভবত এখানকার প্রত্যেকেই অ্যান্ড্রু এনজির এম.এল. - ক্লাস.অর্গ.এর মধ্য দিয়ে গেছেন - আমি তাঁর পাঠ্যক্রমকে একটি দৃ "় "চতুর " উদাহরণ হিসাবে রেখেছি, যদি আপনি করেন, শেখার স্টাইল - এমন একটি যা "কখন কীভাবে" একটি প্রশ্ন উত্থাপন করবে না পরীক্ষার ডেটা প্রশিক্ষণের ডেটাতে ফাঁস না হওয়ার বিষয়টি নিশ্চিত করুন।

নোট করুন যে আমি আপনার প্রশ্নটি পুরোপুরি ভুল বুঝতে পেরেছি, তাই ক্ষমা চাই! :)

— andreister
সূত্র

মানুষের জন্য শেখা (এটি, কীভাবে সাধারণভাবে মডেল করবেন তা শিখতে) জলপ্রপাত হিসাবে চলবে না, তবে মডেলের জন্য শেখা উচিত। অন্যথায় পরীক্ষার তথ্যের বিটগুলি প্রশিক্ষণের ডেটাতে ঝাঁকুনি দেবে এবং আপনার মডেল অত্যধিক মানানসই প্রবণ।

— মাইকেল ম্যাকগওয়ান

এবং আমি সফ্টওয়্যার শেষ থেকে এটি আরও চিন্তা ছিল। একজন ব্যবহারকারী এমন একটি মডেল তৈরি করেন যা প্রশিক্ষণের ক্ষেত্রে 90% নির্ভুলতা এবং পরীক্ষার ক্ষেত্রে 75% নির্ভুলতা লাভ করে। তারপরে তারা সফ্টওয়্যারটিতে কয়েকটি নকব এবং সেটিংস সামঞ্জস্য করে এবং "পরীক্ষার" উপর 80% নির্ভুলতা পায়। তারা আবার ফিরে আসে এবং আরও টুইট করে এবং "পরীক্ষার" উপর 85% নির্ভুলতা পায়। তবে এই তথাকথিত "টেস্টিং" ডেটাসেটটি এখন আর নমুনা ছাড়াই নেই, এবং মডেলটি এটির চেয়েও বেশি উপযুক্ত।

— মাইকেল ম্যাকগওয়ান

যথাযথভাবে। এটি একটি মানব শিক্ষার সমস্যা (শিক্ষকের সমস্যা, যদি আপনি করেন তবে)। এটা তোলে যত তাড়াতাড়ি সম্ভব বদলে এর "নিশ্চিত এক্স ওয়াই মধ্যে ফুটা নেই" কৃত্রিম উপায়ে দ্বারা লুকানো প্রকাশ করা উচিত,

— andreister

যে লোকেদের আরও ভাল জানা উচিত তারা এখনও এই ভুলটি করবে। আপনি কার্যকারিতা সহ একটি সফ্টওয়্যার প্যাকেজে এই প্রভাবটি কিছুটা কমিয়ে দিতে পারেন যা সুস্পষ্ট বা স্পষ্টভাবে ভাল অভ্যাসকে উত্সাহ দেয় এবং খারাপ অভ্যাসগুলিকে নিরুৎসাহিত করে। মানুষের আরও ভাল করে জানা উচিত যে সমস্যাটিকে উপেক্ষা করার কোনও কারণ নেই।

— মাইকেল ম্যাকগোয়ান

@ মিশেলম্যাকগোয়ান - আপনি ফাঁস হওয়ার সুবিধাগুলিও এড়িয়ে যাচ্ছেন - পরীক্ষাটি সেট ব্যবহার করে আপনার অ্যালগরিদম সম্ভাব্যভাবে উন্নত হয়েছে (যেমন ট্রেন + পরীক্ষা কেবল ট্রেনের চেয়ে বেশি ডেটা)। এটি সত্যিকারের উন্নত পরিমাপের তুলনায় এটি কেবল একটি ভিন্ন বাণিজ্য-বন্ধ, উন্নত নির্ভুলতা। আমার জন্য প্রাক্তনটি আরও গুরুত্বপূর্ণ।

— সম্ভাব্যতাবিরোধী