কীভাবে ক্রস বৈধতা ডেটা স্নুপিং থেকে আলাদা?


13

আমি সবে "পরিসংখ্যান শিক্ষার একটি ভূমিকা" শেষ করেছি । আমি ভাবলাম যে বিভিন্ন মেশিন লার্নিং কৌশলগুলির জন্য সেরা টিউনিং পরামিতিগুলি সন্ধানের জন্য ক্রস-বৈধতা ব্যবহার করা ডেটা স্নোপিংয়ের থেকে পৃথক কিনা?

আমরা বারবার যাচাই করে দেখছি যে টিউনিং প্যারামিটারের মানটি পরীক্ষার সেটে সেরা ভবিষ্যদ্বাণীমূলক ফলাফলের ফলাফল করে। যদি কেবলমাত্র পৌঁছে যাওয়া টিউনিং প্যারামিটারটি ঘটনাক্রমে এই নির্দিষ্ট পরীক্ষার সেটটি ফিট করে এবং ভবিষ্যতের কিছু পরীক্ষার সেটটিতে ভাল সম্পাদন না করে তবে কী হবে?

দয়া করে মেশিন লার্নিং সম্পর্কে আমার নবজাতক বোঝার জন্য ক্ষমা করুন এবং আমি শিক্ষিত হতে আগ্রহী।

সম্পাদনা: দয়া করে "ডেটা স্নুপিং" এর সংজ্ঞা সম্পর্কে @ অ্যাডমো উত্তরটি দেখুন। আমি আমার প্রশ্নের মধ্যে শব্দটি খুব ভুলভাবে ব্যবহার করেছি।


আমি এটি পেয়ে খুব খুশি ... আগামীকাল এমন কিছু গবেষক যারা একটি কিছু প্রকাশ করেছেন তাদের সাথে টিসি নিয়ে .... দুর্ভাগ্যক্রমে এই সমস্যায় ভুগছি। দুর্দান্ত প্রশ্ন!
প্যালভিলেনসেন

উত্তর:


12

আমি ভাবলাম যে বিভিন্ন মেশিন লার্নিং কৌশলগুলির জন্য সেরা টিউনিং পরামিতিগুলি সন্ধানের জন্য ক্রস-বৈধতা ব্যবহার করা ডেটা স্নোপিংয়ের থেকে পৃথক কিনা?

আপনার উদ্বেগ সঠিক জায়গায়, এবং এই বিষয়টিতে একটি সম্পূর্ণ প্রচুর সাহিত্য রয়েছে eg

সমস্যাটি হ'ল ক্রস বৈধকরণের সাথে হাইপারপ্যারামিটার টিউনিং একটি ডেটা-চালিত অপ্টিমাইজেশন প্রক্রিয়া এবং এখনও ইওর ডেটা সেট (পুনরায় প্রতিষ্ঠানের ত্রুটির মাধ্যমে সুর তুলনায় কম, তবে তবুও) বেশি উপভোগ করবে। টিউনিং ক্রস বৈধকরণের ফলাফলগুলিকে "স্বতন্ত্র" পারফরম্যান্স পরিমাপ হিসাবে ব্যবহার করার চেষ্টা করা এইভাবে পাই (= টিউনিং) খাওয়া এবং এটি (= চূড়ান্ত মডেল কর্মক্ষমতা পরিমাপ) রাখার মতো।

এর অর্থ এই নয় যে হাইপারপ্যারামিটার টিউনিংয়ের জন্য আপনার ক্রস-বৈধতা ব্যবহার করা উচিত নয়। এর অর্থ হ'ল আপনি এটি কেবল একটি উদ্দেশ্যে ব্যবহার করতে পারবেন। বৈধতার জন্য মডেল পারফরম্যান্সটিকে অনুকূলিত করুন বা পরিমাপ করুন।

সমাধানটি হ'ল সুরযুক্ত হাইপারপ্যারামিটারগুলির সাথে প্রাপ্ত মডেলের গুণমানটি পরিমাপ করার জন্য আপনাকে একটি স্বাধীন বৈধতা করতে হবে। একে নেস্টেড বা ডাবল ভ্যালিডেশন বলা হয়। আপনি এই বিষয়গুলিতে এখানে বেশ কয়েকটি প্রশ্ন এবং উত্তর পাবেন

ধারণামূলকভাবে, আমি বলতে চাই যে প্রশিক্ষণে কেবলমাত্র "সাধারণ" মডেল প্যারামিটারগুলিই নয়, তবে হাইপারপ্যারামিটারে (স্বয়ংক্রিয়-সুর) ফিট করার জন্য সমস্ত ধরণের অভিনব পদক্ষেপ অন্তর্ভুক্ত রয়েছে। সুতরাং data এর ডেটা-চালিত অপ্টিমাইজেশন স্পষ্টভাবে মডেল প্রশিক্ষণের অংশ।

থাম্বের একটি নিয়ম হিসাবে আপনি এটিও বলতে পারেন যে মডেল প্রশিক্ষণ হ'ল এমন সব কিছু যা আপনার আগে ব্যবহারের জন্য প্রস্তুত চূড়ান্ত ব্ল্যাক-বাক্স ফাংশন যা নতুন ক্ষেত্রে ক্ষেত্রে ভবিষ্যদ্বাণী তৈরি করতে সক্ষম done


পিএস: আমি টেস্টিং বনাম বৈধকরণের পরিভাষাটি খুব বিভ্রান্তিকর বলে মনে করি কারণ আমার ক্ষেত্রে "বৈধতা" অর্থ চূড়ান্ত মডেলটি উপযুক্ত জন্য উপযুক্ত তা প্রমাণ করে এবং তাই অন্যরা যাচাইয়ের চেয়ে পরীক্ষাকে কল বলে। আমি অভ্যন্তরীণ পরীক্ষা সেটটিকে "টিউনিং টেস্ট সেট" এবং বাইরের "চূড়ান্ত বৈধতা পরীক্ষা সেট" বা এর মতো পছন্দ করতে পছন্দ করি।


হালনাগাদ:

সুতরাং যদি আমার মডেল (এই ক্ষেত্রে আমার টিউনিং প্যারামিটার) বাহ্যিক বৈধতা ব্যর্থ হয়, তবে আমার তখন কী করা উচিত?

সাধারণত, এটি কিছুই হয় না যা কেবল ঘটে: কিছু সাধারণ পরিস্থিতি রয়েছে যা এই জাতীয় ব্যর্থতার কারণ হতে পারে। এবং এই জাতীয় পরিস্থিতি সম্পর্কে আমি সচেতন সেগুলি হ'ল চূড়ান্ত পরিস্থিতি। আপনার সচেতন হওয়া দরকার যে নিয়মিতকরণ প্রশিক্ষণের ক্ষেত্রে প্রয়োজনীয় সংখ্যাকে হ্রাস করতে সহায়তা করার সময়, ডেটা-চালিত অপ্টিমাইজেশনের জন্য প্রচুর পরিমাণে ডেটা প্রয়োজন।

আমার সুপারিশ:

  • সাধারণত, আপনার (ইতিমধ্যে) ইতিমধ্যে মোটামুটি প্রত্যাশা থাকতে হবে, উদাহরণস্বরূপ কোন কার্য সম্পাদনযোগ্য হওয়া উচিত, কোন পারফরম্যান্স আপনি সন্দেহজনকভাবে ভাল দেখছেন তা বিবেচনা করবেন। অথবা আপনার কী কর্মক্ষমতা অর্জন করতে হবে এবং একটি বেসলাইন পারফরম্যান্সের চশমা রয়েছে। সে থেকে এবং অ্যাভাইলাব প্রশিক্ষণের ক্ষেত্রে (যে বিভাজন প্রকল্পের জন্য আপনি সিদ্ধান্ত নিয়েছিলেন) সংখ্যাটি অভ্যন্তরীণ (টিউনিং) পরীক্ষার জন্য প্রত্যাশিত অনিশ্চয়তা গণনা করুন। যদি সেই অনিশ্চয়তা নির্দেশ করে যে আপনি অর্থবহ তুলনা করতে সক্ষম হবেন না তবে ডেটা-চালিত অপ্টিমাইজেশন করবেন না।

  • স্বতঃ-সুরকরণ পদ্ধতি দ্বারা প্রাপ্ত নির্বাচিত λ এবং সর্বোত্তম। এর সাথে প্রাপ্ত পূর্বাভাস উভয়ই স্থিতিশীল রয়েছে তা আপনার পরীক্ষা করা উচিত । যদি আপনার ডেটার বিভিন্ন বিভাজনের ক্ষেত্রে to যদি যুক্তিসঙ্গতভাবে স্থিতিশীল না হয় তবে অপটিমাইজেশন কাজ করে না।

  • যদি আপনি দেখতে পান যে আপনি হয় ডেটা-চালিত অপ্টিমাইজেশন করতে সক্ষম হবেন না বা এটি সর্বোপরি কার্যকর হয় নি, আপনি নিজের বিশেষজ্ঞ জ্ঞান দ্বারা, যেমন একই ডেটার অভিজ্ঞতা থেকে বেছে নিতে পারেন। বা এই জ্ঞান দ্বারা যে আপনি যদি জানতে পারেন যে অপ্টিমাইজেশন ব্যর্থ হয়েছে, আপনার আরও শক্তিশালী নিয়মিতকরণ দরকার: ব্যর্থতার দিকে পরিচালিত অতিরিক্ত চাপটি খুব জটিল মডেলের দিকে কাজ করে।


1
আমি একমত, পরিভাষা ট্রেন / পরীক্ষা / বৈধতা খুব স্বজ্ঞাত নয়
এম বার্ক

3

k

λλ

"ডেটা স্নুপিং" বা, যেমন আমি এটি বলতে পারি, "এক্সপ্লোরার ডেটা বিশ্লেষণ" কোনও পূর্বনির্ধারিত প্রশ্নের সাথে কাজ করে না। আপনি ধরণের সম্ভাব্য সংখ্যার গণ্য করেছেন, বোধগম্যভাবে আকর্ষণীয় ফলাফল এবং পৃথকভাবে তাদের মূল্যায়ন করুন। আপনি যে কোনও সংখ্যক অন্বেষণ বিশ্লেষণ করতে পারেন এবং সাধারণত, আপনি একাধিক পরীক্ষার বিষয়ে চিন্তা করবেন না। আপনি প্রতিটি অনুসন্ধান বিশ্লেষণকে পৃথকভাবে ক্রস-বৈধতা ব্যবহার করে মূল্যায়ন করতে পারেন, তবে যখন আপনার 1 টিরও বেশি অনুসন্ধান বিশ্লেষণ রয়েছে তখন এটি সহজাতভাবে একাধিক পরীক্ষার জন্য অ্যাকাউন্ট করে না। এই সেটিংটিতে অনুমানগুলি বেশ প্রশস্ত এবং সুদূরপ্রসারী হতে পারে, "প্রস্টেট ক্যান্সারের সাথে কোন কারণগুলি যুক্ত?" (যা থেকে কফি পান করা, ভ্যাসেকটমির ব্যবহার ইত্যাদি) একটি কোহর্টে পরিমাপ করা হয়েছিল)। উল্লেখযোগ্য ফলাফলগুলিকে "হাইপোথিসিস উত্পন্ন করা" হিসাবে দেখা হয় এবং কোনও নিশ্চিত প্রমাণ হয় না।

k


λλ

1
@ অ্যান: ক্রস বৈধকরণের মাধ্যমে λ টিউন করা নিজেই খারাপ নয়। তবে এমনটি করে আপনি used টিউন করার জন্য যে ক্রস বৈধতাটি "ব্যবহার করেছেন" এবং আপনার আর একটি বৈধতা প্রয়োজন যা মডেলিংয়ের সাথে স্বতন্ত্র is সুর করার প্রক্রিয়া সহ λ এই বাহ্যিক বৈধতা না করা খারাপ। যদি সেই নির্দিষ্ট λ "আবার" কাজ করে না (উদাহরণস্বরূপ ডেটার আরেকটি বিভাজনের উপরে), আপনার অপটিমাইজেশন কাজ করে না। এই পরিস্থিতিতে, আপনি সাধারণত বাইরের বৈধতা ফলাফল এবং সুরের সময় পর্যবেক্ষণ "সেরা" পারফরম্যান্সের মধ্যে একটি বৃহত পার্থক্য দেখতে পাবেন।
এসবিএল

@ কেবেলাইটস তাই যদি আমার মডেল (যেমন এই ক্ষেত্রে আমার টিউনিং প্যারামিটার) বাহ্যিক বৈধতা ব্যর্থ হয়, তবে আমার তখন কী করা উচিত? আমি ফিরে যেতে পারি না এবং অন্য টিউনিং প্যারামিটারটি খুঁজে পাচ্ছি না, কারণ এটি বাহ্যিক বৈধতাটিকে টিউনিং পরীক্ষার সেটটিতে রূপান্তরিত করে। তো এখন কি করা?
হাইজেনবার্গ

λ

λk

1

আসলে, সিভি চলাকালীন আপনি কোনও বৈধতা সেটটিতে সেরা পরামিতিগুলি সন্ধান করার চেষ্টা করেন যা পরীক্ষার সেট থেকে পৃথক। আপনি আপনার পুরো ডেটাটিকে তিনটি সেটে বিভক্ত করেছেন: প্রশিক্ষণ সেট, বৈধতা সেট এবং পরীক্ষা সেট। আপনি যখন ক্রস-বৈধতা যথাযথভাবে করেন, আপনি কখনই শেষের দিকে পরীক্ষার সমাপ্তির দিকে তাকাবেন না, সুতরাং কোনও হস্তক্ষেপ নেই। পরীক্ষার সেটটিতে ক্রস-বৈধকরণ করা একটি গুরুতর (তবুও ঘন) পদ্ধতিগত ত্রুটি।


যদি বৈধতা সেট এবং পরীক্ষার সেট আলাদা হয় তবে তা আমার কাছে বোধগম্য। যাইহোক, আমি যে বইটি পড়েছি তাতে (হাস্টি এট অ্যাল। কম নয়) তারা যুক্তি দেয় যে হোল্ড-আউট পরীক্ষা ব্যবহার করা ব্যয়বহুল (আমরা প্রশিক্ষণের জন্য প্রচুর ডেটা ব্যবহার করছি না), তাই তারা কে-ফোল্ড ক্রস বৈধকরণের প্রস্তাব দেয়, যা আমি মনে করি না একটি পৃথক পরীক্ষা সেট আছে।
হাইজেনবার্গ

1
@ অহ: দু'টি বিভাজন কেবলমাত্র একটি ছোট ডেটা সেট আলাদা না করে পুনরায় মডেলিং (উদাহরণস্বরূপ পুনরাবৃত্ত ক্রস বৈধকরণ) দ্বারা করা যেতে পারে।
এসবিএল

@ অহ: কে-ফোল্ড ক্রস-বৈধকরণে, আপনি কে প্রশিক্ষণের মূল প্রশিক্ষণকে একটি ছোট প্রশিক্ষণ সেট এবং একটি বৈধতা সেট হিসাবে ভাগ করবেন। মূল পরীক্ষার সেটটি জড়িত নয় এবং কেবলমাত্র শেষে ব্যবহৃত হয়।
জেরোক্স

0

আপনি যদি লাসোর উদাহরণ সহ "পরিসংখ্যান শিক্ষার একটি পরিচিতির" পৃষ্ঠার 225 পৃষ্ঠায় সন্ধান করেন তবে দেখবেন যে তারা আসলে নেস্টেড ক্রস-বৈধতা করে। উদাহরণস্বরূপ, মডেল নির্বাচন cv.glmnetএকটি trainসেটে সম্পন্ন হয় , যা cv.glmnetপ্যাকেজ দ্বারা ট্রেন-পরীক্ষা জোড়ায় ভাগ করা হয় । মডেল বৈধতা বৈধকরণ (" test") সেট এ সম্পন্ন হয় , তাই এটি স্বাধীন বৈধতা।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.