কখন নেস্টেড ক্রস-বৈধকরণের প্রয়োজন হয় এবং ব্যবহারিক পার্থক্য করতে পারে?


36

মডেল নির্বাচন করতে যেমন ক্রস-বৈধকরণ ব্যবহার করা হয় (যেমন উদাহরণস্বরূপ হাইপারপ্যারামিটার টিউনিং) এবং সেরা মডেলের কর্মক্ষমতা মূল্যায়ন করতে, একজনকে নেস্টেড ক্রস-বৈধকরণ ব্যবহার করা উচিত । বাইরের লুপটি মডেলটির কার্যকারিতা মূল্যায়ন করা এবং অভ্যন্তরীণ লুপটি সেরা মডেলটি নির্বাচন করা হয়; মডেলটি প্রতিটি বাহ্যিক-প্রশিক্ষণ সেটে নির্বাচিত হয় (অভ্যন্তরীণ সিভি লুপ ব্যবহার করে) এবং এর কার্য সম্পাদনটি বাইরের-পরীক্ষামূলক সেটগুলিতে পরিমাপ করা হয়।

এটি অনেকগুলি থ্রেডে আলোচনা করা হয়েছে এবং ব্যাখ্যা করা হয়েছে (যেমন, এখানে ক্রস-বৈধকরণের পরে সম্পূর্ণ ডেটাসেটের সাথে প্রশিক্ষণ দেওয়া ? , @ ডিক্রানমারসুপিয়ালের উত্তর দেখুন) এবং আমার কাছে সম্পূর্ণ পরিষ্কার entire উভয় মডেল নির্বাচন এবং পারফরম্যান্স অনুমানের জন্য কেবল একটি সাধারণ (অহংকারী) ক্রস-বৈধকরণ করা ইতিবাচকভাবে পক্ষপাতিত্বমূলক পারফরম্যান্স অনুমান করতে পারে। @ ডিক্রানমারসুপিয়ালের ঠিক এই বিষয়টি নিয়ে একটি ২০১০ এর কাগজ রয়েছে ( মডেল নির্বাচনের ক্ষেত্রে ওভার-ফিটিং এবং পারফরম্যান্স মূল্যায়ণে পরবর্তী নির্বাচন বায়াস ) সাথে বিভাগ ৪.৩ বলা হচ্ছে মডেল নির্বাচনের ক্ষেত্রে ওভার-ফিটিং কি অনুশীলনের ক্ষেত্রে সত্যিকারের উদ্বেগ? - এবং কাগজটি দেখায় যে উত্তরটি হ্যাঁ।

এই সমস্ত বলা হচ্ছে, আমি এখন মাল্টিভারিয়েট একাধিক রিজ রিগ্রেশন নিয়ে কাজ করছি এবং আমি সাধারণ এবং নেস্টেড সিভির মধ্যে কোনও পার্থক্য দেখতে পাচ্ছি না, এবং এই বিশেষ ক্ষেত্রে নেস্টেড সিভি একটি অপ্রয়োজনীয় গণনার বোঝার মতো দেখাচ্ছে। আমার প্রশ্ন: সাধারণ সিভি কোন অবস্থার অধীনে নেস্টেড সিভি দিয়ে এড়ানো যায় এমন লক্ষণীয় পক্ষপাত অর্জন করবে? নেস্টেড সিভি কখন অনুশীলনে বিবেচনা করে এবং কখন তা এতটা গুরুত্ব দেয় না? থাম্বের কোনও নিয়ম আছে?

আমার আসল ডেটাসেট ব্যবহার করে এখানে একটি চিত্রণ দেওয়া হল। অনুভূমিক অক্ষটি হ'ল রিজ রিগ্রেশন for । উল্লম্ব অক্ষ ক্রস-বৈধতা ত্রুটি। নীল রেখাটি 50 টি এলোমেলো 90:10 প্রশিক্ষণ / পরীক্ষার বিভাজন সহ সাধারণ (অহংকারী) ক্রস-বৈধতার সাথে মিলে যায় s লাল রেখাটি 50 টি এলোমেলো 90:10 প্রশিক্ষণ / পরীক্ষা বিভাজন সহ নেস্টেড ক্রস-বৈধতার সাথে সম্পর্কিত, যেখানে একটি অভ্যন্তরীণ ক্রস-বৈধকরণ লুপ (এছাড়াও 50 এলোমেলো 90:10 বিভক্ত) দ্বারা নির্বাচিত হয়। রেখার অর্থ 50 টিরও বেশি এলোমেলো বিভাজন, শেডগুলি স্ট্যান্ডার্ড বিচ্যুতি প্রদর্শন করে ।λ ± 1লগ(λ)λ±1

সাধারণ বনাম নেস্টেড ক্রস-বৈধতা

লাল রেখাটি সমতল কারণ অভ্যন্তরীণ লুপে নির্বাচিত হচ্ছে এবং বহিরাগত লুপের পারফরম্যান্সটি পুরো পরিসীমা জুড়ে পরিমাপ করা হয় না । যদি সাধারণ ক্রস-বৈধকরণ পক্ষপাতযুক্ত হয় তবে নীল বক্ররেখা সর্বনিম্ন লাল রেখার নীচে। তবে এই ঘটনাটি নয়।λλλ

হালনাগাদ

এটা আসলে হয় কেস :-) এটা ঠিক যে পার্থক্য অতি ক্ষুদ্র হয়। এখানে জুম-ইন:

সাধারণ বনাম নেস্টেড ক্রস-বৈধকরণ, জুম-ইন

এখানে একটি সম্ভাব্য বিভ্রান্তিকর জিনিসটি হ'ল আমার ত্রুটি বারগুলি (ছায়াগুলি) বিশাল, তবে নেস্টেড এবং সাধারণ সিভিগুলি একই প্রশিক্ষণ / পরীক্ষার বিভাজন নিয়ে পরিচালিত হতে পারে (এবং ছিল)। সুতরাং তাদের মধ্যে তুলনাটি জুটিবদ্ধ হয়েছে , যেমন মন্তব্যগুলিতে @ ডিক্রান ইঙ্গিত করেছেন। সুতরাং আসুন নেস্টেড সিভি ত্রুটি এবং সাধারণ সিভি ত্রুটির মধ্যে পার্থক্য নেওয়া যাক ( যা আমার নীল বক্ররেখার সর্বনিম্নের সাথে মিলে যায়); আবার, প্রতিটি ভাঁজগুলিতে, এই দুটি ত্রুটি একই পরীক্ষার সেটটিতে গণনা করা হয়। প্রশিক্ষণ / পরীক্ষা বিভাজন জুড়ে এই পার্থক্যটি চিহ্নিত করে আমি নিম্নলিখিতটি পেয়েছি:50λ=0.00250

সাধারণ বনাম নেস্টেড ক্রস-বৈধকরণ, পার্থক্য

জেরোস বিভাজনের সাথে সামঞ্জস্য করে যেখানে অভ্যন্তরীণ সিভি (এটি প্রায় অর্ধেক বার হয়)। গড়ে, পার্থক্যটি ইতিবাচক হতে থাকে, যেমন নেস্টেড সিভিতে কিছুটা বেশি ত্রুটি রয়েছে। অন্য কথায়, সরল সিভি একটি বিয়োগফল দেখায়, তবে আশাবাদী পক্ষপাতিত্ব।λ=0.002

(আমি পুরো পদ্ধতিটি কয়েকবার চালিয়েছি এবং প্রতিবার এটি ঘটে happens)

আমার প্রশ্ন হ'ল আমরা কোন অবস্থার অধীনে এই পক্ষপাতটিকে সংক্ষিপ্ত বলে আশা করতে পারি, এবং কোন অবস্থার অধীনে আমাদের হওয়া উচিত নয়?


আমি ডায়াগ্রামটি বুঝতে পেরেছি তা খুব নিশ্চিত না, আপনি কি প্রতিটি অক্ষের নেস্টেড এবং অ-নেস্টেড ক্রস-বৈধতা থেকে অনুমানিত ত্রুটি দেখানোর জন্য একটি বিচ্ছুরিত প্লট তৈরি করতে পারেন (প্রতিবার 50 টি পরীক্ষার প্রশিক্ষণ বিভাজন একই ছিল)? আপনি যে ডেটাসেটটি ব্যবহার করছেন তা কত বড়?
ডিকরান মার্সুপিয়াল

1
আমি স্ক্যাটার প্লট তৈরি করেছি, তবে সমস্ত পয়েন্টগুলি তির্যকের খুব কাছাকাছি এবং এটি থেকে কোনও বিচ্যুতি সনাক্ত করা শক্ত। সুতরাং পরিবর্তে, আমি নেস্টেড সিভি ত্রুটি থেকে সাধারণ সিভি ত্রুটি (অনুকূল ল্যাম্বডা জন্য) বিয়োগ করেছি এবং এটি সমস্ত প্রশিক্ষণ-পরীক্ষার বিভাজনে প্লট করেছি। খুব ছোট, তবে লক্ষণীয় পক্ষপাত! আমি আপডেট করেছি। যদি পরিসংখ্যানগুলি (বা আমার ব্যাখ্যাগুলি) বিভ্রান্তিকর হয় তবে আমাকে জানান, আমি এই পোস্টটি পরিষ্কার হতে চাই।
অ্যামিবা বলেছেন

প্রথম অনুচ্ছেদে, আপনার কাছে প্রতিটি বাহ্যিক-প্রশিক্ষণের সেটটিতে মডেলটি নির্বাচিত হয়েছে ; এটা সম্ভবত হওয়া উচিত inner- পরিবর্তে?
রিচার্ড হার্ডি

@ রিচার্ড হার্দি নং তবে আমি দেখতে পাচ্ছি যে এই বাক্যটি খুব পরিষ্কারভাবে রচিত হয়নি। মডেলটি প্রতিটি বাহ্যিক-প্রশিক্ষণ সেটে "নির্বাচিত" হয়। বিভিন্ন মডেল (বিভিন্ন lambdas সঙ্গে মডেল যেমন) হয় হইয়া প্রতিটি ভেতরের প্রশিক্ষণ সেটে ভিতরের পরীক্ষার সেট উপর পরীক্ষা করুন, এবং তারপর একজন মডেল হয় নির্বাচিত , সমগ্র বাইরের প্রশিক্ষণ সেট উপর ভিত্তি করে। এর কর্মক্ষমতাটি তখন বাহ্যিক-পরীক্ষার সেট ব্যবহার করে মূল্যায়ন করা হয়। এটা কি কোন মানে আছে?
অ্যামিবা বলেছেন

উত্তর:


13

আমি পরামর্শ দেব যে পক্ষপাতটি মডেল নির্বাচনের মানদণ্ডের তারতম্যের উপর নির্ভর করে, তত বেশি বৈচিত্র, পক্ষপাতটি তত বেশি হওয়ার সম্ভাবনা রয়েছে। মডেল নির্বাচনের মানদণ্ডের বৈকল্পিকতার দুটি মূল উত্স রয়েছে, যে ডেটাসেটের আকারের উপর এটি মূল্যায়ন করা হয় (সুতরাং আপনার যদি একটি ছোট ডেটাসেট থাকে তবে পক্ষপাতটি বৃহত্তর হওয়ার সম্ভাবনা থাকে) এবং পরিসংখ্যানের মডেলটির স্থায়িত্বের উপর (যদি মডেল প্যারামিটারগুলি উপলব্ধ প্রশিক্ষণের ডেটা দ্বারা ভালভাবে অনুমান করা হয়, হাইপার-প্যারামিটারগুলি সুর করে মডেল নির্বাচনের মানদণ্ডকে অতিরিক্ত ফিট করার জন্য মডেলটির জন্য কম নমনীয়তা থাকে)। অন্যান্য প্রাসঙ্গিক ফ্যাক্টরটি হ'ল মডেল পছন্দগুলি করা সংখ্যা এবং / বা টিউন করার জন্য হাইপার-পরামিতি।

আমার গবেষণায়, আমি শক্তিশালী অ-রৈখিক মডেলগুলি এবং অপেক্ষাকৃত ছোট ডেটাসেটগুলি (সাধারণত মেশিন লার্নিং স্টাডিতে ব্যবহৃত হয়) এবং এই উভয় কারণের অর্থ হ'ল নেস্টেড ক্রস-বৈধতা একেবারে নেকসেসারি। আপনি যদি প্যারামিটারের সংখ্যা বাড়িয়ে দেন (প্রতিটি বৈশিষ্ট্যের জন্য সম্ভবত একটি স্কেলিং প্যারামিটারের সাথে কার্নেল রয়েছে) ওভার-ফিটিংটি "বিপর্যয়কর" হতে পারে। আপনি যদি কেবলমাত্র একক নিয়মিতকরণ প্যারামিটার এবং অপেক্ষাকৃত বড় সংখ্যক কেস (প্যারামিটারের সংখ্যার তুলনায়) সহ লিনিয়ার মডেলগুলি ব্যবহার করেন তবে পার্থক্যটি আরও অনেক কম হওয়ার সম্ভাবনা রয়েছে।

আমার যোগ করা উচিত যে আমি সর্বদা নেস্টেড ক্রস-বৈধকরণ ব্যবহার করার পরামর্শ দেব, তবে এটি গণনাযোগ্যভাবে সম্ভব হয়, কারণ এটি পক্ষপাতিত্বের সম্ভাব্য উত্সকে সরিয়ে দেয় যাতে আমাদের (এবং পিয়ার-রিভিউরা; ও) এটি উদ্বেগের দরকার নেই নগণ্য বা না।


2
আপনি যদি সমস্ত ডেটা ব্যবহার করেন তবে তা কি কার্যকরভাবে প্রশিক্ষণ সেট ত্রুটির চক্রান্ত করে না? বেশিরভাগ ক্ষেত্রেই আমি শ্রেণিবদ্ধকরণ মডেলগুলি ব্যবহার করি যেখানে সেরা মডেলগুলিতে শূন্য প্রশিক্ষণ সেট ত্রুটি থাকে তবে শূন্য নন সাধারণীকরণ ত্রুটি থাকে, যদিও নিয়মিতকরণ পরামিতিটি সাবধানে চয়ন করা হয়।
ডিকরান মার্সুপিয়াল

1
কয়েক হাজার প্রশিক্ষণের ধরণ বা তারও কম। আপনি কোন ধরণের মডেল ব্যবহার করছেন? ডেটাসেটটি বড় হওয়ার সাথে সাথে একটি সাধারণ নিয়ম হিসাবে পরিসংখ্যানগত সমস্যাগুলি হ্রাস হয় এবং গণনা সংক্রান্ত সমস্যাগুলি বৃদ্ধি পায়। কে-ভাঁজ ক্রস-বৈধকরণ বেসিক মডেলের (হাইপার-প্যারামিটার টিউন সহ) মাপসই করার চেয়ে কেবল কে গতি কম, সুতরাং এটি খুব কমই সম্ভাব্য থেকে অক্ষম হয়ে যায়। কে-ভাঁজ ক্রস-ভ্যালিডিয়েশনও সহজেই সমান্তরাল হয়, যা আমি ব্যবহার করি।
ডিকরান মার্শুপিয়াল

1
এটি কেবল নিরপেক্ষ পারফরম্যান্সের প্রাক্কলন দেয়। মূলত নেস্টেড সিভি ক্রস-বৈধকরণের মাধ্যমে মডেল নির্বাচন সহ একটি মডেল ফিট করার একটি পদ্ধতির কার্যকারিতা অনুমান করে । অপারেশনাল মডেলটি পেতে, আমরা সাধারণত পুরো ডেটাসেট ব্যবহার করে কেবল সেই পদ্ধতিটি পুনরাবৃত্তি করি যা "ফ্ল্যাট" ক্রস-বৈধকরণ প্রক্রিয়া হিসাবে একই মডেল পছন্দ দেয়।
ডিকরান মার্শুপিয়াল

1
নেস্টেড সিভির বিষয়টিও আমি এসেছি। নিরপেক্ষ নেস্টেড সিভি ব্যবহারে ছোট ডেটার সাথে মানানসই মডেলগুলি জড়িত। 10-ভাঁজ সিভির জন্য, এটি নেস্টেড সিভিতে 81% বনাম 90-নিস্টেড সিভিতে 90% এর মতো। এছাড়াও পরীক্ষার ভাঁজটি 9% বনাম 10% অ-নেস্টেডে পরিণত হয়। এটি কি মডেল মূল্যায়নে অতিরিক্ত বৈকল্পিক উত্পন্ন করে? বিশেষত এই পোস্টে 350 টি নমুনার মতো ছোট ডেটাসেটের জন্য। নেস্টেড সিভি ব্যবহার করা কি এই 'অসুবিধা'? যদি তা হয়, তবে আমাদের কীভাবে সিদ্ধান্ত নেওয়া উচিত যে নেস্টেড সিভি বনাম ডেটাসেটের আকার ব্যবহার করবেন কিনা? এই বিষয়ে আপনার মত বিশেষজ্ঞের মতামতকে সত্যই প্রশংসা করুন। এই সমস্যা সম্পর্কিত কোন কাগজ আছে? @ ডিকরান মার্সুপিয়াল
জেসলা

2
@ জেসলা হ্যাঁ, এটি প্রকৃতপক্ষে এমন যে অভ্যন্তরীণ ক্রস-বৈধকরণের জন্য কম ডেটা রয়েছে, যা এর বৈচিত্র বাড়িয়ে তুলবে, তবে চূড়ান্ত মডেলটি সম্পূর্ণ ডেটাসেট (হাইপার-প্যারামিটার অনুমান সহ) ব্যবহার করে নির্মিত হয়েছে। পারফরম্যান্স অনুমানের ক্ষেত্রে পক্ষপাত এবং বৈকল্পিকের মধ্যে সর্বদা একটি বাণিজ্য থাকে। মডেল নির্বাচনের ক্ষেত্রে ওভার-ফিটিং হিসাবে যদি ডেটাসেটটি ছোট হয় এবং পক্ষপাতিত্ব সমস্যা থাকে তবে নেস্টেড ক্রস-বৈধতা ব্যবহার করা সবচেয়ে গুরুত্বপূর্ণ। ব্যবহারিক প্রয়োগগুলিতে, যেখানে কয়েকটি হাইপার-প্যারামিটার রয়েছে সেখানে পার্থক্যটি সামান্য ব্যবহারিক তাত্পর্যপূর্ণ হতে পারে arxiv.org/abs/1809.09446
ডিকরান মার্শুপিয়াল
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.