ক্রস-বৈধতার বাইরে হাইপারপ্যারমিটার টিউন করা কতটা খারাপ?


20

আমি জানি যে ক্রস-বৈধতার বাইরে হাইপারপ্যারামিটার টিউনিং করা বাহ্যিক বৈধতার পক্ষপাতদুষ্ট-উচ্চতর অনুমানের দিকে পরিচালিত করতে পারে, কারণ আপনি কার্য সম্পাদন পরিমাপ করতে যে ডেটাসেটটি ব্যবহার করেন একই বৈশিষ্ট্যগুলি সুর করার জন্য আপনি ব্যবহার করেছিলেন।

আমি যা ভাবছি তা হ'ল এটি কতটা খারাপ । বৈশিষ্ট্য নির্বাচনের ক্ষেত্রে এটি কীভাবে খারাপ হবে তা আমি বুঝতে পারি, কারণ এটি আপনাকে টিউন করার জন্য বিশাল সংখ্যক পরামিতি দেয়। তবে আপনি যদি লাসো (যেমন কেবলমাত্র একটি প্যারামিটার, নিয়ন্ত্রণ নিয়ন্ত্রণ), বা বৈশিষ্ট্য নির্বাচন ছাড়াই একটি এলোমেলো বন (যার কয়েকটি পরামিতি ছাড়া শব্দের বৈশিষ্ট্যগুলি যুক্ত / বাদ দেওয়ার মতো নাটকীয় কিছুই থাকতে পারে) এর মতো কিছু ব্যবহার করছেন?

এই পরিস্থিতিতে, আপনি প্রশিক্ষণের ত্রুটি সম্পর্কে আপনার অনুমান কতটা খারাপ আশাবাদী হতে পারে?

আমি এ সম্পর্কিত যে কোনও তথ্যের প্রশংসা করব - কেস স্টাডি, কাগজপত্র, অ্যানেকটাটা ইত্যাদি Thanks ধন্যবাদ!

সম্পাদনা: পরিষ্কার করার জন্য, আমি প্রশিক্ষণের ডেটাতে মডেল পারফরম্যান্সের অনুমানের কথা বলছি না (অর্থাত্ ক্রস বৈধতা মোটেই ব্যবহার করছি না)। আমি ক্রস বৈধতা ব্যবহার মানে শুধুমাত্র প্রতিটি মডেল কর্মক্ষমতা অনুমান করার জন্য কিন্তু "ক্রস বৈধতা এর hyperparameter টিউনিং বাহিরে" দ্বারা না একটি বাইরের সহ দ্বিতীয় ক্রস বৈধতা লুপ সঠিক hyperparameter টিউনিং পদ্ধতি মধ্যে overfitting জন্য (থেকে স্বতন্ত্র হিসাবে প্রশিক্ষণ প্রক্রিয়া চলাকালীন overfitting)। যেমন উত্তর এখানে দেখুন

উত্তর:


17

এই পক্ষপাতিত্বের প্রভাবগুলি খুব দুর্দান্ত হতে পারে। এটির একটি ভাল প্রদর্শন খোলা মেশিন লার্নিং প্রতিযোগিতাগুলি দেওয়া হয়েছে যা কিছু মেশিন লার্নিং কনফারেন্সে বৈশিষ্ট্যযুক্ত। এগুলির সাধারণত একটি প্রশিক্ষণ সেট, একটি বৈধতা সেট এবং একটি পরীক্ষা সেট থাকে। প্রতিযোগীরা বৈধতা সেট বা পরীক্ষার সেট (স্পষ্টতই) এর জন্য লেবেলগুলি দেখতে পাবে না। বৈধতা সেটটি লিডারবোর্ডে প্রতিযোগীদের র‌্যাঙ্কিং নির্ধারণ করতে ব্যবহৃত হয় যা প্রতিযোগিতা চলাকালীন সময়ে সবাই দেখতে পায়। প্রতিযোগিতার শেষে লিডারবোর্ডের মাথার কাছে পরীক্ষার তথ্যের ভিত্তিতে চূড়ান্ত র‌্যাঙ্কিংয়ের ক্ষেত্রে খুব কম হওয়া খুব সাধারণ বিষয়। এর কারণ তারা লিডারবোর্ডে তাদের কর্মক্ষমতা সর্বাধিকতর করার জন্য তাদের শেখার সিস্টেমগুলির হাইপার-প্যারামিটারগুলি টিউন করেছে এবং এটি করার মাধ্যমে বৈধতার ডেটা ওভার-ফিট করেছেতাদের মডেল টিউন করে। আরও অভিজ্ঞ ব্যবহারকারী লিডারবোর্ডের দিকে সামান্য বা মনোযোগ দেয় না এবং তাদের পদ্ধতিটি গাইড করতে আরও কঠোর নিরপেক্ষ পারফরম্যান্স অনুমান গ্রহণ করে।

আমার কাগজের উদাহরণ (জ্যাক দ্বারা বর্ণিত) দেখায় যে এই ধরণের পক্ষপাতের প্রভাবগুলি অ্যালগরিদম শেখার মধ্যে পার্থক্যের মতো আকারের একই আকারের হতে পারে, তাই সংক্ষিপ্ত উত্তরটি যদি আপনি হয় তবে পক্ষপাতমূলক পারফরম্যান্স মূল্যায়নের প্রোটোকল ব্যবহার করবেন না কী কাজ করে এবং কোনটি হয় না তা সন্ধানে সত্যই আগ্রহী। মৌলিক নিয়মটি হ'ল মডেল নির্বাচন (যেমন হাইপার-প্যারামিটার টিউনিং) কে মডেল ফিটিং পদ্ধতির একটি অবিচ্ছেদ্য অংশ হিসাবে বিবেচনা করুন এবং পারফরম্যান্স মূল্যায়নের জন্য ব্যবহৃত ক্রস-বৈধকরণের প্রতিটি ভাগে এটি অন্তর্ভুক্ত করুন)।

বৈশিষ্ট্য নির্বাচনের তুলনায় নিয়মিতকরণ ওভার-ফিটিংয়ের প্রবণতা কম হ'ল স্পষ্টতই লাসো ইত্যাদি বৈশিষ্ট্য নির্বাচন সম্পাদন করার ভাল উপায় হ'ল কারণ। তবে, পক্ষপাতের আকার বৈশিষ্ট্য সংখ্যা, ডাটাসেটের আকার এবং শেখার কার্যের প্রকৃতির উপর নির্ভর করে (যেমন একটি উপাদান রয়েছে যা একটি নির্দিষ্ট ডেটাসেটের উপর নির্ভর করে এবং অ্যাপ্লিকেশন অনুসারে পৃথক হবে)। এর ডেটা নির্ভর নির্ভর প্রকৃতির অর্থ দাঁড়ায় যে আপনি পক্ষপাতহীন প্রোটোকল ব্যবহার করে এবং পার্থক্যের তুলনা করে পক্ষপাতের আকার নির্ধারণ করা ভাল (এই নির্দিষ্ট ক্ষেত্রে মডেল নির্বাচনের ক্ষেত্রে পদ্ধতিটি শক্তিশালী বলে প্রতিবেদন করা আগ্রহী হতে পারে নিজেই).

জিসি কাওলি এবং এনএলসি টালবট (২০১০), "মডেল নির্বাচনের ক্ষেত্রে ওভার-ফিটিং এবং পারফরম্যান্স মূল্যায়নে পরবর্তী নির্বাচনের পক্ষপাত", জার্নাল অফ মেশিন লার্নিং রিসার্চ, ১১, পি। २०৯৯, বিভাগ ৫.২।)


7
  • আপনি যে পক্ষপাতিত্বের কথা বলছেন তা এখনও মূলত ওভারফিটিংয়ের সাথে যুক্ত।
  • নিয়মিতকরণ হাইপারপ্যারামিটার ফিক্স করার জন্য খুব কম কয়েকটি মডেলকে মূল্যায়ন করে আপনি ঝুঁকিকে কম রাখতে পারেন প্লাসযোগ্য পছন্দমতো কম জটিলতার জন্য।

  • @ মার্কক্লেসেন যেমন উল্লেখ করেছেন, আপনার কাছে শেখার বক্ররেখা কাজ করছে যা কিছুটা পক্ষপাত প্রশমিত করবে। তবে শেখার বক্ররেখা সাধারণত খুব কম ক্ষেত্রেই খাড়া থাকে এবং তারপরেও ওভারফিট করা সমস্যাটি অনেক বেশি।

শেষ পর্যন্ত, আমি পক্ষপাতদুষ্ট অনেক নির্ভর করবে আশা করি

  • ডেটা (একটি অবিচ্ছিন্ন সমস্যাটিকে উপস্থাপন করা শক্ত ...) এবং
  • আপনার অভিজ্ঞতা এবং মডেলিংয়ের আচরণ: আমি মনে করি যে আপনি যদি মডেল এবং অ্যাপ্লিকেশন উভয় ক্ষেত্রেই যথেষ্ট অভিজ্ঞতা অর্জন করেন এবং যদি আপনি অত্যন্ত ভাল ব্যবহার করে থাকেন এবং ফলস্বরূপ না থেকে থাকেন তবে আপনি আপনার মডেলটির জন্য মোটামুটি উপযুক্ত জটিলতার বিষয়ে সিদ্ধান্ত নিয়েছিলেন I আরও জটিল মডেলের জন্য প্রলোভন। তবে অবশ্যই, আমরা আপনাকে জানি না এবং তাই আপনার মডেলিংটি কতটা রক্ষণশীল তা বিচার করতে পারবেন না।
    এছাড়াও, আপনার অভিনব পরিসংখ্যানের মডেলটি চূড়ান্ত বিষয়গত এবং আপনার বৈধতা দেওয়ার ক্ষেত্রে কেস নেই বলে স্বীকার করা সাধারণত আপনি যা চান তা নয়। (এমনকি সামগ্রিক ফলাফল আরও ভাল হতে পারে এমন পরিস্থিতিতেও নয়))

আমি লাসো ব্যবহার করি না (যেমন ভেরিয়েবল নির্বাচন শারীরিক কারণে আমার ডেটার জন্য খুব বেশি বোঝায় না), তবে পিসিএ বা পিএলএস সাধারণত ভালভাবে কাজ করে। একটি রিজ এমন একটি বিকল্প হবে যা লাসোর কাছাকাছি এবং ডেটা ধরণের জন্য আরও উপযুক্ত। এই ডেটাগুলির সাথে আমি "শর্টকাট-বৈধকরণ" বনাম যথাযথ স্বতন্ত্র (বহিরাগত) ক্রস বৈধকরণের উপর আরও বেশি প্রকারের ভুল শৃঙ্খলার অর্ডার দেখেছি। এই চরম পরিস্থিতিতে, তবে আমার অভিজ্ঞতা বলেছে যে শর্টকাট-যাচাইকরণ সন্দেহজনকভাবে ভাল দেখাচ্ছিল, যেমন যথাযথ ক্রস যাচাইকরণের সাথে 2% বিযুক্তি => 20%।

আমি আপনাকে এমন আসল নম্বর দিতে পারি না যা সরাসরি আপনার প্রশ্নের ক্ষেত্রে প্রযোজ্য, যদিও:

  • এখনও পর্যন্ত, আমি অন্যান্য ধরণের "শর্টকাটগুলি" সম্পর্কে আমার যত্ন নিয়েছিলাম যা আমার ক্ষেত্রে ঘটে এবং ডেটা ফাঁসের দিকে নিয়ে যায়, উদাহরণস্বরূপ রোগীদের পরিবর্তে ক্রস ভ্যালিডিটিং স্পেকট্রা (বিশাল পক্ষপাত! আমি আপনাকে 10% ভুল শৃঙ্খলা দেখাতে পারি -> 70% = এর মধ্যে অনুমান করা 3 শ্রেণি), বা ক্রস বৈধকরণের পিসিএ সহ নয় (2 - 5% -> 20 - 30%)।
  • যে পরিস্থিতিতে আমি যে ক্রস বৈধতা সহ্য করতে পারব তা মডেল অপ্টিমাইজেশনে বা বৈধকরণের জন্য ব্যয় করা উচিত কিনা সেই পরিস্থিতিতে আমি সর্বদা বৈধতার জন্য সিদ্ধান্ত নিই এবং অভিজ্ঞতা দ্বারা জটিলতা পরামিতিটি ঠিক করি। পিসিএ এবং পিএলএস যথাযথভাবে নিয়মিতকরণের কৌশলগুলি যেমন শ্রদ্ধা হয় তেমনি জটিলতা পরামিতি (# উপাদানগুলি) সমস্যার শারীরিক / রাসায়নিক বৈশিষ্ট্যের সাথে সরাসরি সম্পর্কিত (যেমন আমি কতটা রাসায়নিকভাবে পৃথক পদার্থের গ্রুপ আশা করি তা ভাল ধারণা করতে পারে)। এছাড়াও, ফিজিকো-রাসায়নিক কারণে আমি জানি যে উপাদানগুলি কিছুটা বর্ণের মতো দেখা উচিত এবং যদি তারা কোলাহল হয় তবে আমি অত্যধিক ফিট করছি। তবে অভিজ্ঞতার সাথে হাইপারপ্যারামিটারগুলি স্থানান্তরিত করার ন্যায়সঙ্গতভাবে প্রমাণ করার জন্য পূর্বের পরীক্ষা থেকে প্রাপ্ত একটি পুরানো ডেটা সেট করার মডেল জটিলতার অনুকূলকরণ করা যেতে পারে এবং তারপরে কেবল ব্যবহার করুননতুন ডেটার জন্য নিয়মিতকরণ পরামিতি।
    এইভাবে, আমি অনুকূল মডেলটি দাবি করতে পারি না, তবে আমি যে পারফরম্যান্স পেতে পারি তার যুক্তিসঙ্গত প্রাক্কলন দাবি করতে পারি।
    এবং আমার যে রোগী সংখ্যাটি রয়েছে তার সাথে পরিসংখ্যানগত অর্থপূর্ণ মডেল তুলনা করা যাইহোক অসম্ভব (মনে রাখবেন, আমার মোট রোগীর সংখ্যা একক অনুপাতের অনুমানের জন্য প্রস্তাবিত নমুনা আকারের নীচে [ফ্যাঙ্কহারেল এখানে প্রদত্ত নিয়মের অনুসারে])।

আপনি কেন এমন কিছু সিমুলেশন চালান না যা আপনার ডেটার সাথে যতটা সম্ভব নিকটে থাকে এবং কী ঘটে তা আমাদের জানান?


আমার ডেটা সম্পর্কে: আমি বর্ণালি ডেটা নিয়ে কাজ করি। ডেটা সেটগুলি সাধারণত বিস্তৃত: কয়েকটি দশক স্বতন্ত্র কেস (রোগী; যদিও প্রতি ক্ষেত্রে সাধারণত প্রচুর পরিমাণে পরিমাপ হয় Ca সিএ 10³ কাঁচা ডেটারে পরিবর্তিত হয়, যা আমি অপ্রয়োজনীয় অঞ্চলগুলি কাটাতে ডোমেন জ্ঞান প্রয়োগ করে 250 বলতে কমাতে সক্ষম হতে পারি) আমার বর্ণালার বাইরে এবং বর্ণালী রেজোলিউশন হ্রাস করতে।


5

আপনি যদি কেবল লাসো-র জন্য হাইপারপ্যারামিটার নির্বাচন করছেন তবে নেস্টেড সিভির দরকার নেই। হাইপার-প্যারামিটার নির্বাচন একক / ফ্ল্যাট সিভি ইন্টারঅ্যাকশনে করা হয়।

λ

LiTiλTiLi

2) λ

(হাইপারপ্যারামিটারগুলি নির্বাচন করার জন্য এটি একমাত্র পদ্ধতি নয় তবে এটি সর্বাধিক প্রচলিত একটি পদ্ধতিও রয়েছে - জিসি কাওলি এবং এনএলসি টালবোট (২০১০) দ্বারা আলোচিত এবং সমালোচিত "মিডিয়ান" পদ্ধতিও রয়েছে, "মডেল নির্বাচনের ক্ষেত্রে ওভার-ফিটিং এবং পরবর্তী নির্বাচনের পক্ষপাতিত্ব) পারফরম্যান্স মূল্যায়নে ", মেশিন লার্নিং রিসার্চ জার্নাল, 11 , পি .2079 , বিভাগ 5.2।)

λλ

আমি এই অনুমানের পক্ষপাত পরিমাপের দুটি পরীক্ষামূলক ফলাফল সম্পর্কে জানি (সিন্থেটিক ডেটাসেটের জন্য সত্যিকারের সাধারণীকরণের ত্রুটির তুলনায়)

উভয় উন্মুক্ত অ্যাক্সেস।

আপনার যদি নেস্টেড সিভি দরকার হয় তবে:

ক) আপনি একটি লাসো এবং কিছু অন্যান্য অ্যালগরিদমের মধ্যে চয়ন করতে চান, বিশেষত যদি তাদের হাইপারপ্যারামিটার থাকে

λ

λ

অবশেষে, নেস্টেড সিভিই প্রত্যাশিত সাধারণীকরণ ত্রুটির যুক্তিসঙ্গত পক্ষপাতহীন অনুমান গণনা করার একমাত্র উপায় নয়। কমপক্ষে আরও তিনটি প্রস্তাব এসেছে


2
"হাইপারপ্যারামিটার নির্বাচনের জন্য কোনও সিভি নেই" এর অর্থ আপনি কী ব্যাখ্যা করতে পারেন? আপনি যা লিখেছেন তা থেকে আমি বুঝতে পারছি না যে আপনি ওপিকে সতর্ক করতে চান যে তারা বাসা বাঁধেনি, বা আপনি যে সাধারণভাবে এই জাতীয় কোনও উপস্থিতি নেই তা উল্লেখ করেছেন।
ক্যাবেলাইটস মনিকাকে

(+1) সমস্যার সংক্ষিপ্ত বিবরণ এবং ভাল রেফারেন্সের জন্য। তবে, যেমন @ কবেলাইটস উল্লেখ করেছেন, প্রথম বাক্যটি বরং বিভ্রান্তিকর: এটি ওপি-র যে ভুল বোঝাবুঝির নেই তা সংশোধন করার উদ্দেশ্যে বলে মনে হচ্ছে।
স্কর্চচি - মনিকা পুনরায় ইনস্টল করুন

@ কেবেলাইটস (এবং স্কোরচি) - আমি ওপিকে "এডিআইটি:" জবাব দিচ্ছি যেখানে (আমি বিশ্বাস করি) তিনি দাবি করেছেন যে তিনি প্যারামিটারগুলি নির্বাচন করতে সিভি ব্যবহার করছেন ("প্রতিটি পৃথক মডেলের পারফরম্যান্স অনুমানের জন্য কেবল ক্রস-বৈধকরণ,") এবং তিনি উদ্বিগ্ন যে তিনি কোনও নেস্টেড সিভি ব্যবহার করেন নি ("তবে হাইপারপ্যারামিটার টিউনিং পদ্ধতির মধ্যে অতিরিক্ত ফিট করার জন্য কোনও বাইরের, দ্বিতীয় ক্রস-বৈধকরণ লুপটি অন্তর্ভুক্ত নয়")। আমি তাকে বলার চেষ্টা করছিলাম যে প্যারামিটার নির্বাচনের বাইরে কোনও সিভি নেই CV
জ্যাক ওয়াইনার

@ জ্যাকসওয়াইনার: আমি বিশ্বাস করি যে নেস্টেড সিভি ব্যবহার করে হাইপারপ্যারামিটারের নির্বাচিত মানটি সংশোধন করার পরিবর্তে প্রক্রিয়াটির (আপনার পরিস্থিতি ) নমুনা ছাড়িয়ে নমুনা নির্ধারণের সময় তিনি "হাইপারপ্যারামিটার টিউনিং পদ্ধতির মধ্যে অত্যধিক মানসিকতার জন্য সঠিক করতে চান" believe যে কোনও হারে, আপনার সম্পাদনা আপনার উত্তরটির শুরুটিকে আরও পরিষ্কার করে দেয়।
স্কর্চচি - মনিকা পুনরায় ইনস্টল করুন

হ্যাঁ, আমি "হাইপারপ্যারামিটার টিউনিং পদ্ধতির মধ্যে ওভারফিটিংয়ের জন্য [নিখুঁত পারফরম্যান্সের প্রাক্কলন] সংশোধন করা" বোঝাতে চেয়েছিলাম, "ওভারফিটিংয়ের জন্য [টিউনযুক্ত হাইপারপাটারগুলি] সংশোধন করার জন্য নয়" বা এর মতো কিছু। আমি বিভ্রান্তির জন্য দুঃখিত; আমার আরও স্পষ্টভাবে বলা উচিত ছিল যে আমি ত্রুটি অনুমান সম্পর্কে চিন্তিত ছিলাম, পরামিতি নির্বাচন নয়।
বেন কুহন

2

কোনও জটিল শেখার অ্যালগরিদম, যেমন এসভিএম, নিউরাল নেটওয়ার্কগুলি, এলোমেলো বন, ... যদি আপনি তাদের (উদাহরণস্বরূপ দুর্বল / কোনও নিয়মিতকরণের মাধ্যমে) অনুমতি না দেয় তবে 100% প্রশিক্ষণের নির্ভুলতা অর্জন করতে পারে, ফলস্বরূপ একেবারে ভয়াবহ সাধারণীকরণের কর্মক্ষমতা সহ।

κ(xi,xj)=exp(γxixj2)γ=100%

সংক্ষেপে, আপনি সহজেই আপনার প্রশিক্ষণ সেটে একটি নিখুঁত শ্রেণিবদ্ধার দিয়ে শেষ করতে পারেন যা একটি স্বাধীন পরীক্ষার সেটটিতে কার্যকর কোনও কিছুই শেখেনি। এটা কত খারাপ।


আমি ক্রস-বৈধতার বাইরে মডেলটি প্রশিক্ষণের কথা বলছি না । আমি হাইপারপ্যারামিটারগুলি টিউন করার কথা বলছি (এবং এখনও হাইপারপ্যারামিটারগুলির প্রতিটি সেটের পারফরম্যান্স অনুমান করতে ক্রস-বৈধতা ব্যবহার করছি)। এটি স্পষ্ট করার জন্য আমি পোস্টটি সম্পাদনা করব।
বেন কুহন

100%

আপনি কেন মনে করেন যে আমি ক্রস-বৈধতা ব্যবহার না করার বিষয়টি বিবেচনা করছি? আমি স্পষ্টভাবে বলেছি, "... এবং এখনও হাইপারপ্যারামিটারগুলির প্রতিটি সেটের কার্যকারিতা অনুমান করতে ক্রস-বৈধতা ব্যবহার করছি using"
বেন কুহন

1
γ=γγ

2
আমি আপনার প্রশ্নটি পুরোপুরি ভুল বুঝেছি। সম্পাদনার আগে এটি অত্যন্ত বিভ্রান্তিকর ছিল। আপনি যে পক্ষপাতদুষ্টে আগ্রহী বলে মনে করছেন তা অবশ্যই ইতিবাচক নয়, উপায় দ্বারা; যেহেতু অনেক প্রশিক্ষণের ডেটা দেওয়ার সময় অনেকগুলি পদ্ধতির তীব্রতর উন্নত মডেল পাওয়া যায় যা ছোট প্রশিক্ষণের সেট + ক্রস-বৈধকরণের জন্য বিশেষভাবে প্রাসঙ্গিক।
মার্ক ক্লেসেন
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.