পরীক্ষার সেট এবং প্রশিক্ষণের সেট বিতরণের মধ্যে পার্থক্য কীভাবে পরিচালনা করবেন?


23

আমি মনে করি মেশিন লার্নিং বা পরামিতি অনুমানের একটি প্রাথমিক অনুমান হ'ল অদেখা তথ্যগুলি প্রশিক্ষণ সেট হিসাবে একই বিতরণ থেকে আসে। তবে কিছু ব্যবহারিক ক্ষেত্রে পরীক্ষার সেট বিতরণ প্রশিক্ষণ সেট থেকে প্রায় আলাদা হবে।

বৃহত্তর স্তরের মাল্টি-শ্রেণিবদ্ধকরণ সমস্যার জন্য বলুন যা পণ্য বিবরণকে প্রায় 17,000 শ্রেণিতে শ্রেণিবদ্ধ করার চেষ্টা করে। প্রশিক্ষণ গোষ্ঠীতে উচ্চ স্তরের শ্রেণিবদ্ধ প্রিয়র থাকবে যেমন কিছু শ্রেণির অনেক প্রশিক্ষণের উদাহরণ থাকতে পারে তবে কারও কারও কাছে কয়েকটি থাকে। মনে করুন আমাদের কোনও ক্লায়েন্টের অজানা ক্লাস লেবেল সহ একটি পরীক্ষা সেট দেওয়া আছে। আমরা পরীক্ষার প্রতিটি পণ্যকে প্রশিক্ষণ সংস্থায় প্রশিক্ষিত শ্রেণিবদ্ধ ব্যবহার করে 17,000 শ্রেণীর মধ্যে একটিতে শ্রেণিবদ্ধ করার চেষ্টা করি। পরীক্ষার সেটটিতে সম্ভবত শ্রেণিবিন্যাসের স্কিল বিতরণ হত তবে সম্ভবত প্রশিক্ষণের সেট থেকে খুব আলাদা, যেহেতু তারা বিভিন্ন ব্যবসায়ের সাথে সম্পর্কিত হতে পারে। দুটি শ্রেণির বিতরণ যদি খুব আলাদা হয় তবে প্রশিক্ষিত শ্রেণিবদ্ধকারী পরীক্ষার সেটে ভাল কাজ করতে পারে না। নায়েভ বেয়েস শ্রেণিবদ্ধের সাথে এটি বিশেষভাবে সুস্পষ্ট বলে মনে হয়।

প্রশিক্ষণ সেট এবং সম্ভাব্য শ্রেণিবদ্ধের জন্য একটি নির্দিষ্ট প্রদত্ত পরীক্ষার সেটের মধ্যে পার্থক্যটি পরিচালনা করার কোনও নীতিগত উপায় আছে কি? শুনেছি যে "ট্রান্সডেস্টিভ এসভিএম" এসভিএম-তে একই কাজ করে। কোনও শ্রেণিবদ্ধকারী শেখার জন্য কি একই জাতীয় কৌশল রয়েছে যা নির্দিষ্ট প্রদত্ত পরীক্ষার সেটটিতে সেরা সম্পাদন করে? তারপরে আমরা এই পরীক্ষামূলক দৃশ্যে অনুমোদিত হিসাবে দেওয়া বিভিন্ন পরীক্ষার সেটগুলির জন্য শ্রেণিবদ্ধটিকে পুনরায় প্রশিক্ষণ করতে পারি।

উত্তর:


17

যদি পার্থক্যটি কেবল প্রশিক্ষণ ও পরীক্ষার সেটগুলিতে আপেক্ষিক শ্রেণির ফ্রিকোয়েন্সিগুলির মধ্যে থাকে তবে আমি এই কাগজে প্রবর্তিত EM পদ্ধতিটি সুপারিশ করব:

মার্কো সেরেন্স, প্যাট্রিস ল্যাটিন, ক্রিস্টিন ডেকেস্টেকার: ক্লাসিফায়ারের আউটপুটগুলিকে নতুন একটি প্রিওরির সম্ভাবনাগুলিতে সমন্বয় করা: একটি সরল পদ্ধতি। নিউরাল গণনা 14 (1): 21-41 (2002) ( www )

আমি নিজে এটি ব্যবহার করেছি এবং এটি খুব ভালভাবে কাজ করে দেখেছি (আপনার এমন শ্রেণিবদ্ধের প্রয়োজন যা বর্গের সদস্যপদ হওয়ার সম্ভাবনা খুঁজে দেয়)।

যদি প্রতিটি শ্রেণীর মধ্যে নিদর্শনগুলির বিতরণ পরিবর্তিত হয়, তবে সমস্যাটি "কোভারিয়েট শিফট" হিসাবে পরিচিত এবং সুগিমা এবং কাওয়ানাবে একটি দুর্দান্ত বই রয়েছে । এই গ্রুপের অনেকগুলি কাগজপত্র অনলাইনে উপলব্ধ, তবে আপনি যদি অনুলিপি পেতে পারেন তবে আমি দৃ strongly়ভাবে বইটি পড়ার সুপারিশ করব। প্রাথমিক ধারণাটি প্রশিক্ষণ সেট এবং পরীক্ষার সেট (যার জন্য লেবেলের প্রয়োজন হয় না) এর মধ্যে ঘনত্বের পার্থক্য অনুযায়ী প্রশিক্ষণের ডেটা ওজন করা। ওয়েটিংয়ের সহজ উপায় হ'ল লজিস্টিক রিগ্রেশন ব্যবহার করে অনুমান করা যে প্রশিক্ষণ সেট বা পরীক্ষার সেট থেকে কোনও প্যাটার্ন আঁকা আছে কিনা ict কতটুকু ওজন প্রয়োগ করতে হবে তা বেছে নেওয়াই কঠিন অংশ।

অ্যালেক্স স্মোলার সুন্দর ব্লগ পোস্টটিও এখানে দেখুন


অনেক সহায়ক পয়েন্টার সরবরাহের জন্য আপনাকে অনেক ধন্যবাদ!
ফ্যাস্যাণ্ডজ

কোনও সমস্যা নেই, এই ধরণের "অ-মানক" পরিস্থিতি সত্যই আকর্ষণীয় এবং কোভেরিয়েট শিফট গবেষণার একটি বিশেষ দরকারী ক্ষেত্র।
ডিকরান মার্শুপিয়াল

1
জেনে ভালো লাগলো. "অ-মানক" হলেও বাস্তবে এটি বাস্তবসম্মত।
ফ্যাস্যাঞ্জেজ

1

আমি ডোমেন অভিযোজন সম্পর্কে একটি দুর্দান্ত টিউটোরিয়াল পেয়েছি যা এটি আরও বিশদে ব্যাখ্যা করতে সহায়তা করে: http://sifaka.cs.uiuc.edu/jiang4/domain_adaptation/survey/da_survey.html এখানে যে সমাধানটির উল্লেখ করা হয়নি তা ভিত্তিক ADABOOST এ। মূল নিবন্ধটির লিঙ্কটি এখানে: http://ftp.cse.ust.hk/~qyang/Docs/2007/tradaboost.pdf প্রাথমিক ধারণাটি হ'ল ট্রেনের ডেটা থেকে শেখার আপডেট করার জন্য কয়েকটি নতুন পরীক্ষার ডেটা ব্যবহার করা এই নিবন্ধটি স্থানান্তর শেখার বিষয়ে আইসবার্গের মূল কথা - যেখানে আপনি একটি কাজ থেকে যা জানেন তা নিয়ে যান এবং এটি অন্য কোনওটিতে প্রয়োগ করেন।


1
লিঙ্কটি মারা যাওয়ার বা তার অবস্থান পরিবর্তনের ক্ষেত্রে বিশেষভাবে প্রথম টিউটোরিয়াল থেকে কিছু মূল সংক্ষিপ্ত পয়েন্ট আপনি অন্তর্ভুক্ত করতে পারেন? আমাদের এখানে "লিঙ্ক পচা" নিয়ে সমস্যা আছে যেখানে লিঙ্কগুলি কাজ বন্ধ করে দেওয়ার কারণে আমাদের কিছু পুরানো উত্তরের মান হ্রাস পেয়েছে, সুতরাং উত্তরগুলি যতটা সম্ভব স্বতঃসংশ্লিষ্ট হতে পারে যদি তা চমৎকার
সিলভারফিশ

এখানে একটি সংরক্ষণাগারযুক্ত লিঙ্কটি রয়েছে: web.archive.org/web/20170930145238/http://sifaka.cs.uiuc.edu/…
জাস্টাস
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.