কার্নেল পদ্ধতিগুলির সীমাবদ্ধতাগুলি কী এবং কখন কার্নেল পদ্ধতি ব্যবহার করা উচিত?


10

তত্ত্বাবধানের পদ্ধতিগুলি অনেক তত্ত্বাবধানে শ্রেণিবদ্ধকরণ কার্যগুলিতে খুব কার্যকর। সুতরাং কার্নেল পদ্ধতিগুলির সীমাবদ্ধতাগুলি কী এবং কখন কার্নেল পদ্ধতি ব্যবহার করা উচিত? বিশেষত বৃহত আকারের ডেটা যুগে কার্নেল পদ্ধতির অগ্রগতি কী? কার্নেল পদ্ধতি এবং একাধিক উদাহরণ শেখার মধ্যে পার্থক্য কী? যদি ডেটা হয় 500x10000, 500নমুনাগুলির গণনা 10000কি এবং প্রতিটি বৈশিষ্ট্যের মাত্রা হয়, তবে এই পরিস্থিতিতে আমরা কী কার্নেল পদ্ধতি ব্যবহার করতে পারি?

উত্তর:


16

তদারক করা এবং নিরীক্ষণযোগ্য সমস্যার জন্য কার্নেল পদ্ধতিগুলি ব্যবহার করা যেতে পারে। সুপরিচিত উদাহরণগুলি যথাক্রমে সমর্থন ভেক্টর মেশিন এবং কার্নেল বর্ণালী ক্লাস্টারিং

কার্নেল পদ্ধতিগুলি রুপান্তরিত বৈশিষ্ট্য ব্যবস্থায় রৈখিক অ্যালগরিদম ব্যবহারের জন্য একটি কাঠামোগত উপায় সরবরাহ করে, যার জন্য রূপান্তরটি সাধারণত অরেখানের (এবং একটি উচ্চতর মাত্রিক স্থান) হয়। এই তথাকথিত কার্নেল ট্রিকটি কী কী সুবিধা নিয়ে আসে তা হ'ল ননলাইনার প্যাটার্নগুলি একটি যুক্তিসঙ্গত গণনা মূল্যে পাওয়া যাবে ।

নোট করুন যে আমি বলেছিলাম যে গণনা ব্যয় যুক্তিসঙ্গত, কিন্তু তুচ্ছ নয়। কার্নেল পদ্ধতিগুলি সাধারণত কার্নেল ম্যাট্রিক্স তৈরি করেKRN×N সঙ্গে Nপ্রশিক্ষণের উদাহরণ সংখ্যা। কার্নেল পদ্ধতির জটিলতা তাই ইনপুট মাত্রার সংখ্যার চেয়ে প্রশিক্ষণের ক্ষেত্রে সংখ্যার ফাংশন। সমর্থন ভেক্টর মেশিনগুলির উদাহরণস্বরূপ, এর মধ্যে একটি প্রশিক্ষণের জটিলতা রয়েছেO(N2) এবং O(N3)। খুব বড় সমস্যাগুলির জন্যNএই জটিলতাটি বর্তমানে নিষিদ্ধ।

মাত্রাগুলির সংখ্যা বড় এবং নমুনাগুলির সংখ্যা তুলনামূলকভাবে কম (বলুন, 1 মিলিয়নেরও কম) যখন এটি গণনার দিক থেকে কর্নেল পদ্ধতিগুলি খুব আকর্ষণীয় করে তোলে।

সম্পর্কিত: সমর্থন ভেক্টর মেশিনের জন্য লিনিয়ার কার্নেল এবং নন-লিনিয়ার কার্নেল?

বৃহত্তর স্কেল সমস্যার জন্য এসভিএম

জন্য খুব যেমন উচ্চ মাত্রিক সমস্যা, 10000মাত্রা আপনি প্রশ্নে উল্লেখ আছে, প্রায়ই একটি উচ্চ মাত্রিক বৈশিষ্ট্য স্থান ম্যাপ কোন প্রয়োজন নেই। ইনপুট স্থান ইতিমধ্যে যথেষ্ট ভাল। এই জাতীয় সমস্যার জন্য, লিনিয়ার পদ্ধতি হ'ল প্রায় একই প্রেডিকটিভ পারফরম্যান্স সহ দ্রুততার অর্ডার । এই পদ্ধতির উদাহরণগুলি লাইবলাইনআর বা ভোপাল ওয়াববিটে পাওয়া যাবে ।

লিনিয়ার পদ্ধতিগুলি বিশেষত আকর্ষণীয় যখন আপনার কাছে উচ্চ মাত্রিক ইনপুট স্পেসে অনেকগুলি নমুনা থাকে। যখন আপনি কেবল500 নমুনা, একটি ননলাইনার কার্নেল পদ্ধতি ব্যবহার করাও সস্তা হবে (যেহেতু Nছোট). যদি আপনার কাছে থাকে, বলুন,5.000.000 মধ্যে নমুনা 10.000 মাত্রা, কার্নেল পদ্ধতিগুলি অক্ষম হবে।

অনেক প্রশিক্ষণের উদাহরণ সহ নিম্ন-মাত্রিক সমস্যার জন্য (তথাকথিত বৃহত N ছোট pসমস্যা), লিনিয়ার পদ্ধতিগুলি খারাপ ভবিষ্যদ্বাণীমূলক নির্ভুলতা অর্জন করতে পারে। এই জাতীয় সমস্যার জন্য, এনসেম্বলএসভিএম এর মতো এনসেম্বল পদ্ধতিগুলি স্ট্যান্ডার্ড এসভিএমের তুলনায় উল্লেখযোগ্যভাবে হ্রাস করা গণনা ব্যয়ে ননলাইনারের সিদ্ধান্তের সীমানা সরবরাহ করে।


স্যার, এত বিস্তৃত উত্তরের জন্য অনেক ধন্যবাদ। আমি উচ্চ মাত্রার পরিস্থিতিতে খুঁজে পেয়েছি, আমি যদি RBFকার্নেলটি এর মধ্যে ব্যবহার করি তবে libsvmএটি সর্বদা উপযোগী, শ্রেণিবদ্ধকারী পরীক্ষার সংস্থায় একটি উচ্চ নির্ভুলতা তবে কম নির্ভুলতা অর্জন করে। এবং যদি আমি শ্রেণিবদ্ধের আগে মাত্রা হ্রাস করি, এবং হ্রাস মাত্রাগুলি প্রশিক্ষণের নমুনার সংখ্যার কাছাকাছি হয়, তবে শ্রেণিবদ্ধকারী প্রশিক্ষণ এবং পরীক্ষার সেটগুলির মধ্যে একটি ভাল লাভ অর্জন করতে পারে। ফলাফলগুলি কি সবচেয়ে পরীক্ষামূলক ফলাফলের সাথে খাপ খায়? ধন্যবাদ।
খনন

কার্নেল পদ্ধতিগুলি উচ্চ ইনপুট মাত্রিকতার বিরুদ্ধে যথেষ্ট শক্তিশালী। সাধারণত, তাদের ব্যবহারের আগে আপনাকে মাত্রিকতা হ্রাস করার দরকার নেই। সমস্ত পরামিতি টিউন করা খুব গুরুত্বপূর্ণ, বিশেষত gammaআরবিএফ কার্নেলের জন্য। এর জন্য সর্বোত্তম মান gammaইনপুট মাত্রার সংখ্যার সাথে সম্পর্কিত। সর্বাধিক সাধারণ টিউনিং পদ্ধতির ক্রস-বৈধতা। আপনি যদি gammaমাত্রা হ্রাস সহ এবং ছাড়াই একই মান ব্যবহার করেন তবে আপনি সম্ভবত কোনও ভুল করছেন।
মার্ক ক্লিসেন

জী জনাব. আমি সাধারণত ব্যবহার grid.pyমধ্যে libsvmপ্যাকেজ ক্রস বৈধতা না। এবং বেশিরভাগ পরিস্থিতিতে উচ্চ মাত্রার ডেটার জন্য gammaসর্বদা খুব ছোট, যেমন 0.00001,
খনন

হাই, স্যার, আমি আপনার ওপেন সোর্স প্রকল্পটি EnsembleSVMযাচাই করেছি, ক্রস-বৈধকরণ প্রক্রিয়াটি মাল্টিথ্রেডিং করার দরকার আছে কি? এবং আমি ভবিষ্যদ্বাণী পর্যায়ে মনে করি, ব্যাচ এবং মাল্টিথ্রেডিং বা মাল্টি মেশিনে বিশাল ডেটা পূর্বাভাস দেওয়া ভাল হবে?
খনন

Multithreading ব্যবহার EnsembleSVM ঐচ্ছিক, কিন্তু ডিফল্টরূপে সক্রিয় esvm-trainএবং esvm-predict। নিষ্ক্রিয় multithreading করার জন্য, সেই সরঞ্জাম নিম্নলিখিত পতাকা ব্যবহার করুন: -threads 1
মার্ক Claesen
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.