ভেক্টর মেশিনকে কি বড় ডেটাতে ব্যবহার করা যায়?


13

আমার এসভিএম-তে সীমিত জ্ঞানের সাহায্যে এটি একটি স্বল্প ও ফ্যাটযুক্ত ডেটা ম্যাট্রিক্স , (প্রচুর বৈশিষ্ট্য এবং খুব বেশি উদাহরণ নয়) এর জন্য ভাল তবে বড় ডেটার জন্য নয়।X

আমি বুঝতে পারি এর একটি কারণ হ'ল কার্নেল ম্যাট্রিক্স হ'ল n mat n ম্যাট্রিক্স যেখানে, এন ডেটাতে উদাহরণের সংখ্যা। যদি আমরা বলি, 100 কে ডেটা, কার্নেল ম্যাট্রিক্স কেতে 10 10 টি উপাদান থাকবে এবং এটি and 80G স্মৃতি নিতে পারে।Kn×nnK1010

এসভিএমের এমন কোনও পরিবর্তন রয়েছে যা বড় ডেটাতে ব্যবহার করা যায়? (100K থেকে 1M ডেটা পয়েন্টের স্কেল বলুন?)


আপনি যদি কেবল "বড় ডেটা" ছাড়াই এসভিএমের উদ্দেশ্য আলোচনা করেন তবে এটি সম্ভাব্য উত্তরদাতাদের সহায়তা করবে। এটি বলেছিল এবং আপনার ক্যোয়ারী সম্পর্কে অন্য কিছু জেনেও কোনও কারণ আছে যে কোনও এসভিএমকে বিভাজনে ভাগ করে অ্যালগরিদমকে জয় করতে পারে না?
মাইক হান্টার

আপনি কী জন্য এসভিএম ব্যবহার করছেন? আপনি একটি বিকল্প পদ্ধতি ব্যবহার করতে পারেন?
tom

উত্তর:


12

যেমনটি আপনি উল্লেখ করেছেন, কার্নেল ম্যাট্রিক্স সংরক্ষণের জন্য মেমরির দরকার যা ডেটার পয়েন্টের সংখ্যার সাথে চতুর্ভুজ স্কেল করে। Traditionalতিহ্যগত এসভিএম অ্যালগরিদমগুলির প্রশিক্ষণের সময়ও ডেটা পয়েন্টের সংখ্যার সাথে দুর্দান্তভাবে স্কেল করে। সুতরাং, এই অ্যালগরিদমগুলি বড় ডেটা সেটগুলির জন্য কার্যকর নয়।

KijxixjKij=Φ(xi)Φ(xj)Φকার্নেল ফাংশন দ্বারা স্পষ্টভাবে সংজ্ঞায়িত করা হয়েছে, এবং কার্নেলাইজড এসভিএমগুলি স্পষ্টভাবে বৈশিষ্ট্য স্থান উপস্থাপনা গণনা করে না। এটি ক্ষুদ্র থেকে মাঝারি আকারের ডেটাসেটের জন্য গুণগতভাবে দক্ষ, কারণ বৈশিষ্ট্যের স্থানটি খুব উচ্চ মাত্রিক, এমনকি সীমাহীন মাত্রিকও হতে পারে। তবে উপরে হিসাবে, এটি বড় ডেটাসেটগুলির জন্য অপরিবর্তনীয়। পরিবর্তে, আমরা স্পষ্টরূপে ডেটাটিকে অনৈখিকভাবে ফিচার স্পেসে ম্যাপ করতে পারি, তারপরে বৈশিষ্ট্য স্পেসের উপস্থাপনাগুলিতে একটি লিনিয়ার এসভিএমকে দক্ষতার সাথে প্রশিক্ষণ দিতে পারি। বৈশিষ্ট্য স্পেস ম্যাপিং একটি প্রদত্ত কার্নেল ফাংশন আনুমানিকভাবে নির্মিত যেতে পারে, তবে 'পূর্ণ' বৈশিষ্ট্য স্পেস ম্যাপিংয়ের চেয়ে কম মাত্রা ব্যবহার করে। বড় ডেটাসেটের জন্য এটি এখনও আমাদের সমৃদ্ধ বৈশিষ্ট্যযুক্ত স্থানের উপস্থাপনা দিতে পারে তবে ডেটা পয়েন্টের চেয়ে অনেক কম মাত্রা সহ।

কার্নেল আনুমানিককরণের একটি পদ্ধতির মধ্যে ন্যাস্ট্রোম আনুমানিকতা ব্যবহার করা হয় (উইলিয়ামস এবং সিগার 2001)। এটি একটি ছোট সাবম্যাট্রিক্স ব্যবহার করে বড় ম্যাট্রিক্সের ইগেনভ্যালু / ইগেনভেেক্টরগুলিকে আনুমানিক করার একটি উপায়। অন্য পদ্ধতির এলোমেলো বৈশিষ্ট্য ব্যবহার করা হয়, এবং এটি 'র্যান্ডম রান্নাঘর সিংক' নামে পরিচিত (রহিমি এবং রেচ্ট 2007)।

বড় ডেটাসেটগুলিতে এসভিএমগুলিকে প্রশিক্ষণের জন্য আরেকটি কৌশলটি হল ছোট সাব-প্রবলেমের একটি সেটের সাথে অপ্টিমাইজেশান সমস্যাটি অনুমান করা। উদাহরণস্বরূপ, প্রাথমিক সমস্যার উপর স্টোকাস্টিক গ্রেডিয়েন্ট বংশোদ্ভূত ব্যবহার হ'ল একটি পদ্ধতির (অনেকের মধ্যে)। অপ্টিমাইজেশন ফ্রন্টে অনেক কাজ করা হয়েছে। মেনন (২০০৯) একটি ভাল সমীক্ষা দেয়।

তথ্যসূত্র

উইলিয়ামস এবং সিগার (2001)। কার্নেল মেশিনগুলির গতি বাড়ানোর জন্য Nystroem পদ্ধতি ব্যবহার করে।

রহিমি এবং রেচেট (2007)। বড় আকারের কার্নেল মেশিনগুলির জন্য এলোমেলো বৈশিষ্ট্য।

মেনন (2009) । বড় আকারের সমর্থন ভেক্টর মেশিন: অ্যালগরিদম এবং তত্ত্ব।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.