ভেক্টর মেশিনকে কি বড় ডেটাতে ব্যবহার করা যায়?

আমার এসভিএম-তে সীমিত জ্ঞানের সাহায্যে এটি একটি স্বল্প ও ফ্যাটযুক্ত ডেটা ম্যাট্রিক্স , (প্রচুর বৈশিষ্ট্য এবং খুব বেশি উদাহরণ নয়) এর জন্য ভাল তবে বড় ডেটার জন্য নয়। $X$

আমি বুঝতে পারি এর একটি কারণ হ'ল কার্নেল ম্যাট্রিক্স হ'ল ম্যাট্রিক্স যেখানে, ডেটাতে উদাহরণের সংখ্যা। যদি আমরা বলি, 100 কে ডেটা, কার্নেল ম্যাট্রিক্স উপাদান থাকবে এবং এটি and 80G স্মৃতি নিতে পারে। $K$ $n \times n$ $n$ $K$ $10^{10}$

এসভিএমের এমন কোনও পরিবর্তন রয়েছে যা বড় ডেটাতে ব্যবহার করা যায়? (100K থেকে 1M ডেটা পয়েন্টের স্কেল বলুন?)

machine-learning svm large-data

— হাইতাও ডু
সূত্র

আপনি যদি কেবল "বড় ডেটা" ছাড়াই এসভিএমের উদ্দেশ্য আলোচনা করেন তবে এটি সম্ভাব্য উত্তরদাতাদের সহায়তা করবে। এটি বলেছিল এবং আপনার ক্যোয়ারী সম্পর্কে অন্য কিছু জেনেও কোনও কারণ আছে যে কোনও এসভিএমকে বিভাজনে ভাগ করে অ্যালগরিদমকে জয় করতে পারে না?

— মাইক হান্টার

আপনি কী জন্য এসভিএম ব্যবহার করছেন? আপনি একটি বিকল্প পদ্ধতি ব্যবহার করতে পারেন?

— tom

যেমনটি আপনি উল্লেখ করেছেন, কার্নেল ম্যাট্রিক্স সংরক্ষণের জন্য মেমরির দরকার যা ডেটার পয়েন্টের সংখ্যার সাথে চতুর্ভুজ স্কেল করে। Traditionalতিহ্যগত এসভিএম অ্যালগরিদমগুলির প্রশিক্ষণের সময়ও ডেটা পয়েন্টের সংখ্যার সাথে দুর্দান্তভাবে স্কেল করে। সুতরাং, এই অ্যালগরিদমগুলি বড় ডেটা সেটগুলির জন্য কার্যকর নয়।

$K_{ij}$ $x_i$ $x_j$ $K_{ij} = \Phi(x_i) \cdot \Phi(x_j)$ $\Phi$ কার্নেল ফাংশন দ্বারা স্পষ্টভাবে সংজ্ঞায়িত করা হয়েছে, এবং কার্নেলাইজড এসভিএমগুলি স্পষ্টভাবে বৈশিষ্ট্য স্থান উপস্থাপনা গণনা করে না। এটি ক্ষুদ্র থেকে মাঝারি আকারের ডেটাসেটের জন্য গুণগতভাবে দক্ষ, কারণ বৈশিষ্ট্যের স্থানটি খুব উচ্চ মাত্রিক, এমনকি সীমাহীন মাত্রিকও হতে পারে। তবে উপরে হিসাবে, এটি বড় ডেটাসেটগুলির জন্য অপরিবর্তনীয়। পরিবর্তে, আমরা স্পষ্টরূপে ডেটাটিকে অনৈখিকভাবে ফিচার স্পেসে ম্যাপ করতে পারি, তারপরে বৈশিষ্ট্য স্পেসের উপস্থাপনাগুলিতে একটি লিনিয়ার এসভিএমকে দক্ষতার সাথে প্রশিক্ষণ দিতে পারি। বৈশিষ্ট্য স্পেস ম্যাপিং একটি প্রদত্ত কার্নেল ফাংশন আনুমানিকভাবে নির্মিত যেতে পারে, তবে 'পূর্ণ' বৈশিষ্ট্য স্পেস ম্যাপিংয়ের চেয়ে কম মাত্রা ব্যবহার করে। বড় ডেটাসেটের জন্য এটি এখনও আমাদের সমৃদ্ধ বৈশিষ্ট্যযুক্ত স্থানের উপস্থাপনা দিতে পারে তবে ডেটা পয়েন্টের চেয়ে অনেক কম মাত্রা সহ।

কার্নেল আনুমানিককরণের একটি পদ্ধতির মধ্যে ন্যাস্ট্রোম আনুমানিকতা ব্যবহার করা হয় (উইলিয়ামস এবং সিগার 2001)। এটি একটি ছোট সাবম্যাট্রিক্স ব্যবহার করে বড় ম্যাট্রিক্সের ইগেনভ্যালু / ইগেনভেেক্টরগুলিকে আনুমানিক করার একটি উপায়। অন্য পদ্ধতির এলোমেলো বৈশিষ্ট্য ব্যবহার করা হয়, এবং এটি 'র্যান্ডম রান্নাঘর সিংক' নামে পরিচিত (রহিমি এবং রেচ্ট 2007)।

বড় ডেটাসেটগুলিতে এসভিএমগুলিকে প্রশিক্ষণের জন্য আরেকটি কৌশলটি হল ছোট সাব-প্রবলেমের একটি সেটের সাথে অপ্টিমাইজেশান সমস্যাটি অনুমান করা। উদাহরণস্বরূপ, প্রাথমিক সমস্যার উপর স্টোকাস্টিক গ্রেডিয়েন্ট বংশোদ্ভূত ব্যবহার হ'ল একটি পদ্ধতির (অনেকের মধ্যে)। অপ্টিমাইজেশন ফ্রন্টে অনেক কাজ করা হয়েছে। মেনন (২০০৯) একটি ভাল সমীক্ষা দেয়।

তথ্যসূত্র

উইলিয়ামস এবং সিগার (2001)। কার্নেল মেশিনগুলির গতি বাড়ানোর জন্য Nystroem পদ্ধতি ব্যবহার করে।

রহিমি এবং রেচেট (2007)। বড় আকারের কার্নেল মেশিনগুলির জন্য এলোমেলো বৈশিষ্ট্য।

মেনন (2009) । বড় আকারের সমর্থন ভেক্টর মেশিন: অ্যালগরিদম এবং তত্ত্ব।

— user20160
সূত্র