একটি বিরল প্রশিক্ষণ সেট কি কোনও এসভিএমকে বিরূপ প্রভাবিত করে?

আমি একটি এসভিএম ব্যবহার করে বার্তাগুলিকে বিভিন্ন বিভাগে শ্রেণিবদ্ধ করার চেষ্টা করছি। আমি প্রশিক্ষণের সেট থেকে পছন্দসই শব্দ / প্রতীকগুলির একটি তালিকা তৈরি করেছি।

প্রতিটি ভেক্টরের জন্য, যা একটি বার্তা উপস্থাপন করে, আমি 1শব্দটি উপস্থিত থাকলে সংশ্লিষ্ট সারিটি সেট করে রেখেছি :

"কর্পাস" হ'ল: [মেরি, ছোট, ভেড়া, তারকা, পলক]

প্রথম বার্তা: "মেরিতে একটি ছোট মেষশাবক ছিল" -> [1 1 1 0 0]

দ্বিতীয় বার্তা: "টুইঙ্কল লিটল স্টার" -> [0 1 0 1 1]

আমি মনে করি এটি এসভিএমের সাথে মোটামুটি সাধারণ সেটআপ, তবে আমার প্রশ্নটি হ'ল সেটে হাজার হাজার শব্দ সহ, যদি বার্তাটিতে কেবল 1-2 টি শব্দ থাকে যা আসলে প্রদর্শিত হয়? আমার প্রশিক্ষণ ভেক্টরগুলির সেটের লিনিয়ার নির্ভরতা কি রূপান্তরিত করার জন্য অ্যালগরিদমের ক্ষমতাকে বিরূপ প্রভাবিত করবে?

classification svm sparse

— jonsca
সূত্র

আপনার কাছে কি প্রচুর ডেটা, তবে সামান্য লেবেলযুক্ত ডেটা রয়েছে? যদি তাই হয় তবে আপনি আধা তত্ত্বাবধানে পড়াশুনা করতে চান। আপনার লেবেলযুক্ত কিছু ডেটা ব্যবহার করা উভয়ই আপনার যথার্থতা বাড়িয়ে তুলবে এবং অতিরিক্ত চাপের ঝুঁকি হ্রাস করবে।

— নিউরন

@ নিউরন আমি এটি করার কথা ভেবেছিলাম অর্ধ-তত্ত্বাবধানের স্থাপত্যের উদাহরণ কী?

— jonsca

আমি কেবলমাত্র আধা-তত্ত্বাবধানের "হ্যাকিশ" পদ্ধতিগুলি ব্যবহার করেছি (ট্রেনিংসেটে ওরফে ট্রেনের মডেল, ডেটা সম্পর্কে পূর্বাভাস দেওয়ার জন্য মডেল ব্যবহার করুন,> 0.5 এর পূর্বাভাস সম্ভাব্যতা সহ সমস্ত ডেটা টানুন এবং ট্রেনিংসেটের সাথে একীভূত করুন, এবং নতুন প্রশিক্ষণসেটে মোল তৈরি করুন)। তবে আমি ফ্লেক্সিমিক্স কয়েকটি জায়গার উল্লেখ দেখেছি ( cran.r-project.org/web/packages/flexmix দেখুন )

— নিউরন

@ নিউরন ওকে, ভাল, কারণ আমি যে নিবন্ধগুলি দেখেছি (দ্রুত উইকিপিডিয়া জাতীয় সন্ধানের পরেও) স্থাপত্য সম্পর্কে খুব নির্দিষ্ট ছিল না। আমি চেক আউট করব flexmix- যদিও, আমি কয়েক বছর ধরে আমার ক্যালেন্ডারে "শিখি" পেয়েছি!

— jonsca

এটি করুন, আর আশ্চর্যজনক, আপনার কাছে যে লাইব্রেরিগুলি উপলভ্য হয়ে উঠেছে সেগুলি কেবল বগল mind ক্যারেট, স্ক্যালডিএফ / আরএমএসকিএল, ফোরচ (সমান্তরাল), জিজিপ্লট 2 এবং গুগলভিসের মতো জিনিসগুলি কেবল আশ্চর্যরকম সাহায্যকারী সরঞ্জাম। আমি প্রথমে ভাষার অনুরাগী নই, তবে এটি আমার উপরে বেড়েছে এবং আমি এখন এটি ব্যবহার করতে পছন্দ করি।

— নিউরন

স্পারসিটি এবং লিনিয়ার নির্ভরতা দুটি পৃথক জিনিস। লিনিয়ার নির্ভরতা বোঝায় যে কিছু বৈশিষ্ট্য ভেক্টরগুলি অন্যান্য বৈশিষ্ট্য ভেক্টরগুলির (বা উদাহরণগুলিতে একই প্রয়োগ করা হয়) এর সাধারণ গুণক। আপনি যে সেটআপটি বর্ণনা করেছেন সেটাকে আমি মনে করি লিনিয়ার নির্ভরতা অসম্ভব (এটি ইঙ্গিত দেয় যে সমস্ত ডকুমেন্ট জুড়ে দুটি শর্ত একই ফ্রিকোয়েন্সি (বা এর বহুগুণ))। কেবল বিরল বৈশিষ্ট্যগুলি থাকা এসভিএমের জন্য কোনও সমস্যা উপস্থিত করে না। এটি দেখার একটি উপায় হ'ল আপনি সমন্বিত অক্ষগুলির একটি এলোমেলো ঘূর্ণন করতে পারবেন, যা সমস্যাটি অপরিবর্তিত রেখে একই সমাধান দেবে, তবে ডেটা সম্পূর্ণ অ-বিচ্ছিন্ন করে তুলবে (এটি এলোমেলোভাবে অনুমানগুলি কীভাবে কাজ করে তা এই অংশে রয়েছে) )।

এছাড়াও দেখে মনে হচ্ছে আপনি যে SVM বিষয়ে কথা হয় আদিম । মনে রাখবেন যে আপনি যদি কার্নেল এসভিএম ব্যবহার করেন, কেবল আপনার কাছে একটি স্পর্শযুক্ত ডেটাসেটের অর্থ এই নয় যে কার্নেল ম্যাট্রিক্স বিচ্ছিন্ন হবে। এটি তবে নিম্ন স্তরের হতে পারে। সেক্ষেত্রে আপনি আরও দক্ষ প্রশিক্ষণের জন্য প্রকৃতপক্ষে এই সত্যটির সুবিধা নিতে পারেন (উদাহরণস্বরূপ নিম্ন স্তরের কার্নেলের উপস্থাপনা ব্যবহার করে দক্ষ এসএমএম প্রশিক্ষণ দেখুন )।

— TDC
সূত্র

সত্য, আমি আমার পরিভাষাটি নিয়ে কিছুটা দ্রুত এবং শিথিল ছিলাম। বোধ হয়।

— জোনস্কা