আমি একটি এসভিএম ব্যবহার করে বার্তাগুলিকে বিভিন্ন বিভাগে শ্রেণিবদ্ধ করার চেষ্টা করছি। আমি প্রশিক্ষণের সেট থেকে পছন্দসই শব্দ / প্রতীকগুলির একটি তালিকা তৈরি করেছি।
প্রতিটি ভেক্টরের জন্য, যা একটি বার্তা উপস্থাপন করে, আমি 1
শব্দটি উপস্থিত থাকলে সংশ্লিষ্ট সারিটি সেট করে রেখেছি :
"কর্পাস" হ'ল: [মেরি, ছোট, ভেড়া, তারকা, পলক]
প্রথম বার্তা: "মেরিতে একটি ছোট মেষশাবক ছিল" -> [1 1 1 0 0]
দ্বিতীয় বার্তা: "টুইঙ্কল লিটল স্টার" -> [0 1 0 1 1]
আমি মনে করি এটি এসভিএমের সাথে মোটামুটি সাধারণ সেটআপ, তবে আমার প্রশ্নটি হ'ল সেটে হাজার হাজার শব্দ সহ, যদি বার্তাটিতে কেবল 1-2 টি শব্দ থাকে যা আসলে প্রদর্শিত হয়? আমার প্রশিক্ষণ ভেক্টরগুলির সেটের লিনিয়ার নির্ভরতা কি রূপান্তরিত করার জন্য অ্যালগরিদমের ক্ষমতাকে বিরূপ প্রভাবিত করবে?
flexmix
- যদিও, আমি কয়েক বছর ধরে আমার ক্যালেন্ডারে "শিখি" পেয়েছি!