কোন এসভিএম কার্নেলটি বাইনারি শ্রেণিবদ্ধকরণ সমস্যার জন্য ব্যবহার করবেন?


9

যখন ভেক্টর মেশিনগুলির সমর্থন করার কথা আসে তখন আমি একজন শিক্ষানবিস। কিছু নির্দেশিকা রয়েছে যা বলছে যে কোনও কার্নেল (যেমন লিনিয়ার, বহুপদী) একটি নির্দিষ্ট সমস্যার জন্য সবচেয়ে উপযুক্ত? আমার ক্ষেত্রে, ওয়েবপৃষ্ঠাগুলিতে তাদের নির্দিষ্ট কিছু তথ্য রয়েছে কিনা তা অনুসারে শ্রেণিবদ্ধ করতে হবে, অর্থাৎ আমার বাইনারি শ্রেণিবদ্ধার সমস্যা আছে।

আপনি কি সাধারণভাবে বলতে পারবেন কোন কাজের জন্য কার্নেলটি সবচেয়ে উপযুক্ত? বা আমার সুনির্দিষ্ট ডেটাসেটে সেরাটি সন্ধান করার জন্য কি তাদের বেশ কয়েকটি চেষ্টা করতে হবে? যাইহোক, আমি পাইথন গ্রন্থাগারটি সাইকিট-লার্ন ব্যবহার করছি যা libSVM লাইব্রেরিটি ব্যবহার করে।


আপনি কীভাবে আপনার ওয়েবপৃষ্ঠাগুলি উপস্থাপন করছেন? শব্দের ব্যাগ? কার্নেলের পছন্দ নির্ভর করে আপনার ইনপুট স্পেসে থাকা অনুরূপতা পরিমাপের উপর।
স্মরণ করা হচ্ছে

@ স্মরণ হ্যাঁ, আমি ব্যাগ-অফ-শব্দ উপস্থাপনা ব্যবহার করছি using মিলটি পরিমাপের দ্বারা আপনি ঠিক কী বোঝাতে চান? কোনও ওয়েবপৃষ্ঠায় কিছু নির্দিষ্ট ধরণের তথ্য রয়েছে কিনা তা আমি তদন্ত করছি।
পেমিস্টাহল

যদি আপনি এটি ইতিমধ্যে সংযোগ না করা (আপনি এই টিউটোরিয়াল কাজে লাগতে পারে csie.ntu.edu.tw/~cjlin/papers/guide/guide.pdf )। মডেল এবং মডেল পরামিতিগুলির মধ্যে চয়ন করতে Libsvm এর একটি বিল্ট-ইন কে-ফোল্ড ক্রস বৈধকরণ স্কিম রয়েছে।
জোড়ান

@ পিটারস্টাহল এছাড়াও, আপনি কোন শ্রেণীর সীমানা আশা করবেন তার উপরও এটি নির্ভর করে। ব্যাগ-অফ-শব্দের স্থান নিয়ে আমার অভিজ্ঞতা নেই, তাই আমি আপনাকে খুব বেশি সহায়তা করতে পারি না।
22

উত্তর:


10

আপনি সাহিত্যের একটি উন্মুক্ত প্রশ্নের কিছুতে আসলে আঘাত করেছেন। আপনি যেমনটি বলেছেন, এখানে বিভিন্ন ধরণের কার্নেল রয়েছে (যেমন, লিনিয়ার, রেডিয়াল ভিত্তিক ফাংশন, সিগময়েড, বহুপদী) এবং তাদের সম্পর্কিত সমীকরণ দ্বারা সংজ্ঞায়িত স্থানে আপনার শ্রেণিবিন্যাস কার্য সম্পাদন করবে। আমার জ্ঞান অনুসারে, কেউই নিশ্চিতভাবে দেখায় নি যে একটি কার্নেল সর্বদা এক প্রকারের তুলনায় অন্য প্রকারের পাঠ্য শ্রেণিবিন্যাসের কার্য সম্পাদন করে।

একটি বিষয় বিবেচনা করতে হবে তা হ'ল প্রতিটি কার্নেল ফাংশনটিতে 1 বা ততোধিক প্যারামিটার রয়েছে যা আপনার ডেটা সেটের জন্য অনুকূলিত হওয়া প্রয়োজন, যার অর্থ, আপনি যদি এটি সঠিকভাবে করেন তবে আপনার দ্বিতীয় হোল্ড-আউট প্রশিক্ষণ সংগ্রহ করা উচিত যার উপর আপনি পারেন এই পরামিতিগুলির জন্য সর্বোত্তম মানগুলি তদন্ত করুন। (আমি দ্বিতীয় হোল্ড-আউট সংগ্রহটি বলি, কারণ আপনার শ্রেণিবদ্ধের জন্য সেরা ইনপুট বৈশিষ্ট্যগুলি বের করার জন্য আপনার ইতিমধ্যে একটি ব্যবহার করা উচিত)) কিছুক্ষণ আগে আমি একটি পরীক্ষা করেছি যাতে আমি প্রতিটিটির একটি বৃহত আকারের অপ্টিমাইজেশন করেছি একটি সাধারণ পাঠ্যগত শ্রেণিবদ্ধকরণ কার্যের জন্য এই পরামিতিগুলি খুঁজে পাওয়া যায় যে প্রতিটি কার্নেল যুক্তিসঙ্গতভাবে ভাল সঞ্চালনের জন্য উপস্থিত হয়েছিল, তবে এটি বিভিন্ন কনফিগারেশনে করেছে। যদি আমি আমার ফলাফলগুলি সঠিকভাবে মনে রাখি, সিগময়েড সেরাটি সম্পাদন করে তবে খুব নির্দিষ্ট প্যারামিটার টিউনিংগুলিতে তা করে - যা আমার মেশিনটি খুঁজে পেতে আমাকে এক মাস সময় লেগেছিল।


আপনার চিন্তাভাবনার জন্য আপনাকে অনেক ধন্যবাদ। আমার দেরী প্রতিক্রিয়া জন্য দুঃখিত। আমি এই মুহুর্তে আমার মাস্টার থিসিসটি লিখছি যার জন্য আমাকে কেবল এসভিএম নয়, বেশ কয়েকটি শ্রেণিবদ্ধের জন্য ফলাফলগুলি মূল্যায়ন করতে হবে। দুর্ভাগ্যক্রমে, আমার কাছে অনেকগুলি প্যারামিটার সংমিশ্রণগুলি পরীক্ষা করার সময় নেই। এজন্য আমি সম্ভবত লিনিয়ার কার্নেলের সাথে লেগে থাকব।
pemistahl

শুভকামনা! আমি মনে করি এটি একটি ভাল কল।
কাইল

7

গাউসির কর্নেলটি চেষ্টা করুন।

গাউসিয়ান কার্নেলটি প্রায়শই প্রথমে চেষ্টা করা হয় এবং অনেক অ্যাপ্লিকেশনের মধ্যে সেরা কার্নেল হিসাবে পরিণত হয় (আপনার ব্যাগ অফ শব্দের বৈশিষ্ট্যগুলিও)। আপনার লিনিয়ার কার্নেলটিও চেষ্টা করা উচিত। এটির ভাল ফলাফল দেওয়ার আশা করবেন না, পাঠ্য-শ্রেণিবদ্ধকরণের সমস্যাগুলি লিনিয়ার হতে থাকে। তবে এটি আপনাকে আপনার ডেটার জন্য অনুভূতি দেয় এবং অ-লিনিয়ারিটি আপনার ফলাফলকে কতটা উন্নত করে তা সম্পর্কে আপনি খুশি হতে পারেন।

নিশ্চিত হয়ে নিন যে আপনি আপনার কার্নেল-প্রস্থকে যথাযথভাবে বৈধ করেছেন এবং কীভাবে আপনার বৈশিষ্ট্যগুলি (টিএফ-আইডিএফ ইত্যাদি) সাধারণ করতে চান সে সম্পর্কে চিন্তাভাবনা করুন।

আমি বলব যে আপনি আলাদা কার্নেল বেছে নেওয়ার চেয়ে বেশি (যেমন গাউসিয়ান নয়) এর চেয়ে আরও ভাল বৈশিষ্ট্য স্বাভাবিককরণের মাধ্যমে আপনার ফলাফলগুলি উন্নত করতে পারেন।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.