libsvm ডেটা ফর্ম্যাট [বন্ধ]


31

সমর্থন ভেক্টর শ্রেণিবিন্যাসের জন্য আমি libsvm ( http://www.csie.ntu.edu.tw/~cjlin/libsvm/ ) সরঞ্জামটি ব্যবহার করছি । যাইহোক, আমি ইনপুট ডেটা ফর্ম্যাট সম্পর্কে বিভ্রান্ত করছি।

পুনরায় পড়া থেকে:

প্রশিক্ষণ এবং ডেটা ফাইল পরীক্ষার বিন্যাসটি হ'ল:

<label> <index1>:<value1> <index2>:<value2> ...
.
.
.

প্রতিটি লাইনে একটি উদাহরণ থাকে এবং এটি একটি '\ n' অক্ষর দ্বারা শেষ হয়। শ্রেণিবিন্যাসের জন্য, <label>শ্রেণীর লেবেল নির্দেশকারী একটি পূর্ণসংখ্যা (বহু-শ্রেণি সমর্থিত)। রিগ্রেশন <label>জন্য, লক্ষ্য মান যা কোনও আসল সংখ্যা হতে পারে। এক-শ্রেণীর এসভিএমের জন্য, এটি ব্যবহার করা হয়নি তাই কোনও সংখ্যা হতে পারে। এই জুটিটি <index>:<value>একটি বৈশিষ্ট্য (বৈশিষ্ট্য) মান দেয়: <index>এটি পূর্ণসংখ্যা 1 থেকে শুরু হয় এবং <value> এটি একটি আসল সংখ্যা। একমাত্র ব্যতিক্রম হ'ল প্রাক্পম্পিউটেড কার্নেল, যেখানে <index>0 থেকে শুরু হয়; প্রাক্পম্পিউটেড কার্নেলের বিভাগটি দেখুন। সূচকগুলি অবশ্যই ক্রমযুক্ত ক্রমে থাকতে হবে। পরীক্ষার ফাইলে থাকা লেবেলগুলি কেবল নির্ভুলতা বা ত্রুটি গণনা করতে ব্যবহৃত হয়। যদি সেগুলি অজানা থাকে তবে কেবল প্রথম সংখ্যাটি যে কোনও সংখ্যায় পূরণ করুন।

আমার নিম্নলিখিত প্রশ্নগুলি রয়েছে:

  1. এর ব্যবহার কী <index>? এটা কি উদ্দেশ্য পরিবেশন করে?
  2. বিভিন্ন উপাত্ত উদাহরণগুলির একই সূচক মানগুলির মধ্যে কোনও চিঠিপত্র রয়েছে?
  3. এর মধ্যে যদি আমি কোনও সূচক মিস / এড়িয়ে যাই?

আমি জিজ্ঞাসা করছি কারণ ডাটাফাইল * হার্ট_স্কেল * যা libsvm এর প্যাকেজে অন্তর্ভুক্ত রয়েছে, লাইন 12 এ, সূচকটি 2 থেকে শুরু হয় <value>? সূচ 1 এর জন্য কি অজানা / নিখোঁজ হিসাবে নেওয়া হয়েছে? দ্রষ্টব্য: প্যাকেজের সাথে সরবরাহ করা সরঞ্জামগুলি / চেকডেটা.পিআই সরঞ্জামটি বলে যে * হার্ট_স্কেল * ফাইলটি সঠিক।

উত্তর:


23

এই লিঙ্কটিতে সহায়তা করা উচিত: http://www.csie.ntu.edu.tw/~cjlin/libsvm/faq.html#/Q3:_ ডেটা_প্রিপারেশন

এটি উল্লেখ করা হয়েছে যে ডেটাটি একটি বিচ্ছিন্ন অ্যারে / ম্যাট্রিক্স ফর্মে সঞ্চিত। মূলত, এর অর্থ শুধুমাত্র অ-শূন্য ডেটা সংরক্ষণ করা হয় এবং যে কোনও অনুপস্থিত ডেটা হোল্ডিংয়ের মান শূন্য হিসাবে নেওয়া হয়। আপনার প্রশ্নের জন্য:

ক) সূচি কেবল বৈশিষ্ট্য / পরামিতিগুলির মধ্যে পার্থক্য করার একটি উপায় হিসাবে কাজ করে। হাইপারস্পেসের নিরিখে এটি কেবল প্রতিটি উপাদানকে মনোনীত করে: উদাহরণস্বরূপ: 3-ডি (3 বৈশিষ্ট্য) সূচকগুলি 1,2,3 x, y, z স্থানাঙ্কের সাথে সামঞ্জস্য করবে।

খ) চিঠিপত্রটি নিছক গাণিতিক, হাইপার-প্লেন তৈরি করার সময় এগুলি স্থানাঙ্ক হিসাবে কাজ করে।

গ) আপনি যদি একটির মধ্যে ছেড়ে যান তবে এটি শূন্যের একটি ডিফল্ট মান নির্ধারণ করা উচিত।

সংক্ষেপে, +1 1: 0.7 2: 1 3: 1 এতে অনুবাদ করে:

বিন্দু +1, পয়েন্ট (0.7,1,1) এ নিয়োগ করুন।


4

কেবলমাত্র ছোট এবং দ্রুত গাইড:

LibSVM ফর্ম্যাটটির অর্থ হ'ল আপনার দস্তাবেজটি ইতিমধ্যে প্রাক-প্রক্রিয়াজাতকরণ করা দরকার। আপনার জানা দরকার যে কত শ্রেণিবদ্ধকরণ ক্লাস ব্যবহার করা হবে (সম্ভবত 2) এবং বৈশিষ্ট্য স্পেস।

শ্রেণিবদ্ধকরণ শ্রেণি সত্য / মিথ্যা জাতীয় কিছু; 0,1, ... এখানে আপনাকে এটি পূর্ণসংখ্যায় রূপান্তর করতে হবে (উদাঃ 0,1)।

বৈশিষ্ট্য স্থানটি আপনার বহুমাত্রিক ডেটার জন্য একটি স্থান। প্রতিটি ফিউচার (ভেক্টর) এর নিজস্ব আইডি (সূচক) এবং এর মান হওয়া উচিত। উদাহরণস্বরূপ 1: 23.2 এর অর্থ হল বৈশিষ্ট্য / মাত্রা 1 এর মান 23.2 রয়েছে

<label> <index1>:<value1> <index2>:<value2> ... <indexN>:<valueN>
...
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.