SIFT বৈশিষ্ট্য এবং এসভিএম ব্যবহার করে চিত্রের শ্রেণিবিন্যাস


12

আমি প্রত্যাশা করছি যে কেউ কীভাবে SIFT / SURF / ORB বৈশিষ্ট্য এবং একটি সমর্থন ভেক্টর মেশিন ব্যবহার করে চিত্রের শ্রেণিবিন্যাস করতে শব্দগুলির ব্যাগটি ব্যবহার করতে পারেন তা ব্যাখ্যা করতে পারেন?

এই মুহুর্তে আমি একটি চিত্রের জন্য SIFT বৈশিষ্ট্য ভেক্টরগুলি গণনা করতে পারি, এবং একটি এসভিএম বাস্তবায়ন করেছি, তবে কীভাবে SIFT বৈশিষ্ট্যগুলিকে 'ভেক্টর কোয়ান্টাইজ' করতে এবং হিস্টোগ্রামগুলি তৈরি করতে যেভাবে শব্দের মডেলের ব্যাগটি ব্যবহার করা হয় সে সম্পর্কে সাহিত্য বুঝতে অসুবিধা হচ্ছে am স্থির আকারের ভেক্টর, এটি এসভিএম প্রশিক্ষণ এবং পরীক্ষা করতে ব্যবহৃত হতে পারে।

বিষয়টিতে টিউটোরিয়াল বা সাহিত্যের যে কোনও লিঙ্ক স্বাগত, ধন্যবাদ

উত্তর:


16

আপনি যদি কোনও এসভিএম বাস্তবায়ন করতে পারেন তবে আপনি বৈশিষ্ট্যগুলিকে পরিমাণ দিতে পারেন। :)

সাধারণত বৈশিষ্ট্যগুলি কে-মানে ক্লাস্টারিং ব্যবহার করে কোয়ান্টাইজ করা হয়। প্রথমে আপনি সিদ্ধান্ত নিন যে আপনার "শব্দভান্ডার আকার" কী হওয়া উচিত (200 "ভিজ্যুয়াল শব্দগুলি বলুন") এবং তারপরে আপনি এই সংখ্যাটির ক্লাস্টার (200) এর জন্য কে-মানে ক্লাস্টারিং চালাবেন। SIFT বর্ণনাকারী হ'ল 128 টি উপাদানগুলির ভেক্টর, অর্থাৎ 128-মাত্রিক স্থানের পয়েন্ট। সুতরাং আপনি অন্যান্য পয়েন্টগুলির মতো এগুলিও ক্লাস্টার করার চেষ্টা করতে পারেন। আপনি ব্যাগ-অফ-বৈশিষ্ট্যগুলি ব্যবহার করে শ্রেণিবদ্ধকরণ করতে চান তার অনুরূপ আপনি প্রচুর সংখ্যক চিত্র থেকে SIFT বর্ণনাকারী বের করেন। (আদর্শভাবে এটি চিত্রের একটি পৃথক সেট হওয়া উচিত, তবে অনুশীলনে লোকেরা প্রায়শই কেবল তাদের প্রশিক্ষণ চিত্রের সেট থেকে বৈশিষ্ট্যগুলি পান Then) তারপরে আপনি কে-মানে এই 200 টি (বা যাই হোক না কেন) ক্লাস্টারে বিভক্ত করতে SIFT বর্ণনাকারীর এই বিশাল সেটটিতে ক্লাস্টারিং চালান run , অর্থাত্ একটি ক্লাস্টারে প্রতিটি বর্ণনাকারী বরাদ্দ করা। কে-মানে আপনাকে 200 টি ক্লাস্টার সেন্টার দেবে,

তারপরে আপনি নিজের ছবিতে প্রতিটি সিআইফটি বর্ণনাকারী নেবেন এবং এটির নিকটবর্তী ক্লাস্টারের কেন্দ্রটি সন্ধান করে এটি 200 টি ক্লাস্টারের কোনটির সাথে সম্পর্কিত তা নির্ধারণ করুন। তারপরে আপনি কেবল প্রতিটি ক্লাস্টারের কতগুলি বৈশিষ্ট্য রয়েছে তা গণনা করুন। সুতরাং, যে কোনও সংখ্যক SIFT বৈশিষ্ট্যযুক্ত কোনও চিত্রের জন্য আপনার কাছে 200 টি বিনের হিস্টোগ্রাম রয়েছে। এটি আপনার বৈশিষ্ট্য ভেক্টর যা আপনি এসভিএমকে দেন। (দ্রষ্টব্য, শব্দ বৈশিষ্ট্যগুলি গুরুতরভাবে ওভারলোড হয়েছে)।

আমার মনে আছে, এই হিস্টোগ্রামগুলি কীভাবে স্বাভাবিক করা উচিত সে সম্পর্কে অনেক কাজ হয়েছিল। আমি ভুল হতে পারি, তবে আমি এমন একটি কাগজ মনে করলাম যা দাবি করেছিল যে বাইনারি ফিচার ভেক্টর (যেমন 1 যদি এই ক্লাস্টারের কমপক্ষে 1 টি বৈশিষ্ট্য উপস্থিত থাকে, এবং 0 অন্যথায়) হিস্টোগ্রামের চেয়ে ভাল কাজ করে। আপনাকে বিশদগুলির জন্য সাহিত্য পরীক্ষা করতে হবে, এবং বিশদটি গুরুত্বপূর্ণ।

সম্পাদনা করুন: ম্যাটল্যাবের জন্য কম্পিউটার ভিশন সিস্টেম টুলবক্স এখন বৈশিষ্ট্যগুলির কার্যকারিতার ব্যাগ সরবরাহ করে


হাই দিমা, আপনার উত্তরের জন্য ধন্যবাদ, আমার একটি প্রশ্ন ছিল, যখন আপনি "তখন আপনি কে-মানে ক্লাস্টারিং সংখ্যার ক্লাস্টারিং" চালাচ্ছেন, আপনি কী-ই মানে ক্লাস্টারিং চালাচ্ছেন? পিএস আমি প্রায় এই শব্দটির বৈশিষ্ট্যটি গুরুতরভাবে ওভারলোড হওয়ায় আপনার মন্তব্যের জন্য এই উত্তরটি গ্রহণ করতে প্রলুব্ধ হয়েছি, আমি ইমেজ প্রসেসিংয়ে প্রাসঙ্গিকভাবে নতুন এবং আমি আরও সম্মত হতে পারিনি
জোনো ব্রাগান

@ জোনোব্রোগান: আপনার আমার উত্তরটি গ্রহণ করা উচিত, কারণ এটি সঠিক। :) আমি উত্তরটি সম্পাদনা করেছি কে-মানে স্পষ্ট করার চেষ্টা করার জন্য।
ডিমা

এটা কি এখন বোঝা যায়?
ডিমা

হ্যাঁ, ধন্যবাদ আমি উত্তরটি গ্রহণ করেছি, যদিও আমি ভাবছি আপনি কীভাবে কতগুলি "ভিজ্যুয়াল শব্দ" ব্যবহার করবেন তা স্থির করে কীভাবে জানেন?
জোনো ব্রোগান

3
তবে সবচেয়ে বড় সমস্যাটি হ'ল কামিয়ান অ্যালগরিদম সর্বদা একই ফল দেয় না। এটি ব্যাপকভাবে এলোমেলোভাবে করা হয়।
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.