আমি তথাকথিত "শব্দের ব্যাগ" বা "ভিজ্যুয়াল শব্দের" পদ্ধতির দিকে নজর রাখব। এটি চিত্রের শ্রেণিবদ্ধকরণ এবং সনাক্তকরণের জন্য ক্রমবর্ধমান ব্যবহৃত হয়। এই অ্যালগরিদমটি সাধারণত একটি চিত্রের SIFT পয়েন্টগুলির মতো শক্ত পয়েন্টগুলি সনাক্ত করে শুরু হয়। এই পাওয়া পয়েন্টগুলির আশেপাশের অঞ্চলটি (আপনার ক্ষেত্রে 128 বিট SIFT বর্ণনাকারী) ব্যবহার করা হয়েছে।
অতি সাধারণ আকারে, সমস্ত চিত্র থেকে সমস্ত বর্ণনাকারীর সমস্ত ডেটা সংগ্রহ করতে এবং তাদের ক্লাস্টার করতে পারে, উদাহরণস্বরূপ কে-মাধ্যম ব্যবহার করে। প্রতিটি আসল চিত্রের বর্ণনাকারী থাকে যা বেশ কয়েকটি ক্লাস্টারে অবদান রাখে। এই ক্লাস্টারের সেন্ট্রয়েডগুলি, অর্থাৎ ভিজ্যুয়াল শব্দগুলি চিত্রটির জন্য একটি নতুন বর্ণনাকারী হিসাবে ব্যবহার করা যেতে পারে। মূলত আপনি আশা করেন যে চিত্রটি ক্লাস্টার করে এমন কোনও চিত্র যার বর্ণনাকারীরা এতে অবদান রেখেছে, তা চিত্র বিভাগের সূচক।
আবার খুব সাধারণ ক্ষেত্রে আপনার কাছে ক্লাস্টারগুলির একটি তালিকা রয়েছে এবং প্রতি চিত্র প্রতি, আপনি গণনা করুন যে কোনটি ক্লাস্টারে সেই চিত্রের বর্ণনাকারী রয়েছে এবং কতগুলি রয়েছে। এটি টেক্সট পুনরুদ্ধারে ব্যবহৃত টার্ম ফ্রিকোয়েন্সি / বিপরীত ডকুমেন্ট ফ্রিকোয়েন্সি (টিডি / আইএফডি) পদ্ধতির মতো। এই দ্রুত এবং নোংরা মতলব স্ক্রিপ্টটি দেখুন।
এই পদ্ধতির সক্রিয়ভাবে গবেষণা করা হয়েছে এবং আরও অনেকগুলি উন্নত অ্যালগরিদম আশেপাশে রয়েছে।
ভিএলফিয়াট ওয়েবসাইটটিতে এই পদ্ধতির একটি দুর্দান্ত আরও উন্নত ডেমো রয়েছে যা 101 ডালাসেটের কলটেককে শ্রেণিবদ্ধ করে। এছাড়াও লক্ষণীয়, Caltech নিজে থেকেই ফলাফল এবং সফ্টওয়্যার ।