চিত্রগুলিতে কার-মডেলগুলি স্বীকৃতি দেওয়ার জন্য ভাল বৈশিষ্ট্য / অ্যালগরিদম


9

আমার কাছে অবজেক্টের স্বীকৃতি, বিশেষত গাড়ি-মডেলগুলি স্বীকৃতি সম্পর্কিত একটি প্রশ্ন রয়েছে! আমি বিভিন্ন ছবিতে একই কার-মডেল সনাক্তকরণ সম্পর্কিত কাজের শুরুতে আছি। এই মুহুর্তে আমি মনে করি 3 ডি অবজেক্টের স্বীকৃতির জন্য সেরা অ্যালগরিদমগুলির একটি হ'ল এসআইএফটি তবে ডেমো প্রয়োগের সাথে কিছুটা খেলার পরে আমার অদ্ভুত অনুভূতি হয় যে এই অ্যালগরিদমটির মতো গাড়ির মতো চকচকে ধাতব জিনিসগুলির সাথে কিছু সমস্যা আছে, বিশেষত যদি তাদের বিভিন্ন রঙ থাকে।

বিভিন্ন চিত্রগুলিতে একই কার-মডেলটি সন্ধানের জন্য কেউ কি সাধারণভাবে কিছু উপযুক্ত অ্যালগরিদম এ অঞ্চলে কিছু কাজ জানেন?

আপনার সাহায্যের জন্য আগাম ধন্যবাদ!


2
আপনি কিছু উদাহরণ চিত্র পোস্ট করতে পারেন?
এন্ডোলিথ

অবশ্যই। কার-মডেলগুলির মডেল তৈরি করার জন্য চিত্রগুলি ;-) এর মতো হতে পারে: এস 5 কুপের প্রশিক্ষণ 1 বা এস 5 কুপের প্রশিক্ষণ 2 এর মতো তবে 'সাধারণ' ছবিও। ক্যোয়ারী চিত্রগুলি এস 5 কুপের ক্যোয়ারির মতো হতে পারে 1 আশা করি যা সহায়তা করে!
jst

এসআইএফটি, জিএলএইচও বা এসআরএফের মতো বিকল্প ফিচার-ডিটেক্টরগুলি গাড়িতে উপযুক্ত কী-পয়েন্টগুলি সনাক্ত করতে পারে?
jst

@ জাস্টার যদি আপনি নীচে বর্ণিত এই স্কিমটি প্রয়োগ করা শেষ করেন তবে এটি কতটা ভাল কাজ করেছে?
সলিউশনপলস

উত্তর:


7

আমি তথাকথিত "শব্দের ব্যাগ" বা "ভিজ্যুয়াল শব্দের" পদ্ধতির দিকে নজর রাখব। এটি চিত্রের শ্রেণিবদ্ধকরণ এবং সনাক্তকরণের জন্য ক্রমবর্ধমান ব্যবহৃত হয়। এই অ্যালগরিদমটি সাধারণত একটি চিত্রের SIFT পয়েন্টগুলির মতো শক্ত পয়েন্টগুলি সনাক্ত করে শুরু হয়। এই পাওয়া পয়েন্টগুলির আশেপাশের অঞ্চলটি (আপনার ক্ষেত্রে 128 বিট SIFT বর্ণনাকারী) ব্যবহার করা হয়েছে।

অতি সাধারণ আকারে, সমস্ত চিত্র থেকে সমস্ত বর্ণনাকারীর সমস্ত ডেটা সংগ্রহ করতে এবং তাদের ক্লাস্টার করতে পারে, উদাহরণস্বরূপ কে-মাধ্যম ব্যবহার করে। প্রতিটি আসল চিত্রের বর্ণনাকারী থাকে যা বেশ কয়েকটি ক্লাস্টারে অবদান রাখে। এই ক্লাস্টারের সেন্ট্রয়েডগুলি, অর্থাৎ ভিজ্যুয়াল শব্দগুলি চিত্রটির জন্য একটি নতুন বর্ণনাকারী হিসাবে ব্যবহার করা যেতে পারে। মূলত আপনি আশা করেন যে চিত্রটি ক্লাস্টার করে এমন কোনও চিত্র যার বর্ণনাকারীরা এতে অবদান রেখেছে, তা চিত্র বিভাগের সূচক।

আবার খুব সাধারণ ক্ষেত্রে আপনার কাছে ক্লাস্টারগুলির একটি তালিকা রয়েছে এবং প্রতি চিত্র প্রতি, আপনি গণনা করুন যে কোনটি ক্লাস্টারে সেই চিত্রের বর্ণনাকারী রয়েছে এবং কতগুলি রয়েছে। এটি টেক্সট পুনরুদ্ধারে ব্যবহৃত টার্ম ফ্রিকোয়েন্সি / বিপরীত ডকুমেন্ট ফ্রিকোয়েন্সি (টিডি / আইএফডি) পদ্ধতির মতো। এই দ্রুত এবং নোংরা মতলব স্ক্রিপ্টটি দেখুন।

এই পদ্ধতির সক্রিয়ভাবে গবেষণা করা হয়েছে এবং আরও অনেকগুলি উন্নত অ্যালগরিদম আশেপাশে রয়েছে।

ভিএলফিয়াট ওয়েবসাইটটিতে এই পদ্ধতির একটি দুর্দান্ত আরও উন্নত ডেমো রয়েছে যা 101 ডালাসেটের কলটেককে শ্রেণিবদ্ধ করে। এছাড়াও লক্ষণীয়, Caltech নিজে থেকেই ফলাফল এবং সফ্টওয়্যার ।


আরে মরিটস, আপনার উত্তরের জন্য আপনাকে ধন্যবাদ আমি সে সম্পর্কে চিন্তা করব! তবে একটি প্রশ্ন। আমার যদি 'ভিজ্যুয়াল শব্দ' থাকে তবে আমি কীভাবে তাদের মধ্যে দূরত্বটি পরিমাপ করব? আমি মনে করি যে আমি সিআইএফটি বর্ণনাকারী ব্যবহার করব তা কি সঠিক? - লোয়ের একটি কাগজ রয়েছে যার মধ্যে তিনি সিআইএফটি বর্ণনাকারীর মডেল তৈরি করে 3 ডি অবজেক্টগুলি সনাক্ত করার একটি পদ্ধতি বর্ণনা করেন describes কেউ কি এই বিষয়টিতে ভাল কিছু অন্যান্য কাগজপত্র জানেন (অন্যান্য বৈশিষ্ট্যগুলির সাথে 3 ডি অবজেক্টের স্বীকৃতি)?
jst

এই ক্ষেত্রে, কেবল ইউক্যালিডিয়ান দূরত্ব, যেমন আপনি ক্লিষ্ট করছেন পূর্ণসংখ্যার ভেক্টরগুলি। আমি মনে করি না যে আপনাকে প্রতি সেমি ক্লাস্টার সেন্ট্রয়েডের মধ্যে দূরত্বটি পরিমাপ করতে হবে, তবে বরং যখন কোনও কোয়েরি চিত্রের সাথে উপস্থাপন করা হবে (এবং এইভাবে কোয়েরি বর্ণনাকারী) আপনি কোন সেন্ট্রয়েডগুলিকে সবচেয়ে নিকটতম বলে পরিমাপ করেন।
মরিটস

ঠিক আছে একটি দূরত্ব পরিমাপ ব্যবহার স্পষ্ট ;-) তবে কোন ডেটাতে? ভিজ্যুয়াল শব্দ প্রতি সিফ্ট বিবরণীতে?
jst

তিন বার, প্রাথমিক ক্লাস্টারিংয়ের একটি মেট্রিক হিসাবে, কোন সেন্ট্রয়েড / ভিজ্যুয়ালওয়ার্ডটি অনুসন্ধানের জন্য কোন কোয়েরি বর্ণনাকারী সবচেয়ে নিকটবর্তী এবং তারপরে, ডাটাবেসে থাকা প্রশ্নের বিপরীতে টিডি / আইডিএফ ভেক্টরটির তুলনা করার জন্য।
মরিটস

ঠিক আছে আমি ;-) পেয়েছি কিন্তু কোন ডেটাতে দূরত্ব পরিমাপ কাজ করে? SIFT বর্ণনাকারীদের উপর?
jst
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.