কেন গাউসিয়ান স্কেল স্পেস স্কেল ইনগ্রেন্টের পার্থক্য?


15

আমি এখানে উদাহরণ হিসাবে স্কেল-ইনভেরিয়েন্ট বৈশিষ্ট্য রূপান্তর অ্যালগরিদম ব্যবহার করব । SIFT একটি চিত্রের আকারযুক্ত গাউসিয়ান ফিল্টারিংয়ের উপর ভিত্তি করে একটি স্কেল স্পেস তৈরি করে এবং তারপরে সম্ভাব্য আগ্রহের পয়েন্টগুলি সনাক্ত করতে গাউসিয়ানদের পার্থক্য গণনা করে। এই পয়েন্টগুলি গাউসিয়ানদের পার্থক্য জুড়ে স্থানীয় মিনিমা এবং ম্যাক্সিমা হিসাবে সংজ্ঞায়িত করা হয়।

দাবি করা হয় যে এই পদ্ধতিটি স্কেল ইনগ্রেন্টেট (অন্যান্য ধাঁধার আক্রমণকারীদের মধ্যে)। কেন? কেন বিষয়টি এই বিষয়টি আমার কাছে অস্পষ্ট।


এসআইএফটি কী তা জানেন না, এটি উইকি এন.ইউ.ইউকিপিডিয়া.আর / উইকি / স্কেল- ইনভারিয়েন্ট_ফাইচার_ ট্রান্সফর্মে পাওয়া গেছে । "চিত্র বৈশিষ্ট্য উত্পন্নকরণের জন্য লো এর পদ্ধতিটি একটি চিত্রকে বৈশিষ্ট্য ভেক্টরগুলির একটি বৃহত সংকলনে রূপান্তরিত করে, যার প্রত্যেকটি চিত্রের অনুবাদ, স্কেলিং এবং রোটেশনে অবিচ্ছিন্ন, আলোকসজ্জার পরিবর্তনে আংশিকভাবে অদলীয় এবং স্থানীয় জ্যামিতিক বিকৃতিতে শক্তিশালী।" এটাই কি ব্যাখ্যা?
নায়ারেন

হ্যাঁ, আমি এটিই বলছি
জল

SIFT স্কেল-স্পেস তত্ত্ব ব্যবহার করে। তবে আমি বুঝতে পারি না যে এই তত্ত্বটিতে "স্কেল" অদৃশ্যতা বলতে কী বোঝায়। আপনি এটি সম্পর্কে টনি লিন্ডবার্গের কাগজপত্র পড়ার চেষ্টা করতে পারেন: csc.kth.se/~tony/earlyvision.html
সর্বোচ্চ

উত্তর:


7

"স্কেল-আক্রমণকারী" শব্দটির অর্থ এখানে নিম্নলিখিত। আসুন বলে চিত্র আছে আমি এবং আপনি একটি বৈশিষ্ট্য (একটি সুদ বিন্দু ওরফে) সনাক্ত করেছি কিছু অবস্থানে (X, Y) এবং কিছু স্কেল পর্যায়ে গুলি । এখন আসুন বলতে আপনি একটি ইমেজ আছে আমি ' , একটি ছোটো সংস্করণ যা আমি (downsampled, উদাহরণস্বরূপ)। তারপর, যদি আপনার বৈশিষ্ট্য আবিষ্কারক স্কেল-পরিবর্তিত হয়, তাহলে আপনি সংশ্লিষ্ট বৈশিষ্ট্য সনাক্ত করতে সক্ষম হওয়া উচিত 'F মধ্যে আমি' সংশ্লিষ্ট অবস্থানে (এক্স ', Y') এবং সংশ্লিষ্ট স্কেল s 'এর , যেখানে (X, Y, গুলি) এবং (x ', y', s ') উপযুক্ত স্কেলিং রূপান্তর দ্বারা সম্পর্কিত।

অন্য কথায়, যদি আপনার স্কেল-ইনভায়রান্ট ডিটেক্টর যদি কারও মুখের সাথে সম্পর্কিত কোনও বৈশিষ্ট্য বিন্দু সনাক্ত করে এবং তারপরে আপনি একই ক্যামেরায় আপনার ক্যামেরাটি দিয়ে জুম বা আউট করেন তবে আপনার এখনও সেই মুখের কোনও বৈশিষ্ট্য বিন্দু সনাক্ত করা উচিত।

অবশ্যই, আপনি একটি "বৈশিষ্ট্য বর্ণনাকারী "ও চাইবেন যা আপনাকে দুটি বৈশিষ্ট্যের সাথে মেলানোর অনুমতি দেয়, যা সিআইএফটি আপনাকে যা দেয় ঠিক তা দেয়।

সুতরাং, আপনাকে আরও বিভ্রান্ত করার ঝুঁকিতে, এখানে দুটি জিনিস স্কেল-ইনগ্রান্ট রয়েছে। একটি হ'ল ডোজি ইন্টারেস্ট পয়েন্ট ডিটেক্টর, যা স্কেল-ইনগ্রেন্টেন্ট, কারণ এটি নির্দিষ্ট আকারের চিত্র বৈশিষ্ট্যগুলি (ব্লবগুলি) তাদের স্কেল নির্বিশেষে সনাক্ত করে। অন্য কথায়, ডোগি ডিটেক্টর যে কোনও আকারের ব্লবগুলি সনাক্ত করে। অন্যান্য স্কেল-ইনগ্রেন্টেট বৈশিষ্ট্যটি হ'ল বৈশিষ্ট্য বর্ণনাকারী, যা গ্রেডিয়েন্ট ওরিয়েন্টেশনের একটি হিস্টোগ্রাম, যা স্কেল পরিবর্তনের পরেও একই চিত্র বৈশিষ্ট্যের জন্য কমবেশি একই রকম থাকে।

যাইহোক, গাউসিয়ানদের পার্থক্যটি এখানে ল্যাপ্লাসিয়ান-অফ-গাউসিয়ান ফিল্টারটির সান্নিধ্য হিসাবে ব্যবহৃত হয়।


আপনি স্কেল-স্পেস তত্ত্ব থেকে কিছু তথ্য নিয়েছেন। স্কেল-স্পেস তত্ত্বটি ব্যবহার করে দুটি সংকেতের তুলনায় ঠিক কী ঘটে যায় তার ব্যাখ্যাটি আপনি বর্ণনা করতে পারেন? লিন্ডবার্গ তার কাগজপত্রগুলিতে: csc.kth.se/~tony/earlyvision.html ব্লব ইত্যাদি সনাক্তকরণের কয়েকটি উদাহরণ তৈরি করেছেন কীভাবে আসলে স্কেল প্যারামিটার দ্বারা ডেরিভেটিভ গ্রহণ করা স্কেল অদৃশ্যতায় সহায়তা করে?
ম্যাক্সিমাস

আপনি সঠিক. আমি কেবল স্কেল-স্পেস তত্ত্বের পিছনে অন্তর্নিহিত বর্ণনা করার চেষ্টা করছিলাম। আপনি যা জিজ্ঞাসা করছেন তা পৃথক প্রশ্ন হওয়া উচিত। :) আমি মনে করি আপনি যে বিষয়ে কথা বলছেন তা হ'ল বিভিন্ন স্কেলে নেওয়া ডেরাইভেটিভগুলি যথাযথভাবে স্বাভাবিক করা উচিত। আপনি মোটা স্কেলে যাওয়ার সময়, সংকেতটি গতিময় হয়, তাই এটি প্রশস্ততা হ্রাস পায়। তার মানে ডেরিভেটিভসের পরিধিও হ্রাস পেয়েছে। সুতরাং স্কেলগুলি জুড়ে ডাইরিভেটিভ প্রতিক্রিয়াটির তুলনা করার জন্য আপনাকে সেগুলি দিয়ে গুণ করতে হবে
ডিমা

সিগমার উপযুক্ত শক্তি: সিগমা দ্বারা প্রথম ডেরাইভেটিভ, দ্বিতীয় সিগমা ^ 2 ইত্যাদির দ্বারা
ডিমামা

@ ম্যাক্সিমাস, উফ, আমি @ ফোগট করেছি :)
ডিমা

ধন্যবাদ তোমার উত্তরের জন্য! এটি আমাকে সহায়তা করেছিল, তবে এখনও কিছু প্রশ্ন রয়েছে যা আমি এখানে অন্যরকম প্রশ্ন হিসাবে জিজ্ঞাসা করেছি: dsp.stackexchange.com/questions/570/…
ম্যাক্সিমাস

5

গাউসিয়ানদের পার্থক্য স্কেল ইনগ্রায়েন্ট নয়। SIFT (সীমাবদ্ধ ডিগ্রী পর্যন্ত) স্কেল ইনগ্রায়েন্টের কারণ এটি স্কেল-স্পেস জুড়ে ডগের এক্সট্রিমার সন্ধান করে - যা DoG এক্সটরমাল উভয় স্থানগতভাবে এবং অপেক্ষাকৃত প্রতিবেশী স্কেলের তুলনায় স্কেল সন্ধান করছে। কারণ আউটপুট ডজিজি এই নির্দিষ্ট স্কেলের জন্য প্রাপ্ত হয় (এটি ইনপুট স্কেলের কোনও ক্রিয়া নয়) ফলাফল স্কেল-ইন্ডিপেন্ডেন্ট, এটি স্কেল-ইনগ্রেন্টেট।


1
ঠিক। তবে এটি কেবল প্রতিবেশী আঁশগুলির পাশাপাশি অতিরিক্ত অনুসন্ধান করে। আমি ভুল না হলে এটি সমস্ত স্কেল নয়। এমনকি যদি এটি সমস্ত স্কেল ছিল তবে এখনও এটি কীভাবে স্বাধীনভাবে স্কেল করা যায় তা এখনও পরিষ্কার নয়
জল

@ জল, একদম ঠিক। আপনি সমস্ত স্কেল জুড়ে একটি চূড়ান্ত চান না, আপনি স্থানীয় চূড়ান্ত চাই। এটি আপনাকে নেস্টেড স্ট্রাকচারগুলি সনাক্ত করতে দেয়, যেমন ধূসর ব্যাকগ্রাউন্ডে একটি বৃহত্তর উজ্জ্বল বৃত্তের মধ্যে একটি ছোট অন্ধকার বৃত্ত।
ডিমা

এলওজি এর পরিবর্তে ডোজি ব্যবহার করা হয় কারণ ডওজি গণনা করা আরও দ্রুত।
ম্যাক্সিমাস
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.