SURF বৈশিষ্ট্য গণনা প্রক্রিয়া বোঝা


9

সুতরাং, আমি এসআরএফ (বে, এসএস, টুটিলেয়ার্স, ভ্যান গুল : স্পিডড-আপ রবস্ট ফিচারস (এসইউআরএফ) ) এর কাগজটি পড়ছিলাম এবং আমি নীচে এই অনুচ্ছেদটি বুঝতে পারি না:

বাক্স ফিল্টার এবং ইন্টিগ্রাল ইমেজ ব্যবহারের কারণে আমাদের আগের ফিল্টার করা লেয়ারের আউটপুটটিতে পুনরাবৃত্তভাবে একই ফিল্টারটি প্রয়োগ করতে হবে না, তবে পরিবর্তে যে কোনও আকারের বক্স ফিল্টারগুলি সরাসরি মূল চিত্রের উপর একই গতিতে প্রয়োগ করতে পারে এবং এমনকি সমান্তরালে (যদিও পরবর্তীতে এখানে শোষণ করা হয় না)। অতএব, স্কেল স্পেসটি ফিল্টার আকার আপ-স্কেল করে বিশিষ্টভাবে চিত্রের আকার, চিত্র 4 হ্রাস করার পরিবর্তে বিশ্লেষণ করা হয়।

This is figure 4 in question.

চিত্র 4

পিএস: কাগজের অবিচ্ছেদ্য চিত্রের ব্যাখ্যা রয়েছে, তবে কাগজের পুরো বিষয়বস্তু উপরের নির্দিষ্ট অনুচ্ছেদের উপর ভিত্তি করে। যদি কেউ এই কাগজটি পড়ে থাকেন তবে আপনি এখানে কী চলছে তা সংক্ষেপে উল্লেখ করতে পারেন। পুরো গাণিতিক ব্যাখ্যাটি প্রথমে বেশ ভালভাবে উপলব্ধি করার জন্য যথেষ্ট জটিল, সুতরাং আমার কিছু সহায়তার প্রয়োজন। ধন্যবাদ।

কয়েকটি সমস্যা সম্পাদনা করুন:

1।

প্রতিটি অষ্টক একটি ধ্রুবক স্কেল স্তরের মধ্যে বিভক্ত হয়। অবিচ্ছেদ্য ইমেজগুলির স্বতন্ত্র প্রকৃতির কারণে, 2 পরবর্তী স্কেলের মধ্যে ন্যূনতম স্কেল পার্থক্য আংশিক দ্বিতীয় ক্রমের ধনাত্মক বা নেতিবাচক লবগুলির দৈর্ঘ্যের উপর নির্ভর করে ডেরিভেশন (x বা y) এর দিকের দিকে ডারভেটিভ, যা একটি সেট করা হয় ফিল্টার আকার দৈর্ঘ্যের তৃতীয়। 9x9 ফিল্টারটির জন্য, এই দৈর্ঘ্যটি লো 3 ive ধারাবাহিক স্তরের জন্য, আকারটি অসম্পূর্ণ রাখতে এবং কেন্দ্রীয় পিক্সেলের উপস্থিতি নিশ্চিত করতে আমাদের অবশ্যই এই আকারটি সর্বনিম্ন 2 পিক্সেল (প্রতিটি পক্ষের একটি পিক্সেল) বাড়িয়ে তুলতে হবে । এর ফলে মাস্কের আকার মোট 6 টি পিক্সেল বৃদ্ধি পায় (চিত্র 5 দেখুন)।

Figure 5

চিত্র 5

আমি প্রদত্ত প্রসঙ্গে লাইনগুলি বোঝাতে পারি না।

ধারাবাহিক দুটি স্তরের জন্য আকারটি অসম্পূর্ণ রাখতে এবং কেন্দ্রীয় পিক্সেলের উপস্থিতি নিশ্চিত করতে আমাদের অবশ্যই এই আকারটি সর্বনিম্ন 2 পিক্সেল (প্রতিটি দিকে একটি পিক্সেল) বাড়িয়ে তুলতে হবে।

আমি জানি তারা চিত্রটির দৈর্ঘ্য নিয়ে কিছু করার চেষ্টা করছে, এমনকি যদি তারা এটিকে অদ্ভুত করার চেষ্টা করে তবে একটি কেন্দ্রীয় পিক্সেল থাকে যা তাদের পিক্সেল গ্রেডিয়েন্টের সর্বোচ্চ বা সর্বনিম্ন গণনা করতে সক্ষম করে। এর প্রাসঙ্গিক অর্থ সম্পর্কে আমি খানিকটা তফসিল।

2।

বর্ণনাকারীর গণনা করার জন্য হর ওয়েভলেট ব্যবহৃত হয়।

হার ওয়েভলেট

মধ্য অঞ্চলে কীভাবে নিম্ন তবে উচ্চ। dx |dx|

3।

আরেকটা

একটি আনুমানিক ফিল্টার থাকার প্রয়োজনীয়তা কি?

৪. যেভাবে তারা ফিল্টারটির আকার খুঁজে পেয়েছিল তাতে আমার কোনও সমস্যা নেই। তারা অভিজ্ঞতাকে "কিছু" করেছিল। যাইহোক, আমার এই লাইনের টুকরোটি নিয়ে কিছুটা সমস্যা সমাধান করেছে

পূর্ববর্তী বিভাগে প্রবর্তিত 9x9 ফিল্টারের আউটপুটটিকে প্রাথমিক স্কেল স্তর হিসাবে বিবেচনা করা হয়, যার কাছে আমরা স্কেল এস = 1.2 হিসাবে চিহ্নিত করব (Ga = 1.2 দিয়ে গাউসিয়ান ডেরিভেটিভগুলি আনুমানিক)।

তারা কীভাবে σ এর মান সম্পর্কে জানতে পেরেছিল σ তদুপরি নিচের চিত্রটিতে কীভাবে স্কেলিংয়ের গণনা করা হচ্ছে তা গণনা করে। এই চিত্রটি সম্পর্কে আমি যে কারণটি বলছি তা হ'ল s=1.2এটির উত্স সম্পর্কে স্পষ্টভাবে উল্লেখ না করেই মানটির পুনরাবৃত্তি চলতে থাকে। স্কেল চিত্র

৫. হেসিয়ান ম্যাট্রিক্স প্রতিনিধিত্ব করে Lযার পক্ষে গসিয়ান ফিল্টার এবং চিত্রের দ্বিতীয় ক্রম গ্রেডিয়েন্টের সমঝোতা।

তবে "আনুমানিক" নির্ধারকটিতে কেবল দ্বিতীয় ক্রম গাউসিয়ান ফিল্টার যুক্ত শর্তাদি রয়েছে বলে মনে করা হয়।

এর মান wহ'ল:

আমার প্রশ্নটি কেন নির্ধারকটিকে উপরের মতো গণনা করা হয় এবং আনুমানিক হেসিয়ান এবং হেসিয়ান ম্যাট্রিক্সের মধ্যে কী সম্পর্ক।


হে! আমি আপনার প্রশ্নগুলিতে লেখকের নাম এবং নিবন্ধের শিরোনাম যুক্ত করেছি, আশা করি আপনি আপত্তি করবেন না। প্রথমত, এটি লিঙ্কটি মারা যাওয়ার পরেও নিবন্ধটিকে সন্ধানযোগ্য করে তোলে। দ্বিতীয়ত, যে কেউ গবেষণা করেন, আমি মনে করি লেখকদের তাদের নাম এবং প্রকাশনার নাম দিয়ে জমা দেওয়া তাদের কাজের স্বীকৃতি জানাতে আমরা সবচেয়ে কম কাজ করতে পারি :)
পেনেলোপ

@ স্পেনোলোপ: আমি অর্ধেক ভীত ছিলাম যে লোকেরা আমাকে বিস্মৃত হওয়ার পক্ষে ভোট দেয়।
মতিউর

আমি মনে করি এটি একটি খুব সুন্দর প্রশ্ন, সম্প্রতি একটি আরও আকর্ষণীয়। আমি নিজেই কখনও এসআরএফ-এ প্রবেশ করি নি, তবে আমি আগামীকাল চেষ্টা করে দেখতে পারি এবং আমি অবদান রাখতে পারি কিনা তা জানতে পারে, প্রশ্নটি আসলে আমাকে আগ্রহী করেছে :) এবং পিএস: আপনি যদি কোনও "অফিসিয়াল" ইউনি প্রকল্পের অংশ হিসাবে এটি করছেন তবে , আমি নিশ্চিত যে আপনার সুপারভাইজার আপনাকে আনন্দের সাথে সহায়তা করবে (বিশেষত আপনি যদি মাস্টার স্তরে থাকেন)। তাদের কাজের একটি অংশ আপনাকে বৈজ্ঞানিক সাহিত্য কীভাবে পড়তে হয় তা শেখানো।
পেনেলোপ

পিপিএস: আপনি পদটি ইন্টিগ্রাল ইমেজ এবং বাক্স ফিল্টারের সংক্ষিপ্ত ব্যাখ্যা যুক্ত করতে আপনার প্রশ্নটি সম্পাদনা করতে চাইতে পারেন: আপনি যা বোঝেন তা বোঝার ফলে সম্ভবত যা আপনি বুঝতে পারছেন না তা বুঝতে আমাদের সহায়তা করবে;)
পেনেলোপ

@ স্পেনোলোপ: আপনি যে সুন্দর সুন্দর মেয়ে / ছেলে guy আর এই প্রবন্ধটির জন্য আমার কোনও সাহিত্য পর্যালোচনা থাকতে হবে না, আমি 2004 এবং 1999 উভয়ই ডেভিড লোয়ের লেখা একটি পড়েছি That এটি একটি যথেষ্ট সংক্ষিপ্ত ছিল, সেই সাথে একটি সুন্দর ইউটিউব বক্তৃতাও ছিল। সমস্যাটি হচ্ছে এই কাগজে অনেকগুলি গাণিতিক শব্দ ব্যবহৃত হয়েছে, এটি এসআরএফের সাথে একটি। আপনার মাথায় যদি গাণিতিক মডেল না থাকে তবে মূল ধারণাটি দেখার পক্ষে এটি জটিল।
মতিউর

উত্তর:


10

SURF কি?

কী চলছে তা সঠিকভাবে বোঝার জন্য আপনাকে সিফ্টের সাথেও পরিচিত হওয়া দরকার : এসআরএফ মূলত সিফ্টের একটি অনুমান। এখন, আসল প্রশ্নটি হয়ে উঠেছে: সিফ্ট কী?

এসআইএফটি হ'ল একটি কী- পয়েন্ট ডিটেক্টর এবং কী- পয়েন্ট বিবরণী । ডিটেক্টর অংশে, এসআইএফটি হরিস কর্নারের মতো ধ্রুপদী কর্নার ডিটেক্টরগুলির মূলত একটি বহু-স্কেল বৈকল্পিক এবং এতে স্কেলটি স্বয়ংক্রিয়ভাবে সুর করার ক্ষমতা রয়েছে has তারপরে, একটি অবস্থান এবং প্যাচ আকার দেওয়া (স্কেল থেকে প্রাপ্ত), এটি বিবরণকারী অংশটি গণনা করতে পারে।

স্থানীয়ভাবে চিত্রের টুকরো টুকরো টুকরো টুকরো করার জন্য এসআইএফটি খুব ভাল, তবে এটির একটি ব্যর্থতা রয়েছে: এটি গণনা করা ব্যয়বহুল (অর্থাত্ লম্বা)। গাউসিয়ান স্কেল-স্পেস (ডিটেক্টরের অংশে) গণনা করার জন্য, তারপরে গ্রেডিয়েন্ট দিকের হিস্টোগ্রামগুলিতে (বর্ণনাকারীর অংশের জন্য) গণনা করতে অনেক সময় ব্যয় হয়।

এসআইএফটি এবং এসআরএফ উভয়কেই স্বয়ংক্রিয় স্কেল (অর্থাত, গাউসিয়ান মাপ) নির্বাচনের মাধ্যমে গাউসিয়ানদের পার্থক্য হিসাবে দেখা যায়। এটি, আপনি প্রথমে একটি স্কেল-স্পেস তৈরি করেন যেখানে ইনপুট চিত্রটি বিভিন্ন স্কেলগুলিতে ফিল্টার করা হয়। স্কেল-স্পেসটি পিরামিড হিসাবে দেখা যেতে পারে, যেখানে পরপর দুটি চিত্র স্কেল পরিবর্তনের সাথে সম্পর্কিত (যেমন, গাউসিয়ান লো-পাস ফাইটারের আকার পরিবর্তন হয়েছে), এবং স্কেলগুলি পরে অষ্টভের দ্বারা ভাগ করা হয় (অর্থাত্ একটি বড় পরিবর্তন) গাউসিয়ান ফিল্টার আকারে)।

  • SIFT- এ, পরবর্তী অষ্টভের স্কেল না আসা পর্যন্ত বার বার স্থির প্রস্থের গাউসিয়ান দিয়ে ইনপুট ফিল্টার করে এটি করা হয়।
  • এসআরএফ-এ, ইন্টিগ্রাল ইমেজ ট্রিক ব্যবহারের জন্য গাউসীয় ফিল্টার আকার থেকে আপনি কোনও রানটাইম পেনাল্টি ভোগ করবেন না। সুতরাং, আপনি প্রতিটি স্কেলে সরাসরি ফিল্টার করা চিত্রটি গণনা করুন (পূর্ববর্তী স্কেলটিতে ফলাফলটি ব্যবহার না করে)।

আনুমানিক অংশ

যেহেতু গাউসিয়ান স্কেল-স্পেস এবং গ্রেডিয়েন্ট দিকের হিস্টোগ্রামগুলি দীর্ঘায়িত করা হয়, তাই দ্রুত প্রায় কাছাকাছি করে এই গণনাগুলি প্রতিস্থাপন করা ভাল ধারণা (এসআরএফ-র লেখকগণ দ্বারা নির্বাচিত) is

লেখকরা মন্তব্য করেছিলেন যে ছোট গাউসিয়ানরা (এসআইএফটি-র মধ্যে ব্যবহৃত জিনিসগুলির মতো) বর্গাকার ইন্টিগ্রালগুলি ( বক্স ব্লার নামেও পরিচিত ) দ্বারা ভালভাবে অনুমান করা যায় । এই আয়তক্ষেত্রের গড়গুলি অবিচ্ছেদ্য চিত্র কৌশলটির জন্য ধন্যবাদ পেতে খুব দ্রুত হওয়ার জন্য দুর্দান্ত সম্পত্তি রয়েছে have

তদুপরি, গাউসিয়ান স্কেল-স্পেসটি আসলে প্রতি সে সে হিসাবে ব্যবহৃত হয় না , তবে আনুমানিক গৌসিয়ানদের একটি ল্যাপ্লাসিয়ান (আপনি এটি এসআইএফটি পেপারে খুঁজে পেতে পারেন)। সুতরাং, আপনার কেবল গাউশিয়ান-অস্পষ্ট চিত্রের প্রয়োজন নেই, তবে ডেরাইভেটিভ এবং সেগুলির মধ্যে পার্থক্য রয়েছে। সুতরাং, আপনি কেবল একটি বাক্স দ্বারা গাউসিয়ানকে আনুমানিক করার ধারণাটি আরও খানিকটা ধাক্কা দিন: প্রথমে কোনও গাউসিয়ানকে যতবার প্রয়োজন ততবার ডেকে আনুন, তারপরে প্রতিটি আকারকে সঠিক আকারের বাক্স দিয়ে আনুমানিক করুন। আপনি শেষ পর্যন্ত হার বৈশিষ্ট্যগুলির একটি সেট দিয়ে শেষ করবেন।

2 দ্বারা বৃদ্ধি

আপনি যেমন অনুমান করেছেন এটি এটি কেবল একটি বাস্তবায়ন নিদর্শন। লক্ষ্যটি হল একটি কেন্দ্রীয় পিক্সেল। বৈশিষ্ট্য বর্ণনাকারী বর্ণিত ইমেজ প্যাচের কেন্দ্রের সাথে সম্মানিত হয়েছে।

মধ্য অঞ্চল

একটি কালো রশ্মি থেকে কোনও সাদা রশ্মিতে যাওয়ার সময় আপনার কাছে like এর মতো কিছু থাকে । তারপরে, সাদা থেকে কালোতে গিয়ে আপনার বিপরীতে যোগফল হবে: । সুতরাং, আপনার উইন্ডোটির জন্য একটি ছোট , তবে মাত্রার একটি উচ্চতর যোগফল।all pix in columnx=Aall pix in columnx=Ax

যাদু নম্বর

প্রথম স্কেলটি bl (বা কিছু কাগজে 1.4) দিয়ে অস্পষ্ট প্রয়োগ করে প্রাপ্ত হয় । এটি কারণ একটি প্রাকৃতিক (বাস্তব) ধারালো চিত্র width এর একটি অস্পষ্ট কার্নেল সহ একটি আদর্শ (আলিয়াজিং ছাড়াই) চিত্রের কনভলশনের ফলাফল হিসাবে বিবেচিত হতে পারে । কোথা থেকে এসেছে তা আমি সত্যিই মনে করতে পারি না তবে এটি স্পষ্টভাবে এ-সিফ্টে গুশেন ইউয়ের কাজ সম্পর্কেও অধ্যয়ন করা হয়েছিল, যাতে আপনি এই পৃষ্ঠাটি পরীক্ষা করতে পারেন ।σ=1.2σ=1.2


ব্যাখ্যার জন্য ধন্যবাদ, এটি কিছু স্টাফ সাফ করেছে, কারও কাছে আরও বিস্তৃত বোঝার দরকার আছে কিনা তা আমাকে দেখতে দিন।
মতিউর

আমি আপনার নতুন প্রশ্নের সাথে উত্তর সম্পাদনা করেছি।
সানসাইসো 8'14

ওহ হ্যাঁ, ধন্যবাদ। কাগজটি সদয় দীর্ঘ, তাই প্রচুর জিনিস একবারে যায়।
মতিউর

আমার সর্বশেষ সম্পাদনাটি দেখার জন্য যত্নশীল?
মতিউর

1
এটি সাধারণ ভাগ করা জ্ঞানের মিশ্রণ (ছোট গাউসিয়ানরা বাক্স ব্লার্স দ্বারা সজ্জিত), পরীক্ষা-নিরীক্ষা (বাস্তব বিশ্বের চিত্রগুলিতে আগ্রহের বস্তুর ন্যূনতম / সর্বোচ্চ মাপের আকার) এবং গণিত (প্রাথমিক প্যাচের আকার দেওয়া হয়েছে, কম্পিউটিং আয়তক্ষেত্রগুলি এবং গাউসিয়ানরা যা এতে উপযুক্ত) ।
ssuiso

4

সম্ভাব্য আগ্রহের বিষয়গুলি চিহ্নিত করার জন্য, চিত্রটির প্রক্রিয়াকরণের জন্য প্রায়শই ডিফারেন্স অফ গাউসীয় ফাংশন (ডিওজি) ব্যবহৃত হয়, ফলে এটি স্কেল এবং অভিমুখীকরণের জন্য অবিচ্ছিন্ন হয়ে পড়ে।

SIFT- তে প্রতিটি স্তরের বর্ধমান sigmaমানের ডিওজি দিয়ে ফিল্টার করে এবং পার্থক্য নিয়ে চিত্র পিরামিডগুলি প্রতিষ্ঠিত হয় established

অন্যদিকে, এসআরএফ গাউসিয়ান লওপ্লাসিয়ান (এলওজি) এবং বিভিন্ন আকারের বর্গ ফিল্টার (9 * 9, 15 * 15, ...) এর সাথে দ্বিতীয়-আদেশের গাউসিয়ান আংশিক ডেরিভেটিভগুলির একটি খুব দ্রুত সমানকরণ প্রয়োগ করে । গণনা ব্যয় ফিল্টার আকারের থেকে পৃথক। sigmaপিরামিডে উচ্চ স্তরের জন্য কোনও ডাউন-স্যাম্পলিং (পরিবর্তন ) নেই, তবে কেবল একই রেজোলিউশনের চিত্র থাকার ফলে ফিল্টার আকারের আপ-স্কেল রয়েছে।

সম্পাদনা

একটি অতিরিক্ত নোট: আপনার কাগজে লেখক আরও কার্নেল 4 ওরিয়েন্টেশন (X, Y, XY, yx) এ গসিয়ান দ্বিতীয় ব্যুৎপন্ন প্রক্রিয়া সহজ [1 -2 1], [1 -2 1]', [1 -1;-1 1], এবং [-1 1;1 -1]। যখন ফিল্টার আকার বৃদ্ধি পায়, আপনাকে বৃহত্তরটি অর্জনের জন্য সরলিকৃত কার্নেল অঞ্চলগুলি প্রসারিত করতে হবে। এবং এটি বিভিন্ন স্কেলের সাথে ডগের সমতুল্য (লোজি বক্ররেখা ডিওজি-র মতো একই আকারের, এবং ফিল্টার আকারটি তাদের প্রস্থকেও সমান করে তোলে)।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.