ধাপে ধাপে ক্যামেরা ভিজ্যুয়াল ট্র্যাকিং এবং প্ল্যানার চিহ্নিতকারীদের জন্য অনুমানের অনুমান করে


21

আমি সাময়িক সময়ের জন্য বর্ধিত বাস্তবতা এবং ভিজ্যুয়াল ট্র্যাকিং অ্যাপ্লিকেশনগুলির জন্য ক্যামেরা পোজ অনুমানের বিষয়টিতে কাজ করছি এবং আমি মনে করি যে এই কার্য সম্পর্কে অনেক বিস্তৃত তথ্য থাকা সত্ত্বেও এখনও প্রচুর বিভ্রান্তি এবং ভুল ধারণা রয়েছে।

আমি মনে করি পরবর্তী প্রশ্নগুলি একটি ধাপে ধাপে উত্তরের প্রাপ্য।

  • ক্যামেরা অভ্যন্তরীণ কি?
  • ক্যামেরা এক্সট্রিনসিক কি?
  • আমি কীভাবে পরিকল্পনাকারী থেকে হোমোগ্রাফি গণনা করব?
  • আমার যদি হোমোগ্রাফি থাকে আমি কীভাবে ক্যামেরা পোজ পেতে পারি?

আপনার করা পুনর্নবীকরণ সম্পর্কে আমি অস্পষ্ট: 1 এইচটি হ'ল কিছু পদ্ধতি ব্যবহার করে ডেটা থেকে পাওয়া হোমোগ্রাফি (এসভিডি বলুন)। ২. ইনভ (কে) * এইচ = এ হ'ল আপনি এখানে কাজ করছেন। তারপরে আপনি ঘূর্ণন ম্যাট্রিক্সের অর্থোমনাল কলাম হিসাবে q1 = a1 / আদর্শ (a1) এবং Q2 = a2 / আদর্শ (a2) তৈরি করেন এবং q3 = q1xq2 বানান ... তারপরে আপনি অনুবাদ ভেক্টর পেতে টি / (কিছু) নেন। এটি কীভাবে আপনি সম্ভবত বিভিন্ন জিনিস দিয়ে কেবল Q1 এবং Q2 ভাগ করতে পারেন এবং টি দ্বারা কী ভাগ করবেন তা আপনি কীভাবে বেছে নেবেন? অথবা এই ধারণাটি কী যে এসভিডি পদ্ধতি এবং ইনভ (কে) দ্বারা গুণন কিছু ঘনিষ্ঠভাবে দেয় তবে যথেষ্ট অরথোগোনাল /
অরথনোরমাল

তবে আমি কীভাবে 3 ডি পয়েন্ট পেতে পারি (এক্স, ওয়াই, 1)?
waschbaer

উত্তর:


19

এটি বোঝা গুরুত্বপূর্ণ যে এখানে একমাত্র সমস্যা হ'ল বহির্মুখী পরামিতিগুলি অর্জন করা। ক্যামেরা অন্তর্নিহিতগুলি অফ লাইনটি পরিমাপ করা যায় এবং সেই লক্ষ্যে প্রচুর অ্যাপ্লিকেশন রয়েছে।

ক্যামেরা অভ্যন্তরীণ কি?

ক্যামেরা অন্তর্নিহিত পরামিতি সাধারণত ক্যামেরা ক্যালিব্রেশন ম্যাট্রিক্স, বলা হয় । আমরা লিখতে পারিK

K=[αusu00αvv0001]

কোথায়

  • এবং α বনাম মধ্যে স্কেল ফ্যাক্টর হয় তোমার দর্শন লগ করা এবং V দিকনির্দেশ স্থানাংক, এবং ফোকাস দৈর্ঘ্য সমানুপাতিক হয় ক্যামেরার: α তোমার দর্শন লগ করা = k তোমার দর্শন লগ করা এবং α বনাম = বনামk ইউ এবং কে ভি ইউ এবং ভি দিকেরপ্রতি ইউনিট দূরত্বের পিক্সেলের সংখ্যা।αuαvuvfαu=kufαv=kvfkukvuv

  • কে মূল বিন্দু বলা হয়, সাধারণত চিত্র কেন্দ্রের স্থানাঙ্ক।c=[u0,v0]T

  • হ'ল স্কিউ, কেবলমাত্র শূন্যএবংযদি ইউ এবং ভি অবলম্বন হয়।suv

অন্তর্দৃষ্টিগুলি জানা গেলে একটি ক্যামেরা ক্যালিব্রেটেড হয়। এটি সহজেই করা যায় তাই এটি কম্পিউটার-দৃষ্টিভঙ্গির লক্ষ্য হিসাবে বিবেচনা না করে একটি অফ-লাইন তুচ্ছ পদক্ষেপ।

ক্যামেরা এক্সট্রিনসিক কি?

ক্যামেরা বহির্মুখী বা বহিরাগত পরামিতি একটি 3 × 4 ম্যাট্রিক্স যা ইউক্লিডিয়ান রূপান্তরটির সাথে মিলিত করে ওয়ার্ল্ড কোঅর্ডিনেট সিস্টেম থেকে ক্যামেরা সমন্বয় ব্যবস্থাতে। আর একটি 3 × 3 ঘূর্ণন ম্যাট্রিক্স এবং টি অনুবাদ অনুবাদ করে।[R|t]3×4R3×3t

কম্পিউটার-দৃষ্টি অ্যাপ্লিকেশনগুলি এই ম্যাট্রিক্সটি অনুমানের দিকে মনোনিবেশ করে।

[R|t]=[R11R12R13TxR21R22R23TyR31R32R33Tz]

আমি কীভাবে পরিকল্পনাকারী থেকে হোমোগ্রাফি গণনা করব?

হোমোগ্রাফি একটি সমজাতীয় ম্যাট্রিক্স যা 3 ডি প্লেন এবং এর চিত্র প্রক্ষেপণ সম্পর্কিত। যদি আমাদের কাছে একটি প্লেন জেড = 0 হোমোগ্রাফি এইচ থাকে যা এই বিমানে M = ( X , Y , 0 ) T মানচিত্রের মানচিত্র করে এবং প্রক্ষেপণের আওতায় এর সাথে 2D পয়েন্ট মিটার পি = কে [ আর | t ] হয়3×3জেড=0এইচএম=(এক্স,ওয়াই,0)টিমিপি=কে[আর|টি]

মি~=কে[আর1আর2আর3টি][এক্সওয়াই01]

=কে[আর1আর2টি][এক্সওয়াই1]

এইচ=কে[আর1আর2টি]

হোমোগ্রাফি গণনা করার জন্য আমাদের পয়েন্ট জোড় ওয়ার্ল্ড ক্যামেরা দরকার। যদি আমাদের পরিকল্পনাকারী চিহ্নিতকারী থাকে তবে আমরা বৈশিষ্ট্যগুলি নিষ্কাশন করতে এর চিত্রটির প্রক্রিয়া করতে পারি এবং তারপরে ম্যাচগুলি পাওয়ার জন্য দৃশ্যের সেই বৈশিষ্ট্যগুলি সনাক্ত করতে পারি।

সরাসরি লিনিয়ার ট্রান্সফর্ম ব্যবহার করে হোমোগ্রাফি গণনা করার জন্য আমাদের কেবল 4 জোড়া দরকার।

আমার যদি হোমোগ্রাফি থাকে আমি কীভাবে ক্যামেরা পোজ পেতে পারি?

হোমোগ্রাফি এবং ক্যামেরা K [ R | ভঙ্গ করেছে t ] একই তথ্য থাকে এবং একে অপর থেকে অন্যের কাছে যাওয়া সহজ। উভয়ের শেষ কলামটি অনুবাদ ভেক্টর। হোমোগ্রাফির কলাম এক এইচ 1 এবং দুটি এইচ 2 এছাড়াও কলাম ক্যামেরা পোজ ম্যাট্রিক্সের এক আর 1 এবং দুটি আর 2 হয়। এটা শুধুমাত্র ছেড়ে দেওয়া হয় কলাম তিনটি আর 3 এর [ আর | t ] , এবং এটি অরথোগোনাল হিসাবে থাকতে হবে এটি এক এবং দুটি কলামের ক্রস প্রোডাক্ট হিসাবে গণনা করা যেতে পারে:এইচকে[আর|টি]এইচ1এইচ2আর1আর2আর3[আর|টি]

আর3=আর1আর2

অপ্রয়োজনীয়তার কারণে এটি স্বাভাবিক করা প্রয়োজন উদাহরণস্বরূপ, ম্যাট্রিক্সের উপাদান [3,4] দ্বারা ভাগ করা।[আর|টি]


4
আমি মনে করি যে ক্রমাঙ্কন "সিভি এর লক্ষ্য নয় সহজ" এবং এটি বিভ্রান্তিকর বলে মনে হয়। সাধারণ ক্ষেত্রে আমাদের বিকৃতি পরামিতিগুলিও অনুমান করতে হবে। স্ব স্বীকৃতিটির পরিবর্তে আমি প্ল্যানার ক্রমাঙ্কণের প্রস্তাব দেব (জাং - ক্যামেরা ক্যালিব্রেশনের জন্য একটি নমনীয় নতুন প্রযুক্তি) কারণ এটি পৃথক ক্রমাঙ্কন পদ্ধতি করা যেতে পারে যদি এটি আরও নমনীয়। আপনার যদি "হোমোগ্রাফি থাকে আমি কীভাবে ক্যামেরা পোজ পেতে পারি?" তে আপনার একটি ছোট ত্রুটি রয়েছে? যেহেতু আপনি অ্যাকাউন্টটিতে ক্যালিব্রেশন গ্রহণ করবেন না (H_ {ক্যালিব} = কে ^ -1 এইচ)।
buq2

3
হোমোগ্রাফি থেকে ক্যামেরা জাহির করা ভুল। এটি করার বিভিন্ন উপায় রয়েছে 'তাদের মধ্যে কয়েকটি অত্যন্ত অপ্রয়োজনীয়।
আয়না

আমি বুঝতে পারি না কেন এটি ভুল। আমি এটি এইভাবে গণনা করি এবং কাজ করি। কেন ভুল বলছেন?
জাভ_রক

3
আপনি শেষ বিভাগে লিখেছিলেন যে এইচ ^ 1 এবং আর ^ 1 এবং সমান, তবে তৃতীয় বিভাগে আপনি বলেছেন যে এইচ = কে [আরটি] যার অর্থ হ'ল আর ^ 1 আসলে কে ^ -1 এইচ ^ 1। তবে এটি কঠোরভাবে সত্য নয় কারণ এখানে অসীম সংখ্যক এইচ রয়েছে যা সমীকরণগুলি পূরণ করবে এবং আর ^ 1, আর ^ 2 এবং টি (অজানা স্কেল) সমাধান করার সময় সমস্যা তৈরি করবে। আপনার উত্তর দৃ rob় অভ্যন্তরীণ এবং বিকৃতি ক্যালিব্রেশন উপেক্ষা করে এবং কিছু সমীকরণ ভুল কারণ কারণে এটি প্রশ্নের উত্তম উত্তর নয়।
buq2

হ্যাঁ, আমি আমার কোড থেকে এগুলি গ্রহণ করার সাথে সাথে ক্যালিব্রেশন ম্যাট্রিক্সটি তিন ধাপে অনুপস্থিত ছিলাম এবং কোডগুলির ভিন্ন ফাংশনে আমি কে দিয়ে গুণ করি।
জাভ_রক

3

দ্বি-মাত্রিক কেসটি খুব ভালভাবে ব্যাখ্যা করার সময়, জাভ_রক প্রস্তাবিত উত্তরটি ক্যামেরা পোজগুলির জন্য ত্রি-মাত্রিক স্থানে বৈধ সমাধান সরবরাহ করে না। নোট করুন যে এই সমস্যার জন্য একাধিক সম্ভাব্য সমাধান বিদ্যমান।

এই কাগজটি হোমোগ্রাফিকে পচানোর জন্য বদ্ধ সূত্র সরবরাহ করে তবে সূত্রগুলি কিছুটা জটিল।

ওপেনসিভি 3 ইতিমধ্যে এই পচন ( ডিকম্পোজহমোগ্রাফিমেট ) প্রয়োগ করে । একটি হোমোগ্রাফি এবং সঠিকভাবে স্কেল করা আন্তঃসৌনিক ম্যাট্রিক্স দেওয়া, ফাংশনটি চারটি সম্ভাব্য ঘূর্ণন এবং অনুবাদগুলির একটি সেট সরবরাহ করে।

এক্ষেত্রে ইন্টারনসিক্স ম্যাট্রিক্সটি পিক্সেল ইউনিটে দেওয়া দরকার, এর অর্থ আপনার মূল পয়েন্টটি সাধারণত হয় (imageWidth / 2, imageHeight / 2)এবং আপনার ফোকাল দৈর্ঘ্য সাধারণত focalLengthInMM / sensorWidthInMM * imageHeight


একটি সঠিকভাবে স্কেল করা আন্তঃসৌনিক ম্যাট্রিক্স কী?
গুইগ

1
আমি আমার উত্তর আপডেট করেছি। উপরে দেখুন।
এমিসওয়াল্ট

আরে @ এমিসওয়াল্ট, ফোকাল দৈর্ঘ্য না focalLengthInMM / sensorWidthInMM * imageWidth? আপনি পরিবর্তে উচ্চতা কেন চয়ন করেন?
এল মার্স
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.