আমার দৃষ্টিভঙ্গি কি সঠিক?


24

আমি একটি হোমওয়ার্ক পেয়েছি যার মধ্যে আমাকে একটি পিসিপেক্টিভ ট্রান্সফর্মেশন ব্যবহার করে কিছু পয়েন্ট গণনা করতে হবে এবং প্লট করতে হবে তবে আমি নিশ্চিত না যে আমার ফলাফলগুলি সঠিক কিনা, কারণ ক্যামেরা স্থানাঙ্কগুলি ব্যবহার করে 3 ডি প্লট চিত্রের স্থানাঙ্কগুলি ব্যবহার করে 2 ডি প্লট থেকে একেবারেই আলাদা দেখায় । কি বুঝতে সমস্যা হয়েছে আমাকে বুঝতে সাহায্য করতে পারেন?

এটি যা দেওয়া হয়: ক্যামেরাটি ডাব্লু টি সি = [ - 1 , 1 , 5 ] টিতে থাকে , টি , পৃথিবীর স্থানাঙ্কগুলিতে নির্দিষ্ট হয় (মিটারে)। ক্যামেরার স্থানাঙ্ক সিস্টেমটি বিশ্ব রেফারেন্সের Y অক্ষের চারপাশে θ = 160 o দ্বারা আবর্তিত হয় , সুতরাং এটির ঘূর্ণন ম্যাট্রিক্স ডব্লু আর সি = [ সি এস ( θ ) 0 এস আই এন ( θ ) 0 1 0 - এস আই এন (ওয়াটটিসি=[-1,1,5]টিθ=160Wআর=[গুলি(θ)0গুলিআমিএন(θ)010-গুলিআমিএন(θ)0গুলি(θ)]

ক্যামেরা প্যারামিটার আছেন: , গুলি এক্স = গুলি Y = 0.01 মি মি / পি এক্স , এক্স = 320 পৃঃ এক্স , Y = 240 পৃঃ এক্স=16মিমিগুলিএক্স=গুলিY=0.01মিমি/পিএক্সএক্স=320পিএক্সY=240পিএক্স

নমুনা পয়েন্ট (বিশ্বের সমন্বয়):

ওয়াটপি1=[1,1,0.5]টি

ওয়াটপি2=[1,1.5,0.5]টি

ওয়াটপি3=[1.5,1.5,0.5]টি

ওয়াটপি4=[1.5,1,0.5]টি

আমাকে ক্যামেরা স্থানাঙ্কে এবং চিত্রের স্থানাঙ্কগুলিতে পয়েন্টগুলি গণনা করতে এবং প্লট করতে হয়, তাই আমি অক্টোবায় নিম্নলিখিত কোডটি লিখেছিলাম:

%camera intrinsic parameters
f = 16
Sx = 0.01
Sy = 0.01
Ox = 320
Oy = 240

%given points, in world coordinate
wP1 = transpose([1, 1, 0.5])
wP2 = transpose([1, 1.5, 0.5])
wP3 = transpose([1.5, 1.5, 0.5])
wP4 = transpose([1.5, 1, 0.5])

% camera translation matrix
wTc = transpose([-1, 1, 5])

% rotation angle converted to rad
theta = 160 / 180 * pi

%camera rotation matrix
wRc = transpose([cos(theta), 0, sin(theta); 0, 1, 0; -sin(theta), 0, cos(theta)])

%transform the points to homogeneous coordinates
wP1h = [wP1; 1]
wP2h = [wP2; 1]
wP3h = [wP3; 1]
wP4h = [wP4; 1]

%separate each line of the rotation matrix
R1 = transpose(wRc(1 , :))
R2 = transpose(wRc(2 , :))
R3 = transpose(wRc(3 , :))

%generate the extrinsic parameters matrix
Mext = [wRc, [-transpose(R1) * wTc; -transpose(R2) * wTc; -transpose(R3) * wTc]]

%intrinsic parameters matrix
Mint = [-f/Sx, 0, Ox; 0, -f/Sy, Oy; 0, 0, 1]

% calculate coordinates in camera coordinates
cP1 = wRc * (wP1 - wTc)
cP2 = wRc * (wP2 - wTc)
cP3 = wRc * (wP3 - wTc)
cP4 = wRc * (wP4 - wTc)

% put coordinates in a list for plotting

x = [cP1(1), cP2(1), cP3(1), cP4(1), cP1(1)]
y = [cP1(2), cP2(2), cP3(2), cP4(2), cP1(2)]
z = [cP1(3), cP2(3), cP3(3), cP4(3), cP1(3)]

%plot the points in 3D using camera coordinates
plot3(x, y, z, "o-r")

pause()

% calculate the points in image coordinates
iP1 = Mint * (Mext * wP1h)
iP2 = Mint * (Mext * wP2h)
iP3 = Mint * (Mext * wP3h)
iP4 = Mint * (Mext * wP4h)

%generate a list of points for plotting
x = [iP1(1) / iP1(3), iP2(1) / iP2(3), iP3(1) / iP3(3), iP4(1) / iP4(3), iP1(1) / iP1(3)]
y = [iP1(2) / iP1(3), iP2(2) / iP2(3), iP3(2) / iP3(3), iP4(2) / iP4(3), iP1(2) / iP1(3)]

plot(x, y, "o-r")

pause()

এবং এই স্ক্রিপ্টগুলি থেকে পাওয়া প্লটগুলি: আমি প্রত্যাশা করছিলাম যে তারা কিছুটা অনুরূপ ছিল, তবে তারা তেমন দেখাচ্ছে না।

3 ডি প্লট

ক্যামেরা স্থানাঙ্কে প্লট

2 ডি প্লট

চিত্রের স্থানাঙ্কে প্লট


8
হোমওয়ার্কের প্রশ্নগুলি দেখানোর জন্য +1 উচ্চমানের প্রশ্ন হতে পারে। :)
মার্টিন এন্ডার

2
যেমন মেটাতে নির্দেশিত এই প্রশ্নটি একটি ভাল উত্তরের প্রাপ্য। আমার নিজের একটা নেই, তবে যিনি এমন করেন তাকে আমার কিছু খ্যাতি দিতে পেরে আমি খুশি।
ট্রাইকোপলাক্স

@ থ্রিচোপ্লেক্স সমস্যাটি এটি মাতলাব এ সম্পন্ন হয়েছে।
joojaa

@ জোজা আহ ভাল পয়েন্ট যদি কোনও মাতলাব বিশেষজ্ঞ অনুগ্রহকালীন সময়ে পদক্ষেপ না নেয়, তবে আমি কোনও সমাধান খুঁজে পাওয়ার জন্য এটি যথেষ্ট কাছাকাছি কিনা তা দেখতে অক্টোবকে শেখা বিবেচনা করব ।
ট্রাইকোপ্লাক্স

1
প্রথম চিত্রটির অর্থ কী তা বোঝার কথা এটি আমার কাছে খুব পরিষ্কার নয়। দ্বিতীয়টি ক্যামেরার দৃষ্টিকোণ থেকে এবং খামের অনুমানের পিছনের পরে আমি মনে করি এটি সঠিক দেখাচ্ছে।
জুলিয়েন গের্তাউল্ট

উত্তর:


8

উভয় চিত্রগুলিতে আপনার অক্ষগুলি সনাক্ত করা এবং আপনার প্রথম চিত্রটিতে ক্যামেরার অবস্থান যুক্ত করা আপনাকে কী ঘটছে তা বুঝতে সহায়তা করবে।

এক্সYz- র

[0,0,1][0,1,0] । এই অনুমানগুলির মধ্যে কোনওটি যদি ভুল হয় তবে বাকী উত্তরটি ভুল হবে।

0,016এসএক্স=এসY=0.00010,00001

[-1,1,এক্স]z- র=0.5এক্সটিএকটিএন(160°)(5-0.5)=1.64 ..., সুতরাং ক্যামেরা কেন্দ্রটি পয়েন্টগুলির বাম দিকে সামান্য শেষ হবে (ক্যামেরাটি যেমন রয়েছে তেমন) এক্স=-1), তাই কেন্দ্রটি শেষ হবে 0.64অর্থ, পয়েন্টগুলি চিত্রের ডান অংশে উপস্থিত হবে। তদতিরিক্ত, ক্যামেরা একই আছেY দুটি পয়েন্ট হিসাবে স্থানাঙ্ক, এবং যেহেতু Y স্থানাঙ্কগুলি আবর্তন দ্বারা পরিবর্তিত হয় না, এগুলি রূপান্তরের পরে একই স্থানাঙ্কে শেষ হওয়া উচিত, যার অর্থ চিত্রের কেন্দ্রীয় সারিতে থাকে।

আপনার উত্তরটি যাচাই করার একটি ভাল উপায় হ'ল ব্লেন্ডারের মতো বিদ্যমান 3 ডি মডেলার ব্যবহার করে: ব্লেন্ডারে 3 ডি দৃশ্য ব্লেন্ডারের সমন্বয় ব্যবস্থাতে সতর্ক থাকুন, উদাহরণস্বরূপ ডিফল্ট ক্যামেরা ভেক্টর [0, 0, -1]। এখানে রেন্ডারটি দেওয়া হয়েছে: ব্লেন্ডারে রেন্ডার করুন গোলকটি আরও দৃশ্যমান করতে ফোকালকে অন্য মানতে সেট করা হয়েছিল। সুতরাং আমরা দেখতে পাচ্ছি যে নীচের দুটি পয়েন্টগুলি চিত্রের মাঝের সারিতে রয়েছে এবং পয়েন্টগুলি চিত্রের ডানদিকে সামান্য।

আমি পাইথনে আপনার হোমওয়ার্ক বাস্তবায়ন করেছি:

import numpy as np

from matplotlib import pyplot as plt
from mpl_toolkits.mplot3d import axes3d, Axes3D


# Parameters
f_mm = 0.016
f_px = f_mm / 0.00001
t_cam = np.array([[-1., 1., 5.]]).T
t_cam_homogeneous = np.vstack((t_cam, np.array([[0]])))
theta = 160. * np.pi / 180.
ox = 320
oy = 240
# Rotation and points are in homogeneous coordinates
rot_cam = np.array([[np.cos(theta), 0, np.sin(theta)],
                    [0, 1, 0],
                    [-np.sin(theta), 0, np.cos(theta)]])
points = np.array([[1, 1, 0.5, 1],
                   [1, 1.5, 0.5, 1],
                   [1.5, 1.5, 0.5, 1],
                   [1.5, 1, 0.5, 1]]).T

# Compute projection matrix using intrinsics and extrinsics
intrinsics = np.array([[f_px, 0, ox],
                       [0, f_px, oy],
                       [0, 0, 1]])
extrinsics = np.hstack((rot_cam, rot_cam.dot(-t_cam)))

rot_cam2 = np.identity(4); rot_cam2[:3,:3] = rot_cam
camera_coordinates = rot_cam2.dot(points - t_cam_homogeneous)
camera_coordinates = camera_coordinates[:3,:] / camera_coordinates[3,:]

# Perform the projection
projected_points = intrinsics.dot(camera_coordinates)
projected_points = projected_points[:2,:] / projected_points[2,:]
projected_points[0,:] = -projected_points[0,:] # Inverted x-axis because camera is pointing toward [0, 0, 1]

fig = plt.figure()
ax = Axes3D(fig)
ax.scatter(points[0,:], points[1,:], points[2,:], label="Points")
ax.scatter(t_cam[0], t_cam[1], t_cam[2], c="red", label="Camera")
ax.set_xlabel("X axis"); ax.set_ylabel("Y axis"); ax.set_zlabel("Z axis")
plt.title("World coordinates")
plt.legend()
plt.savefig('world_coordinates.png', dpi=300, bbox_inches="tight")

fig = plt.figure()
ax = Axes3D(fig)
ax.scatter(camera_coordinates[0,:], camera_coordinates[1,:], camera_coordinates[2,:], label="Points")
ax.scatter(0, 0, 0, c="red", label="Camera")
ax.set_xlabel("X axis"); ax.set_ylabel("Y axis"); ax.set_zlabel("Z axis")
plt.title("Camera coordinates")
plt.legend()
plt.savefig('camera_coordinates.png', dpi=300, bbox_inches="tight")

plt.figure()
plt.scatter(projected_points[0,:], projected_points[1,:])
plt.xlabel("X axis"); plt.ylabel("Y axis")
plt.title("Image coordinates")
plt.savefig('image_coordinates.png', dpi=300, bbox_inches="tight")

plt.show()

এটি আমাকে এই পরিসংখ্যানগুলি প্রদান করে: যথাক্রমে: ওয়ার্ল্ড কোঅর্ডিনেটস, ক্যামেরা স্থানাঙ্ক, ক্যামেরা স্থানাঙ্কটি কিছুটা ক্যামেরার অভিমুখীকরণের জন্য ফিট করা যায় (নোট করুন যে এখানে ক্যামেরা ভেক্টর চিত্রের দৃষ্টিভঙ্গির দিকে যায়, এটি চিত্রটি "প্রবেশ করে না") এবং চিত্রের স্থানাঙ্কগুলি।বিশ্ব সমন্বয় ক্যামেরা স্থানাঙ্ক ক্যামেরার স্থানাঙ্ক ঘোরানো চিত্রের স্থানাঙ্ক

সুতরাং আমরা দেখতে পাই যে নীচের পয়েন্টগুলির জন্য উল্লম্ব স্থানাঙ্কগুলি সঠিকভাবে মাঝারি সারিতে (240) এবং পয়েন্টগুলি চিত্রের ডান দিকে রয়েছে (অনুভূমিক মান> 320)।

আমি বিশ্বাস করি আপনার কাছে থাকা একটি বাগটি হ'ল আপনি নেতিবাচক এক্স মানগুলি খুঁজে পেয়েছেন, সুতরাং আপনি -f/Sxyক্ষতিপূরণ দেওয়ার জন্য ইন্টারনসিক্স ম্যাট্রিক্সের ফোকাসগুলি ( ) উপেক্ষা করেছেন । এখানে সমস্যাটি হ'ল আমরা ধরে নিয়েছি যে প্রাথমিকভাবে ক্যামেরাটি নির্দেশ করছে[0,0,1](অন্যথায় 160 ° ঘূর্ণন বিন্দুগুলির দিকে নির্দেশ করবে না)। আপনি যদি সেভাবে দেখেন তবেএক্সবাম দিকে যাওয়ার সময় অক্ষগুলি বৃদ্ধি পায় , এই অক্ষটির বিপরীতমুখী হওয়া উচিত।

আমাদের ফলাফল উভয়ই আমার সাথে সমান বলে মনে হচ্ছে, আপনি যেমন অনুমান করেছিলেন [0,-1,0] ক্যামেরাটির জন্য ভেক্টর আপ করুন (আসলে উভয় অক্ষই মিরর করা হয়েছিল কারণ আপনি উভয় কেন্দ্রকেই তুচ্ছ করেছেন), এবং মিটারের পরিবর্তে মিমিগুলিতে গণনা করেছিলেন।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.