ডিসিটি এবং পিসিএর মধ্যে সম্পর্ক


12

চিত্র এবং ভিডিও সংকোচনে ব্যবহৃত 2 ডি 8x8 ডিসিটি সম্পর্কে আমার কাছে একটি প্রাথমিক বাস্তবায়ন জ্ঞান রয়েছে। নীতিগত উপাদান বিশ্লেষণ সম্পর্কে পড়ার পরে, আমি অনেক মিল দেখতে পাচ্ছি, যদিও পিসিএ আরও স্পষ্টতই জেনেরিক। আমি যখন আগে ডিসিটি সম্পর্কে পড়েছি তখন এটি সর্বদা ডিএফটি-র সাথে সম্পর্কিত ছিল। সুতরাং আমার প্রশ্নটি কীভাবে ডিসিটি পিসিএ দৃষ্টিকোণ থেকে নেওয়া যেতে পারে? (এমনকি একটি হাত-ওয়াভির ব্যাখ্যাও যথেষ্ট)

অনেক ধন্যবাদ

উত্তর:


19

ডিসিটি এবং পিসিএর মধ্যে মূল পার্থক্য (আরও সুনির্দিষ্টভাবে, এর পারস্পরিক সম্পর্ক ম্যাট্রিক্সের আইজেনভেেক্টর দ্বারা গঠিত ভিত্তিতে একটি ডেটাসেটকে উপস্থাপন - এটি কারহুনেন লয়েভ ট্রান্সফর্ম হিসাবেও পরিচিত ) হ'ল পিসিএ অবশ্যই প্রদত্ত ডেটাসেটের সাথে সংজ্ঞায়িত করা উচিত (যেখান থেকে পারস্পরিক সম্পর্ক মেট্রিক্স অনুমান করা হয়), তবে ডিসিটি "পরম" এবং কেবল ইনপুট আকার দ্বারা সংজ্ঞায়িত হয়। এটি পিসিএটিকে একটি "অভিযোজিত" রূপান্তরিত করে, যখন ডিসিটি ডেটা-স্বতন্ত্র।

কেউ ভাবতে পারেন যে পিসিএ তার অভিযোজ্যের কারণে চিত্র বা অডিও সংকোচনে কেন প্রায়শই বেশি ব্যবহৃত হয় না। দুটি কারণ রয়েছে:

  1. কোনও এনকোডার একটি ডেটাসেটের একটি পিসিএ গণনা এবং সহগের এনকোডিংয়ের কল্পনা করুন। ডেটাসেটটি পুনর্গঠন করতে, ডিকোডারটির কেবলমাত্র সহগগুলিই নয়, ট্রান্সফর্ম ম্যাট্রিক্সেরও প্রয়োজন হবে (এটি ডেটার উপর নির্ভর করে, যার এতে অ্যাক্সেস নেই!)। ডিসিটি বা অন্য কোনও ডেটা-ইন্ডিপেন্ডেন্ট ট্রান্সফর্মটি ইনপুট ডেটাতে পরিসংখ্যানগত নির্ভরতা অপসারণে কম দক্ষ হতে পারে তবে ট্রান্সফর্ম ম্যাট্রিক্স কোডার এবং ডিকোডার উভয় দ্বারা সংক্রমণের প্রয়োজন ছাড়াই আগে থেকেই পরিচিত। একটি "যথেষ্ট যথেষ্ট" রূপান্তর যার জন্য সামান্য পার্শ্ব সম্পর্কিত তথ্য প্রয়োজন কখনও কখনও অনুকূল ট্রান্সফর্মের চেয়ে ভাল যার জন্য অতিরিক্ত তথ্যের অতিরিক্ত ভার প্রয়োজন ...

  2. NN×64এই টাইলগুলির আলোকিততা সহ ম্যাট্রিক্স। এই ডেটাতে একটি পিসিএ গণনা করুন, এবং মূল উপাদানগুলি প্লট করুন যা অনুমান করা হবে। এটি একটি খুব জ্ঞানদীপ্ত পরীক্ষা! খুব ভাল সম্ভাবনা রয়েছে যে বেশিরভাগ উচ্চ-র‌্যাঙ্কড ইগেনভেেক্টরগুলি ডিসিটি ভিত্তির মডেলযুক্ত সাইন-ওয়েভ প্যাটার্নগুলির মতো দেখায়। এর অর্থ হ'ল যথেষ্ট পরিমাণে বড় এবং জেনেরিক চিত্রের টাইলগুলির জন্য, ডিসিটি হ'ল ইগেনবাসিসের খুব ভাল অনুমান ima একই জিনিসটি অডিওর জন্যও যাচাই করা হয়েছে, যেখানে মেল-স্পেস ফ্রিকোয়েন্সি ব্যান্ডগুলিতে লগ-সিগন্যাল শক্তির জন্য ইগেনবাসিসমূহ, অডিও রেকর্ডিংয়ের একটি বৃহত পরিমাণে অনুমান করা হয়, এটি ডিসিটি ভিত্তির নিকটেই রয়েছে (অতএব সজ্জা রূপান্তর হিসাবে ডিসিটির ব্যবহার এমএফসিসি কম্পিউটিং করার সময়)।


1
এটি আকর্ষণীয়, তবে শুরু হওয়া চিত্রগুলির 'স্বাভাবিক' পরিসংখ্যানের ভিত্তিতে আর ডিসিটির পরিবর্তে ব্যবহার করা কোনও আলাদা ভিত্তি সেট তৈরি করা যায় না? আমি ভাবছি এমন ভিত্তি পিসিএর মতো ভাল হবে না, তবে ডিসিটি না হলে আরও ভাল হবে?
স্পেসি

@ পিচনেটস - ডিসিটি সম্পর্কিত, ক্রমবর্ধমান অনুভূমিক এবং উল্লম্ব ফ্রিকোয়েন্সি (যেমন goo.gl/XLMt5 ) এর সাধারণ চিত্রগুলি কী? এটি কি ডিসিটি ভিত্তিক কার্যাবলীর চিত্রের প্রতিনিধিত্ব? যদি তা হয় তবে আমি যদি এই চিত্রগুলির কোভারিয়েন্স ম্যাট্রিক্স থেকে পিসিএ / আইজেনভেেক্টরগুলি গণনা করি - তবে এটি কি আমাকে মূলত ডিসিটি সহগ ম্যাট্রিক্স দেবে?
ত্রিকান

বিটিডব্লু @ পিচনেটেস আপনার অন্তর্দৃষ্টিপূর্ণ উত্তরের জন্য অনেক ধন্যবাদ। আমি পয়েন্ট 1 সম্পর্কে সচেতন ছিলাম, তবে সত্যই 2 পয়েন্টটি বিবেচনা করি নি
ট্রিকান

1
@ মোহাম্মদ: এটি একটি ভাল প্রশ্ন এবং আমি উত্তরটি জানি না। আমি ডিসিটি ব্যবহারে সুবিধাগুলি দেখতে পাচ্ছি: স্পেস লিখতে সহজ ("আমাদের ট্রান্সফর্মটি এই বদ্ধ ফর্ম ফাংশন" এর চেয়ে "আমাদের ট্রান্সফর্মটি এই এনেক্সে প্রকাশিত এই 64x64 ম্যাট্রিক্স"), কোন ডেটাসেটকে প্রশিক্ষণ দেওয়ার বিষয়ে কোনও মানসম্মত কমিটি সভা করেনি রূপান্তরটি চালু করুন, ডিকোডারসের রম এম্বেড করার জন্য কম অনুসন্ধান সারণী এবং সম্ভবত ট্রান্সফর্ম ম্যাট্রিক্সে "প্রতিসাম্য" যা তার হার্ডওয়্যার ত্বরণকে একটি নৃশংস 64x64 ম্যাট্রিক্স গুণনের তুলনায় সম্ভব করে তোলে - এই সুবিধাগুলি প্রান্তিক সংকোচনের লাভকে ছাড়িয়ে যেতে পারে।
পিচেনেটস

1
@ ত্রিকান: আপনি যে চিত্রটির সাথে লিঙ্ক করেছেন তা 8x8 টাইলসের জন্য 2-ডিসিটি ভিত্তির প্রতিনিধিত্ব করে। Small৪ টি ছোট ছোট টাইলগুলির প্রতিটিই একটি ভিত্তি ফাংশন। আপনি যদি সত্যিকারের চিত্রগুলি থেকে 8x8 টাইলের একটি বড় সংগ্রহ নেন এবং ডেটাতে একটি পিসিএ করেন, আপনি যে ইগেনবাস পাবেন তা তার সাথে বেশ মিল।
পিচনেটগুলি
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.