"কোনও চিত্রের এনট্রপি গণনা করার জন্য সর্বাধিক তথ্য / পদার্থবিজ্ঞান-তাত্ত্বিক সঠিক উপায় কী?"
একটি দুর্দান্ত এবং সময়োচিত প্রশ্ন।
জনপ্রিয় বিশ্বাসের বিপরীতে, কোনও চিত্রের জন্য একটি স্বজ্ঞাত (এবং তাত্ত্বিকভাবে) প্রাকৃতিক তথ্য-এনট্রপি সংজ্ঞা দেওয়া সম্ভব।
নিম্নলিখিত চিত্রটি বিবেচনা করুন:
আমরা দেখতে পাচ্ছি যে ডিফারেনশিয়াল ইমেজের আরও কমপ্যাক্ট হিস্টোগ্রাম রয়েছে, সুতরাং এর শ্যাননের তথ্য-এনট্রপি কম is সুতরাং আমরা দ্বিতীয় ক্রম শ্যানন এনট্রপি (অর্থাত্ ডিফারেনশাল ডেটা থেকে প্রাপ্ত এনট্রপি) ব্যবহার করে নিম্নতর রিডানডেন্সি পেতে পারি। যদি আমরা এই ধারণাটি আইসোট্রপিকভাবে 2 ডি তে প্রসারিত করতে পারি, তবে আমরা চিত্রের তথ্য-এনট্রপির জন্য ভাল অনুমানের আশা করতে পারি।
গ্রেডিয়েন্টগুলির একটি দ্বিমাত্রিক হিস্টোগ্রাম 2 ডি এক্সটেনশনের অনুমতি দেয়।
আমরা যুক্তিগুলিকে আনুষ্ঠানিক করতে পারি এবং সত্যই, এটি সম্প্রতি সম্পন্ন হয়েছে। সংক্ষিপ্তভাবে পুনরায় কল করা:
সরল সংজ্ঞা (চিত্র এনট্রপির উদাহরণ হিসাবে ম্যাটল্যাবের সংজ্ঞা দেখুন) স্থানিক কাঠামো উপেক্ষা করে এমন পর্যবেক্ষণ অত্যন্ত গুরুত্বপূর্ণ। এটি কী চলছে তা বোঝার জন্য সংক্ষেপে 1 ডি কেসে ফিরে আসা ভাল। এটি বহু আগে থেকেই জানা যায় যে তার শ্যাননের তথ্য / এনট্রপি গণনা করার জন্য সিগন্যালের হিস্টোগ্রাম ব্যবহার করে অস্থায়ী বা স্থানিক কাঠামো উপেক্ষা করা হয় এবং সিগন্যালের অন্তর্নিহিত সংকোচনের বা অপ্রয়োজনীয়তার একটি খারাপ ধারণা দেয়। সমাধানটি ইতিমধ্যে শ্যাননের ক্লাসিক পাঠ্যে উপলভ্য ছিল; সংকেতের দ্বিতীয় ক্রমের বৈশিষ্ট্যগুলি ব্যবহার করুন, অর্থাত্ ট্রানজিশন সম্ভাবনা। একাত্তরের পর্যবেক্ষণ (ধান ও চাল প্ল্যান্ট) যে কোনও রাস্টার স্ক্যানের পিক্সেলের মানটির সর্বোত্তম ভবিষ্যদ্বাণীকারী পূর্ববর্তী পিক্সেলের মানটি তাত্ক্ষণিকভাবে একটি ডিফারেনশিয়াল প্রেডিকটার এবং দ্বিতীয় ক্রম শ্যানন এনট্রপিকে নিয়ে যায় যা রান দৈর্ঘ্যের এনকোডিংয়ের মতো সহজ সংকোচনের ধারণার সাথে সামঞ্জস্য হয়। এই ধারণাগুলি 80 এর দশকের শেষের দিকে পরিমার্জন করা হয়েছিল যার ফলে কিছু ক্লাসিক লসলেস চিত্র (ডিফারেনশিয়াল) কোডিং কৌশল রয়েছে যা এখনও ব্যবহার করা হচ্ছে (পিএনজি, লসলেস জেপিজি, জিআইএফ, লসলেস জেপিজি 2000) যখন ওয়েভলেট এবং ডিসিটি কেবল ক্ষতিকারক এনকোডিংয়ের জন্য ব্যবহৃত হয়।
এখন 2 ডি তে সরানো; গবেষকরা ওরিয়েন্টেশন নির্ভরতা প্রবর্তন না করে শ্যাননের ধারণাকে উচ্চ মাত্রায় প্রসারিত করা খুব কঠিন বলে মনে করেন। স্বজ্ঞাতভাবে আমরা প্রত্যাশা করতে পারি যে কোনও চিত্রের শ্যানন তথ্য-এনট্রপিটি তার অভিমুখীকরণ থেকে স্বতন্ত্র হবে। আমরা জটিল স্থানিক কাঠামোযুক্ত চিত্রগুলির (যেমন প্রশ্নকারীর এলোমেলো শব্দের উদাহরণের মতো) সাধারণ স্থানিক কাঠামোযুক্ত চিত্রগুলির তুলনায় উচ্চতর তথ্য-এনট্রপি পাওয়ার আশা করি (যেমন প্রশ্নকারীর মসৃণ ধূসর-স্কেল উদাহরণ)। দেখা যাচ্ছে যে শ্যাননের ধারণাগুলি 1D থেকে 2D তে প্রসারিত করা এতটা কঠিন কারণ হ'ল শ্যাননের মূল গঠনে একটি (একতরফা) অসম্পূর্ণতা রয়েছে যা 2 ডি-তে একটি প্রতিসম (আইসোট্রপিক) গঠনে বাধা দেয়। একবার 1D অসমমিতি সংশোধন হয়ে গেলে 2D এক্সটেনশন সহজে এবং প্রাকৃতিকভাবে এগিয়ে যেতে পারে।
ধাওয়া কাটা (আগ্রহী পাঠকরা https://arxiv.org/abs/1609.01117 এ আরএক্সআইভি প্রিপ্রিন্টের বিশদ বিবরণটি পরীক্ষা করে দেখতে পারেন ) যেখানে চিত্রের এনট্রপি গ্রেডিয়েন্টের 2D হিস্টোগ্রাম (গ্রেডিয়েন্ট সম্ভাবনার ঘনত্ব ফাংশন) থেকে গণনা করা হয়।
প্রথমে 2 ডি পিডিএফটি x এবং y ডেরিভেটিভগুলির চিত্রগুলির বাইনিং অনুমান দ্বারা গণনা করা হয়। এটি 1D তে আরও সাধারণ তীব্রতা হিস্টোগ্রাম তৈরি করতে ব্যবহৃত বিনিং অপারেশনের অনুরূপ। ডেরাইভেটিভগুলি অনুভূমিক এবং উল্লম্ব দিকগুলিতে গণনা করা 2 পিক্সেলের সসীম পার্থক্য দ্বারা অনুমান করা যায়। একটি এনএক্সএন বর্গক্ষেত্র চিত্র f (x, y) এর জন্য আমরা আংশিক ডেরাইভেটিভ fx এবং Fy এর NxN মানগুলির NxN মানগুলি গণনা করি। আমরা ডিফারেনশিয়াল ইমেজটির মাধ্যমে এবং প্রতিটি পিক্সেলের জন্য আমরা গন্তব্য (2 ডি পিডিএফ) অ্যারেতে একটি বিচ্ছিন্ন বিন সনাক্ত করতে ব্যবহার করি (fx, fy) যা পরে একে একে বাড়ানো হয়। আমরা সমস্ত এনএক্সএন পিক্সেলের জন্য পুনরাবৃত্তি করি। সামগ্রিক ইউনিটের সম্ভাব্যতা অর্জনের জন্য ফলাফল 2D পিডিএফকে অবশ্যই স্বাভাবিক করতে হবে (কেবলমাত্র এনএক্সএন দ্বারা ভাগ করা এটি অর্জন করে)। 2 ডি পিডিএফ এখন পরবর্তী পর্যায়ে প্রস্তুত।
2 ডি গ্রেডিয়েন্ট পিডিএফ থেকে 2 ডি শ্যানন তথ্য এনট্রপির গণনা সহজ। শ্যাননের ক্লাসিক লোগারিথমিক সামিট ফর্মুলাটি অর্ধেকের একটি গুরুত্বপূর্ণ ফ্যাক্টর ব্যতীত সরাসরি প্রযোজ্য যা গ্রেডিয়েন্ট চিত্রের জন্য বিশেষ ব্যান্ডিলিটেড স্যাম্পলিং বিবেচনা থেকে উত্পন্ন হয় (বিশদগুলির জন্য আরক্সিব পেপার দেখুন)। অর্ধ ফ্যাক্টর 2 ডি এনট্রপি বা লসলেস সংকোচনের অনুমানের জন্য অন্যান্য (আরও রিডানড্যান্ট) পদ্ধতির তুলনায় গণিত 2 ডি এন্ট্রপিটিকে আরও কম করে তোলে।
আমি দুঃখিত আমি এখানে প্রয়োজনীয় সমীকরণগুলি লিখে রাখিনি তবে প্রিপ্রিন্ট পাঠ্যে সমস্ত কিছুই পাওয়া যায়। গণনাগুলি প্রত্যক্ষ (অ-পুনরাবৃত্ত) এবং গণনা জটিলতা অর্ডার হয় (পিক্সেলের সংখ্যা) এনএক্সএন। চূড়ান্ত গণনা করা শ্যানন ইনফরমেশন-এন্ট্রপিটি ঘূর্ণন স্বাধীন এবং অ-রিরানডেন্ট গ্রেডিয়েন্ট উপস্থাপনায় চিত্রটি এনকোড করার জন্য প্রয়োজনীয় বিটের সংখ্যার সাথে যথাযথভাবে সামঞ্জস্য করে।
যাইহোক, নতুন 2 ডি এনট্রপি পরিমাপটি মূল প্রশ্নে মসৃণ গ্রেডিয়েন্ট চিত্রের জন্য এলোমেলো চিত্রের জন্য প্রতি পিক্সেল 8 বিট এবং পিক্সেল 0.000 বিট প্রতি 0.000 বিট এর একটি (স্বজ্ঞাতভাবে আনন্দদায়ক) এনট্রপির পূর্বাভাস দিয়েছে।