কনভলিউশনাল নিউরাল নেটওয়ার্কের কনভলশন পদক্ষেপটি কী করে?


16

কম্পিউটার ভিশনে তাদের প্রয়োগগুলির কারণে আমি কনভ্যুশনাল নিউরাল নেটওয়ার্কগুলি (সিএনএন) অধ্যয়ন করছি। আমি ইতিমধ্যে স্ট্যান্ডার্ড ফিড-ফেওয়ার্ড নিউরাল নেটওয়ার্কগুলির সাথে পরিচিত, তাই আমি আশা করছি যে এখানে কিছু লোক আমাকে সিএনএন বোঝার জন্য অতিরিক্ত পদক্ষেপ নিতে সহায়তা করতে পারে। সিএনএন সম্পর্কে আমি যা মনে করি তা এখানে:

  1. Traditionalতিহ্যবাহী ফিড-ফেওয়ার্ড এনএনগুলিতে, আমাদের প্রশিক্ষণের ডেটা রয়েছে যেখানে প্রতিটি উপাদান এমন একটি বৈশিষ্ট্য ভেক্টর নিয়ে থাকে যা আমরা "ইনপুট স্তর" তে এনএন-এ ইনপুট করি, সুতরাং চিত্রের স্বীকৃতি সহ আমরা কেবল প্রতিটি পিক্সেলকে একটি ইনপুট রাখতে পারি। এগুলি আমাদের বৈশিষ্ট্য ভেক্টর। বিকল্পভাবে, আমরা ম্যানুয়ালি অন্য - সম্ভবত ছোট - বৈশিষ্ট্যযুক্ত ভেক্টর তৈরি করতে পারি।
  2. সিএনএন এর সুবিধা হ'ল এটি শক্তিশালী বৈশিষ্ট্যযুক্ত ভেক্টর তৈরি করতে পারে যা চিত্র বিকৃতি এবং অবস্থানের চেয়ে আরও বেশি আক্রমণাত্মক। নিম্নলিখিত চিত্রটি দেখায় ( এই টিউটোরিয়াল থেকে ), সিএনএনগুলি এমন একটি বৈশিষ্ট্য মানচিত্র তৈরি করে যা পরে কোনও মানক নিউরাল নেটওয়ার্ককে খাওয়ানো হয় (সুতরাং এটি সত্যিই একটি বিশাল প্রাক-প্রক্রিয়াজাতকরণ পদক্ষেপ)।

এখানে চিত্র বর্ণনা লিখুন

  1. আমরা এই "আরও ভাল" বৈশিষ্ট্যগুলি পাওয়ার উপায় হ'ল বিকল্প সমাধান এবং সাব-স্যাম্পলিং দ্বারা। আমি বুঝি কীভাবে সাব-স্যাম্পলিং কাজ করে। প্রতিটি বৈশিষ্ট্যের মানচিত্রের জন্য, কেবল পিক্সেলের একটি উপসেট নিন বা আমরা পিক্সেলের মানগুলি বের করতে পারি।

তবে আমি যা নিয়ে মূলত বিভ্রান্ত তা হ'ল বোঝার পদক্ষেপটি কীভাবে কাজ করে। আমি সম্ভাব্যতা তত্ত্ব (দুটি এলোমেলো ভেরিয়েবলের যোগফলের ঘনত্ব) থেকে উপলব্ধিগুলির সাথে পরিচিত, তবে তারা কীভাবে সিএনএন-তে কাজ করবে এবং কেন তারা কার্যকর?

আমার প্রশ্ন অনুরূপ এই এক কিন্তু বিশেষ করে, আমি নিশ্চিত কেন নই প্রথম সংবর্তন পদক্ষেপ কাজ করে।

উত্তর:


16

আমি প্রথমে সিএনএন এর পিছনে কিছু স্বজ্ঞাত ভাগ করে নেওয়ার চেষ্টা করব এবং তারপরে আপনি তালিকাভুক্ত বিশেষ বিষয়গুলিতে মন্তব্য করব।

কোনও সিএনএন-তে কনভলশন এবং সাব-স্যাম্পলিং স্তরগুলি একটি সাধারণ এমএলপিতে লুকানো স্তরগুলির চেয়ে আলাদা নয়, অর্থাত্ তাদের ইনপুট থেকে বৈশিষ্ট্যগুলি সন্ধান করা তাদের কাজ। এরপরে আরও জটিল জটিল বৈশিষ্ট্যগুলি বের করার জন্য এই বৈশিষ্ট্যগুলি পরবর্তী লুকানো স্তরে দেওয়া হয় বা চূড়ান্ত পূর্বাভাস (সাধারণত একটি সফটম্যাক্স, তবে এসভিএম বা অন্য কোনওটি ব্যবহার করা যেতে পারে) আউটপুট দেওয়ার জন্য সরাসরি কোনও স্ট্যান্ডার্ড শ্রেণিবদ্ধকে দেওয়া হয়। চিত্র স্বীকৃতি প্রসঙ্গে, এই বৈশিষ্ট্যগুলি হ'ল চিত্রগুলির আচরণগুলি, যেমন নিম্ন স্তরগুলিতে স্ট্রোক প্যাটার্ন এবং উপরের স্তরগুলির অবজেক্ট অংশগুলি।

প্রাকৃতিক চিত্রগুলিতে এই বৈশিষ্ট্যগুলি সমস্ত স্থানে একই থাকে। চিত্রগুলির মাঝামাঝি একটি নির্দিষ্ট স্ট্রোক প্যাটার্নটি সনাক্ত করা এটি সীমানার কাছাকাছি সনাক্ত করার মতো কার্যকর হবে useful তাহলে আমরা কেন লুকানো স্তরগুলি প্রতিলিপি করি না এবং ইনপুট চিত্রের সমস্ত অঞ্চলে এর একাধিক অনুলিপি সংযুক্ত করি না, যাতে একই বৈশিষ্ট্যগুলি কোথাও সনাক্ত করা যায়? এটি একটি সিএনএন ঠিক কী করে, তবে একটি দক্ষ উপায়ে। প্রতিলিপিটির পরে ("সমঝোতা" পদক্ষেপ) আমরা একটি উপ-নমুনা পদক্ষেপ যুক্ত করি, যা বিভিন্ন উপায়ে প্রয়োগ করা যেতে পারে তবে এটি উপ-নমুনা ছাড়া আর কিছুই নয়। তাত্ত্বিকভাবে এই পদক্ষেপটি এমনকি মুছে ফেলা যেতে পারে, তবে বাস্তবে সমস্যাটি ট্র্যাকটেবল থাকার জন্য এটি প্রয়োজনীয়।

এভাবে:

  1. সঠিক।
  2. উপরে বর্ণিত হিসাবে, একটি সিএনএন এর লুকানো স্তরগুলি নিয়মিত এমএলপির মতো বৈশিষ্ট্য নিষ্কাশনকারী। প্রশিক্ষণ এবং শ্রেণিবিন্যাসের সময় বিকল্প কনভোলিউশন এবং সাব-স্যাম্পলিং পদক্ষেপগুলি করা হয়, তাই এগুলি প্রকৃত প্রক্রিয়াজাতকরণের "পূর্বে" কিছু করা হয় না। আমি তাদের "প্রাক প্রসেসিং" বলব না, এমএলপির গোপন স্তরগুলিকে একইভাবে বলা হয় না।
  3. সঠিক।

3×35×5

এখানে চিত্র বর্ণনা লিখুন

9

পরবর্তী সমঝোতা এবং সাব-স্যাম্পলিং পদক্ষেপগুলি একই নীতি ভিত্তিক, তবে মূল চিত্রের কাঁচা পিক্সেলের পরিবর্তে পূর্ববর্তী স্তরে প্রাপ্ত বৈশিষ্ট্যগুলির তুলনায় গণিত।


স্পষ্টতার জন্য ধন্যবাদ। আপনি যে টিউটোরিয়াল উল্লেখ করেছেন তা আমি পরীক্ষা করব।
কম্পিউটার

সত্যিই দুর্দান্ত চিত্রগ্রাহক। রেফারনিকের কাজটি দেখুন: এম। অ্যাগমন্ট-পিটারসন, ডি ডি রাইডার, এইচ। হ্যান্ডেলস। নিউরাল নেটওয়ার্কগুলির সাথে চিত্র প্রক্রিয়াকরণ - একটি পর্যালোচনা, প্যাটার্ন রিকগনিশন, ভলিউম। 35, নং 10, পিপি 2279-2301, 2002
ম্যাচ মেকার EE

চার বছর পরে এবং এখন আমি প্রায় প্রতিদিন সিএনএন নিয়ে কাজ করি। @ সোল বেরার্ডোর এই পোস্টটি আমাকে সত্যিকারের পথে যেতে সাহায্য করেছে :)
কম্পিউটার

1

"প্রথম সমঝোতার পদক্ষেপটি কেন কাজ করে" আপনি কী বলতে চাইছেন তা আমার কোনও ধারণা নেই। সিএনএন সফল হওয়ার জন্য এটিতে অনেক স্তর থাকা দরকার। সিএনএন এবং অন্যান্য অনেক গভীর শিক্ষার পদ্ধতির পিছনে অন্যতম মৌলিক ধারণা হ'ল বৃহত্তর সংকেতগুলি তাদের ছোট অংশগুলির স্থানিক পারস্পরিক সম্পর্ক দ্বারা চিহ্নিত করা যায় যা খুব কম উপস্থাপন করা যায়। অন্য কথায়, চিত্রগুলি জটিল দেখতে পারে তবে সেগুলি কয়েকটি কয়েকটি প্রাথমিক অংশের সংমিশ্রণে তৈরি করা হয়েছে। কম্পিউটার দর্শনের জন্য, চিত্রগুলিতে বেসলাইন কাঠামোটি সাধারণত প্রান্ত এবং কোণগুলির সমন্বয়ে গঠিত। সিএনএন একটি সাধারণ চিত্রায়িত কাঠামোর সন্ধান করে কোনও চিত্রের কাঠামোর স্বল্পতা কাজে লাগানোর চেষ্টা করে। সিএনএন এর প্রথম স্তরটি এটি নির্ধারণের চেষ্টা করছে। একটি মিল ফিল্টার হিসাবে একটি কনভোলশন মনে করুন যা নির্দিষ্ট টেম্পলেটটির সাথে মেলে এমন সংকেতগুলির সন্ধান করছে। এটি কতটা ভাল কাজ করে তা হাতের ডেটার উপর নির্ভর করে। ভাগ্যক্রমে বিশ্বটি ছোট আকারে পুনরাবৃত্তিতে পূর্ণ, সুতরাং সিএনএন কম্পিউটার ভিশন কাজের জন্য ভাল কাজ করে।


হ্যাঁ, আমি মনে করি এটি সাধারণ ধারণা। আমি আমার মূল প্রশ্নে স্পষ্ট ছিল না, কিন্তু কেন গণিত কাজ আমি ভাবছিলাম, অর্থাত্, কেন সংবর্তন সম্পত্তি নিজেই পারবেন প্রথম স্তর ঐ ছোট অংশ খুঁজে।
কম্পিউটার

1
সমঝোতা এবং মিলে যাওয়া ফিল্টারিং সম্পর্কে আরও পড়ুন। যখন কনভোলশন কার্নেল সিগন্যালের সাথে মেলে এটি সর্বাধিক রিটার্ন দেয়।
সিম্পললাইকএএনএজিজি

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.