ইমেজ ফর্ম্যাট (png, jpg, gif) কীভাবে কোনও চিত্র স্বীকৃতি নিউরাল নেট প্রশিক্ষিত হয় তা প্রভাবিত করে?


23

আমি জানি যে চিত্র, স্বীকৃতি, চিত্রের শ্রেণিবিন্যাস ইত্যাদির সাথে গভীর, সমঝোতা সংক্রান্ত নিউরাল জাল ইত্যাদির ক্ষেত্রে প্রচুর অগ্রগতি হয়েছে।

তবে আমি যদি নেটটি প্রশিক্ষণ দিই, বলুন, পিএনজি চিত্রগুলি, এটি কি কেবল এতক্ষণের এনকোডযুক্ত চিত্রগুলির জন্য কাজ করবে ? অন্যান্য কোন চিত্রের বৈশিষ্ট্য এটি প্রভাবিত করে? (আলফা চ্যানেল, ইন্টারলেসিং, রেজোলিউশন ইত্যাদি?)


2
আত্মবিশ্বাসের উত্তর দেওয়ার জন্য আমার কাছে চিত্রগুলির পরিসংখ্যানগুলির সাথে পর্যাপ্ত অভিজ্ঞতা নেই তবে আমি আশা করব যে বিভিন্ন মডেল চিত্রগুলিকে বৈশিষ্ট্যগুলিতে কোড করার জন্য সম্পূর্ণ আলাদা স্কিম ব্যবহার করে, যার মধ্যে কিছু ক্ষতিগ্রস্থ জেপিইজি সংক্ষেপণ, আলফা চ্যানেল ইত্যাদি দ্বারা প্রভাবিত হবে would ।, এবং এর মধ্যে কিছু না, বিশদটি মডেল-নির্দিষ্ট হয়ে থাকবে। আমি জানি যে উভয়ই মডেল রয়েছে যা প্রতিটি পিক্সেলকে বৈশিষ্ট্য হিসাবে বিবেচনা করে এবং এমন মডেলগুলি যা অঞ্চলে চিত্রগুলি খোদাই করে এবং অঞ্চল বৈশিষ্ট্যগুলি বৈশিষ্ট্য হিসাবে ব্যবহার করে।
কোডিওলজিস্ট

উত্তর:


20

সংক্ষিপ্ত উত্তর হয় না

যে বিন্যাসে চিত্রটি এনকোড করা হয়েছে তার মানের সাথে সম্পর্কিত। নিউরাল নেটওয়ার্কগুলি মূলত গাণিতিক মডেল যা প্রচুর পরিমাণে এবং প্রচুর ক্রিয়াকলাপ সম্পাদন করে (ম্যাট্রিক্স গুণ, উপাদান অনুসারে সংযোজন এবং ম্যাপিং ফাংশন)। একটি নিউরাল নেটওয়ার্ক একটি টেনসরকে এর ইনপুট হিসাবে দেখায় (অর্থাত্ একটি বহুমাত্রিক অ্যারে)। এটির আকারটি সাধারণত 4-ডি হয় (প্রতি ব্যাচে চিত্রের সংখ্যা, চিত্রের উচ্চতা, চিত্রের প্রস্থ, চ্যানেলের সংখ্যা)।

বিভিন্ন চিত্রের ফর্ম্যাটগুলি (বিশেষত ক্ষতিগ্রস্থ ব্যক্তিরা) বিভিন্ন ইনপুট অ্যারে তৈরি করতে পারে তবে কঠোরভাবে বললে নিউরাল নেট তাদের ইনপুটটিতে অ্যারে দেখতে পায় এবং চিত্রগুলি না images


4

ডিজিব ২০১১ এর উত্তরটি সঠিক হলেও আমি আপনার প্রশ্নটিকে আরও বেশি কেন্দ্রীভূত হিসাবে সাধারণভাবে নিউরাল নেটওয়ার্ক শিখনকে চিত্রের গুণমান / বৈশিষ্ট্যগুলিকে প্রভাবিত করে তা বুঝতে পারি। এই বিষয়ে (আফাইক) কেবল সামান্য গবেষণা হয়েছে, তবে ভবিষ্যতে আরও গবেষণা হতে পারে। আমি কেবল এটিতে এই নিবন্ধটি খুঁজে পেয়েছি । এই মুহুর্তে সমস্যাটি হ'ল, এটি ব্যবহারিক প্রয়োগগুলিতে এবং একাডেমিক গবেষণার ক্ষেত্রে কম সমস্যা দেখা দেয়। আমার একটি বর্তমান পডকাস্ট মনে আছে যেখানে গবেষকরা পর্যবেক্ষণ করেছেন যে এমনকি ছবি তোলার জন্য ব্যবহৃত ক্যামেরাটিও বড় প্রভাব ফেলতে পারে।


আপনি কি আমাকে পডকাস্টে নির্দেশ করতে পারেন?
ডেভিড আর্নস্ট

এটি "টকিং মেশিনগুলির" এক ঘন্টা পর্ব, যেখানে তাদের গবেষক আফ্রিকার মেশিন লার্নিং অনুশীলনকারীদের সাথে আলোচনা করেছেন (সিএ। মধ্য থেকে শেষ) আইটিউনস লিঙ্ক: itunes.apple.com/de/podcast/talking-machines/…
ববিপুগি

2

এটি ডিজিব ২০১১ এর প্রথম উত্তরের এক ঝাঁকুনি। সংক্ষিপ্ত উত্তর হতে হবে না। দীর্ঘতর - প্রথমত ফটোগুলি সবসময় নীচে টেনসর হিসাবে এনকোড থাকে। একটি চিত্র পিক্সেল একটি সংখ্যা। যদি ফটোতে এম সারি এবং এন কলাম রয়েছে বলে মনে করা হয় তবে প্রতিটি পিক্সেলটি তার সারি এবং কলামের অবস্থান দ্বারা নির্দিষ্ট করা হয়, এটি জোড় (মি, এন) দ্বারা। বিশেষত এখানে এম * এন পিক্সেল রয়েছে যা এমনকি 'ছোট' ছবিগুলির জন্য খুব বড় very ছবির প্রতিটি পিক্সেল শূন্য এবং এক (কালোভাবের তীব্রতা) এর মধ্যে একটি নম্বর দ্বারা এনকোড থাকে যদি ছবি কালো এবং সাদা হয়। ফটোটির রঙ হলে এটি তিনটি সংখ্যার (আরজিবি তীব্রতা) দ্বারা এনকোড হয়। সুতরাং একগুলি একটি টেনসরের সাথে বাতাস বেজে যায় এটি হয় 1xmxn বা 3xxxn। চিত্রের স্বীকৃতি সিএনএন-এর মাধ্যমে করা হয় যা ফটোগুলি পিক্সেল থেকে পিক্সেল থেকে খুব বেশি পরিবর্তন করে না, এই সুযোগটি গ্রহণ করে সংকোচনেফিল্টার এবং পুলিংয়ের মাধ্যমে ডেটা। সুতরাং মুল বক্তব্যটি হ'ল সিএনএন এর কাজটি অল্প অল্প সংখ্যক মানগুলিতে কোনও ছবির অবিশ্বাস্যভাবে বিপুল সংখ্যক ডেটা পয়েন্ট (বা বৈশিষ্ট্যগুলি) সংকুচিত করে work সুতরাং আপনি যে ফর্ম্যাটটি দিয়ে শুরু করুন না কেন, সিএনএন-র শুরু করে ছবির ডেটা আরও সংকুচিত করে। সুতরাং ছবির প্রতিনিধিত্ব আকার থেকে প্রতি সে।
তবে, একটি সিএনএন দাবি করবে যে এটির মাধ্যমে চলমান সমস্ত চিত্র একই আকারের। সুতরাং সেই নির্ভরতা যা চিত্রটি কীভাবে সংরক্ষণ হয় তার উপর নির্ভর করে পরিবর্তিত হবে। তদতিরিক্ত, একই আকারের বিভিন্ন ফাইল ফর্ম্যাটগুলি তাদের টেনারদের জন্য বিভিন্ন মান তৈরি করে, বিভিন্ন পদ্ধতিতে সঞ্চিত ফটোগুলি সনাক্ত করতে কেউ একই সিএনএন মডেল ব্যবহার করতে পারে না।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.