কম্পিউটার ভিশন এবং কনভোলশনাল নিউরাল নেটওয়ার্কে অনুবাদ অদৃশ্যতা কী?

38

আমার কাছে কম্পিউটার ভিশন ব্যাকগ্রাউন্ড নেই, তবুও যখন আমি কিছু চিত্র প্রক্রিয়াকরণ এবং কনভোলশনাল নিউরাল নেটওয়ার্ক সম্পর্কিত নিবন্ধ এবং কাগজপত্র পড়ি, তখন আমি নিয়মিত শব্দটির মুখোমুখি translation invariance, বা translation invariant।
বা আমি কনভলিউশন অপারেশন সরবরাহ করে যে অনেক পড়েছি translation invariance? !! এটার মানে কি?
আমি নিজেই এটি সর্বদা আমার কাছে অনুবাদ করেছিলাম যেন এর অর্থ যদি আমরা কোনও আকারে কোনও চিত্র পরিবর্তন করি তবে চিত্রটির আসল ধারণাটি পরিবর্তন হয় না।
উদাহরণস্বরূপ, যদি আমি কোনও চিত্রের গাছটিকে বলি তবে এটি আবার একটি গাছ যা আমি সে ছবিটিতে যাই করুক না কেন tree
এবং আমি নিজে সমস্ত অপারেশন বিবেচনা করি যা কোনও চিত্রের সাথে ঘটতে পারে এবং এটিকে কোনও উপায়ে রূপান্তর করতে হবে (এটি ক্রপ করুন, এটি আকার দিন, ধূসর আকারে করুন, রঙ করুন ইত্যাদি ...)। এটি সত্য কিনা আমার কোনও ধারণা নেই তাই কেউ যদি আমাকে এটি ব্যাখ্যা করতে পারে তবে আমি কৃতজ্ঞ হব।

— Rika
সূত্র

61

আপনি সঠিক পথে আছেন

ইনভেরিয়েন্সের অর্থ হ'ল আপনি কোনও অবজেক্টকে কোনও বস্তু হিসাবে চিনতে পারবেন, এমনকি যদি তার উপস্থিতি কিছু উপায়ে পরিবর্তিত হয়। এটি সাধারণত একটি ভাল জিনিস, কারণ এটি দর্শকের / ক্যামেরার এবং অবজেক্টের আপেক্ষিক অবস্থানের মতো ভিজ্যুয়াল ইনপুটগুলির নির্দিষ্টকরণের পরিবর্তনগুলিতে সামগ্রীর পরিচয়, বিভাগ, (ইত্যাদি) সংরক্ষণ করে।

নীচের চিত্রটিতে একই মূর্তির অনেকগুলি দর্শন রয়েছে। প্রকৃত পিক্সেল মানগুলি একেবারে পৃথক হলেও আপনি (এবং সু প্রশিক্ষিত নিউরাল নেটওয়ার্কগুলি) প্রতিটি ছবিতে একই জিনিসটি উপস্থিত হতে পারে তা বুঝতে পারবেন।

নোট করুন যে এখানে অনুবাদটির দৃষ্টিভঙ্গির একটি নির্দিষ্ট অর্থ রয়েছে, জ্যামিতি থেকে ধার করা। এটি ফরাসী থেকে ইংরেজী বা ফাইল ফর্ম্যাটগুলির মধ্যে কোনও অনুবাদ হিসাবে বলা থেকে আলাদা কোনও ধরণের রূপান্তরকে বোঝায় না। পরিবর্তে, এর অর্থ হ'ল চিত্রের প্রতিটি পয়েন্ট / পিক্সেল একই পরিমাণে একই দিকে সরানো হয়েছে। পর্যায়ক্রমে, আপনি উত্সটিকে বিপরীত দিকে সমান পরিমাণে স্থানান্তরিত করা হিসাবে ভাবতে পারেন। উদাহরণস্বরূপ, আমরা প্রতিটি পিক্সেল 50 বা 100 পিক্সেলকে ডানে সরিয়ে প্রথম থেকে প্রথম সারিতে 2 য় এবং 3 য় চিত্র উত্পন্ন করতে পারি।

কেউ বোঝাতে পারেন যে কনভোলশন অপারেটর অনুবাদটির প্রতি সম্মান প্রদর্শন করে। যদি আপনি

সাথে

f

$f$ কনভলভ করেন তবে আপনি কনভলড আউটপুট

অনুবাদ করেন কিনা, বা আপনি যদি

বা

প্রথমে অনুবাদ করেন তবে তাতে কিছু আসে যায় না । উইকিপিডিয়ায় আরও কিছু আছে ।

g

$g$

f * g

$f*g$

f

$f$

g

$g$

অনুবাদ-আক্রমণকারী অবজেক্টের স্বীকৃতি পাওয়ার জন্য একটি পদ্ধতি হ'ল অবজেক্টের একটি "টেম্পলেট" নেওয়া এবং এটি চিত্রের অবজেক্টের প্রতিটি সম্ভাব্য অবস্থানের সাথে মিলিত করা। আপনি যদি কোনও স্থানে একটি বিশাল প্রতিক্রিয়া পান তবে এটি প্রস্তাব দেয় যে টেমপ্লেটের অনুরূপ একটি বস্তু সেই স্থানে রয়েছে is এই পদ্ধতির প্রায়শই টেমপ্লেট-ম্যাচিং বলা হয় ।

ইনভেরিয়েন্স বনাম ইক্যুভিরিয়েন্স

Santanu_Pattanayak এর উত্তর ( এখানে ) তুলে ধরে অনুবাদ মধ্যে একটি পার্থক্য নেই invariance এবং অনুবাদ equivariance । অনুবাদ ইনভেরিয়েন্সের অর্থ হ'ল সিস্টেমটি তার ইনপুট কীভাবে স্থানান্তরিত হয় তা নির্বিশেষে হুবহু একই রকম প্রতিক্রিয়া তৈরি করে। উদাহরণস্বরূপ, কোনও ফেস-ডিটেক্টর শীর্ষ সারিতে থাকা তিনটি চিত্রের জন্য "ফ্যাক্স ফাউন্ড" প্রতিবেদন করতে পারে। সমতা অর্থ হ'ল সিস্টেমটি পজিশনে সমানভাবে ভালভাবে কাজ করে, তবে এর প্রতিক্রিয়াটি লক্ষ্য অবস্থানের সাথে বদল হয়। উদাহরণস্বরূপ, "মুখের ইনসেস" এর উত্তাপের মানচিত্রে চিত্রের প্রথম সারিতে প্রক্রিয়া করার সময় বাম, কেন্দ্র এবং ডানদিকে একই ধরণের বাধা থাকবে।

এটি কখনও কখনও একটি গুরুত্বপূর্ণ পার্থক্য, তবে অনেক লোক উভয় ঘটনাকেই "আক্রমণাত্মকতা" বলে অভিহিত করে, বিশেষত যেহেতু এটি একটি সমতুল্য প্রতিক্রিয়াটিকে একটি অবিস্মরণীয় রূপে রূপান্তর করা সাধারণত তুচ্ছ - সমস্ত অবস্থানের তথ্যকে অবজ্ঞা করে)।

— ম্যাট ক্রাউস
সূত্র

2

আমি সাহায্য করতে পেরে আনন্দিত. এটি আমার বড় গবেষণার আগ্রহের একটি তাই তাই যদি কার্যকর কিছু কার্যকর কিছু থাকে তবে আমি কী করব তা দেখতে পাচ্ছি।

— ম্যাট ক্রাউস

আপনি কী ব্যাখ্যা করতে পারেন যে কীভাবে সিএনএন দিয়ে অনুবাদ অদৃশ্যতা অর্জন করা হয়? সিএনএন-তে একটি কনভোলজিকাল লেয়ারের সক্রিয়করণগুলি অনুবাদগুলির অধীনে অবিচ্ছিন্ন নয়: চিত্রটি চারদিকে যেমন ঘোরে ততক্ষণ তারা ঘোরাফেরা করে (অর্থাত্ তারা অনুবাদে পরিবর্তকের চেয়ে সমান্তরাল হয়) are এই ক্রিয়াকলাপগুলি সাধারণত একটি পুলিং স্তরে খাওয়ানো হয়, যা অনুবাদগুলিতেও অদম্য নয়। এবং পুলিং স্তরটি সম্পূর্ণ সংযুক্ত স্তরে ভোজন করতে পারে। পুরোপুরি সংযুক্ত স্তরের ওজন কি কোনওভাবে ট্রান্সলেশন সমান্তরকে অনুবাদ অদলীয় আচরণের সাথে পরিবর্তন করে?

— সর্বোচ্চ

@ ম্যাক্স, পুলিং অনুবাদ অদৃশ্যতা বাড়িয়ে তোলে, বিশেষত সর্বাধিক-পুলিং (!), যা পুলিংয়ের আশেপাশের স্থানীয় তথ্যকে সম্পূর্ণ উপেক্ষা করে। ডিপ লার্নিং ডিপলাইনারিংবুক.অর্গ / কনটেন্টস / কনভনেটস html এর 9 অধ্যায় দেখুন (পৃষ্ঠা 335 থেকে শুরু করুন)। এই ধারণাটি নিউরোসায়েন্সেও জনপ্রিয় - এইচএমএএক্স মডেল (উদাহরণস্বরূপ: এখানে ম্যাক্সল্যাব.নুরো.জর্জেটাউন.ইডু / ডকস / প্রজাতন্ত্র / এনএন৯৯.পিডিএফ ) অনুবাদ উত্পন্ন করতে গড় (এবং অন্যান্য ধরণের) এবং সর্বোচ্চ-পুলিংয়ের সংমিশ্রণ ব্যবহার করে ) আক্রমণ।

— ম্যাট ক্রাউস

1

ওহ, ঠিক আছে, পুলিং ছোট ছোট অনুবাদগুলির চেয়ে অদম্যতা সরবরাহ করে (আমি আরও বড় শিফট সম্পর্কে ভাবছিলাম, তবে সম্ভবত পুলিংয়ের প্রতিটি ধারাবাহিক স্তর ক্রমান্বয়ে বৃহত্তর শিফটগুলি পরিচালনা করতে পারে)। তবে সম্পূর্ণ সমঝোতা নেটওয়ার্কগুলির কী? পুলিং ছাড়া, কী (অন্তত আনুমানিক) বিভ্রান্তি সরবরাহ করে?

— সর্বোচ্চ

1

@ ফ্রেডম, এটি একটি নতুন প্রশ্ন হিসাবে আরও ভাল হতে পারে, তবে সংক্ষেপে - অডিও সিগন্যালটি একই সাথে আপনি যখন এটি সময়ের সাথে সামনে স্থানান্তরিত করবেন তখনও একই শোনায় (যেমন, শুরুতে নীরবতার একগুচ্ছ যোগ করে)। তবে, আপনি যদি এটি ফ্রিকোয়েন্সি ডোমেনে স্থানান্তর করেন তবে এটি আলাদা শোনাচ্ছে : কেবল বর্ণালী স্থানান্তরিত হবে না, তবে ফ্রিকোয়েন্সিগুলির (যেমন, সুরেলা) এর মধ্যে সম্পর্কগুলিও বিকৃত হয়।

— ম্যাট ক্রাউস

4

আমার মনে হয় অনুবাদিত আক্রমণাত্মক শব্দটি কী বোঝায় তা নিয়ে কিছু বিভ্রান্তি রয়েছে। কনভলিউশনটি অনুবাদ সমতুল্যতার অর্থ প্রদান করে যদি কোনও চিত্রের কোনও বস্তু এ অঞ্চলের এ এ থাকে এবং দৃolution়বিশ্বাসের মাধ্যমে বি এর ক্ষেত্রফলের আউটপুটে কোনও বৈশিষ্ট্য সনাক্ত হয়, তবে চিত্রটিতে থাকা অবজেক্টটি এ'তে অনুবাদ করলে একই বৈশিষ্ট্যটি সনাক্ত করা যায়। ফিল্টার কার্নেলের আকারের উপর ভিত্তি করে আউটপুট বৈশিষ্ট্যের অবস্থানটি একটি নতুন অঞ্চল বি'তে অনুবাদ করা হবে। এটিকে অনুবাদিত সমতুল্যতা বলা হয় এবং অনুবাদিত আক্রমণাত্মকতা নয়।

— Santanu_Pattanayak
সূত্র

2

উত্তরটি প্রথমে উপস্থিতির চেয়ে কৌতুকপূর্ণ। সাধারণত, অনুবাদমূলক আক্রমণাত্মকতাটির অর্থ হ'ল আপনি ফ্রেমে যেখানে প্রদর্শিত হবে তা প্রত্যাখ্যান করেই অবজেক্টটি চিনতে পারবেন।

ফ্রেম এ এবং বি এর পরবর্তী ছবিতে আপনি "স্ট্রেসড" শব্দটি চিনতে পারবেন যদি আপনার দৃষ্টিভঙ্গি শব্দগুলির অনুবাদ অদলবদলকে সমর্থন করে ।

আমি শব্দ হাইলাইট শব্দ কারণ যদি আপনার invariance শুধুমাত্র অক্ষর সমর্থিত হয়, তাহলে ফ্রেম সি এছাড়াও ফ্রেম A এবং B সমান হবে: এটা ঠিক একই অক্ষর রয়েছে।

ব্যবহারিক ভাষায়, আপনি যদি চিঠিগুলি সম্পর্কে আপনার সিএনএনকে প্রশিক্ষণ দেন, তবে ম্যাক্স পোলের মতো জিনিসগুলি অক্ষরগুলির উপর অনুবাদ আগ্রাসন অর্জনে সহায়তা করবে, তবে অগত্যা শব্দের উপর অনুবাদ অদৃশ্যতার দিকে পরিচালিত করবে না। পুলিং অন্যান্য বৈশিষ্ট্যগুলির অবস্থানের সাথে সম্পর্কিত না করে বৈশিষ্ট্যটি (এটি একটি সম্পর্কিত স্তর দ্বারা উত্তোলিত) টেনে আনে, সুতরাং এটি ডি এবং টি অক্ষরের তুলনামূলক অবস্থানের জ্ঞান হারাবে এবং স্ট্রেসড এবং ড্রেসটারগুলি একই দেখবে।

শব্দটি নিজেই সম্ভবত পদার্থবিজ্ঞানের, যেখানে ট্রান্সলেশনাল প্রতিসাম্য অর্থ সমীকরণ স্থানটিতে অনুবাদ নির্বিশেষে একই থাকে।

— Aksakal
সূত্র

1

@Santanu

যদিও আপনার উত্তরটি অংশে সঠিক এবং বিভ্রান্তির দিকে নিয়ে যায়। এটি সত্য যে কনভোলিউশনাল স্তরগুলি তারা বা আউটপুট বৈশিষ্ট্যের মানচিত্রগুলি অনুবাদ সমতুল্য। সর্বাধিক-পুলিং স্তরগুলি যা করেন তা ম্যাট পয়েন্ট হিসাবে কিছু অনুবাদ চালান সরবরাহ করে।

এটি বলার জন্য, সর্বাধিক-পুলিং স্তর ফাংশনের সাথে মিলিত বৈশিষ্ট্য মানচিত্রের মধ্যে সমতা নেটওয়ার্কের আউটপুট স্তর (সফটম্যাক্স) এর অনুবাদ অদম্যতায় বাড়ে। উপরের চিত্রগুলির প্রথম সেটটি এখনও "মূর্তি" নামে একটি পূর্বাভাস তৈরি করবে যদিও এটি বাম বা ডানদিকে অনুবাদ করা হয়েছে। ইনপুট অনুবাদ করেও ভবিষ্যদ্বাণীটি "মূর্তি" (অর্থাত্ একই) থেকে যায় এর অর্থ নেটওয়ার্কটি কিছুটা অনুবাদ হ্রাস পেয়েছে।

— মিঃ ই
সূত্র

আমি এতটা নিশ্চিত নই যে পুলিংয়ের ফলে অনুবাদ অদৃশ্য হয়ে যায়।

— আকসকল

পরিমিতরূপে এটি করে। মনে রাখবেন সর্বাধিক পুলিং অপারেটর প্রদত্ত উইন্ডোতে আউটপুট হিসাবে সর্বোচ্চ পিক্সেল মান নেয়। সর্বাধিক পিক্সেলের মানগুলির স্থানিক অবস্থান অপ্রাসঙ্গিক (কিছুটা সহনশীলতার মধ্যে) হওয়ায় এই গাণিতিকভাবে কিছুটা হতাশার প্রয়োজন।

— মিঃ ই