কেন কনভোলশানগুলি সর্বদা বিজোড় সংখ্যাগুলি ফিল্টার

13

যদি আমাদের সিএনএন (কনভনেট) ব্যবহার করে প্রকাশিত কাগজগুলির 90-99%% তে নজর থাকে। তাদের মধ্যে বেশিরভাগই বিজোড় সংখ্যার ফিল্টার আকার ব্যবহার করেন: সর্বাধিক ব্যবহৃত হওয়ার জন্য {1, 3, 5, 7।।

এই পরিস্থিতিটি কিছু সমস্যার সৃষ্টি করতে পারে: এই ফিল্টার আকারগুলির সাথে সাধারণত কনভলিউশন অপারেশন 2 (সাধারণ প্যাডিং) এর প্যাডিংয়ের সাথে নিখুঁত হয় না এবং ইনপুট_ফিল্ডের কিছু প্রান্ত প্রক্রিয়াটিতে হারিয়ে যায় ...

প্রশ্ন 1: কেন কনভলিউশন ফিল্টার আকারের জন্য কেবল বিজোড়_নাম্ব ব্যবহার করে?

প্রশ্ন 2: সমঝোতার সময় ইনপুটফিল্ডের একটি ছোট অংশ বাদ দেওয়া কি আসলেই সমস্যা? কেন / না?

— জনাথন দেখটিয়ার
সূত্র

14

সহজভাবে বলা যায়, কনভোলশন অপারেশনটি দুটি ম্যাট্রিকের উপাদান-ভিত্তিক পণ্যটির সংমিশ্রণ। যতক্ষণ না এই দুটি ম্যাট্রিক্স মাত্রায় সম্মত হয়, কোনও সমস্যা হওয়া উচিত নয় এবং তাই আমি আপনার প্রশ্নের পিছনে অনুপ্রেরণা বুঝতে পারি।

A.1। তবে কনভ্যুশনের উদ্দেশ্যটি হ'ল ফিল্টার বা কার্নেলের ক্ষেত্রে উত্স ডেটা ম্যাট্রিক্স (পুরো চিত্র) এনকোড করা। আরও নির্দিষ্টভাবে, আমরা অ্যাঙ্কর / উত্স পিক্সেলগুলির আশেপাশে পিক্সেলগুলি এনকোড করার চেষ্টা করছি to নীচের চিত্রটি দেখুন: সাধারণত, আমরা উত্স চিত্রের প্রতিটি পিক্সেলকে অ্যাঙ্কর / উত্স পিক্সেল হিসাবে বিবেচনা করি, তবে আমরা এটি করতে সীমাবদ্ধ নেই। আসলে, একটি স্ট্রাইড অন্তর্ভুক্ত করা অস্বাভাবিক কিছু নয়, যেখানে আমরা নোঙ্গর / উত্স পিক্সেল নির্দিষ্ট সংখ্যক পিক্সেল দ্বারা পৃথক করা হয়।

ঠিক আছে, সোর্স পিক্সেলটি কী? এটি অ্যাঙ্কর পয়েন্ট যেখানে কার্নেলটি কেন্দ্রিক এবং আমরা অ্যাঙ্কর / উত্স পিক্সেল সহ সমস্ত প্রতিবেশী পিক্সেল এনকোড করছি। যেহেতু, কার্নেলটি প্রতিসম আকারযুক্ত (কার্নেলের মানগুলিতে প্রতিসাম্য নয়), অ্যাঙ্কর পিক্সেলের চারপাশে (4- সংযোগ) পিক্সেলের সমান সংখ্যা (এন) রয়েছে। সুতরাং, পিক্সেলের এই সংখ্যার যাই হোক না কেন, আমাদের প্রতিসাম্য আকারের কার্নেলের প্রতিটি পাশের দৈর্ঘ্য 2 * n + 1 (অ্যাঙ্কর + অ্যাঙ্কর পিক্সেলের প্রতিটি পাশ) এবং তাই ফিল্টার / কার্নেলগুলি সর্বদা বিজোড় আকারের হয়।

যদি আমরা 'traditionতিহ্য' দিয়ে ভাঙ্গার সিদ্ধান্ত নিয়েছি এবং অসমজাতীয় কার্নেলগুলি ব্যবহার করি তবে কী হবে? আপনি অন্যায়নের ত্রুটি ভোগ করবেন এবং তাই আমরা এটি করি না। আমরা পিক্সেলটিকে ক্ষুদ্রতম সত্তা হিসাবে বিবেচনা করি, অর্থাৎ এখানে কোনও উপ-পিক্সেল ধারণা নেই।

A.2 সীমানা সমস্যাটি বিভিন্ন পদ্ধতির ব্যবহারের সাথে মোকাবিলা করা হয়: কেউ এটিকে উপেক্ষা করে, কিছু শূন্য প্যাড করে, কিছু আয়না এটি প্রতিবিম্বিত করে। আপনি যদি কোনও বিপরীতমুখী অপারেশন গণনা করতে যাচ্ছেন না, অর্থাত্ ডিকনভোলিউশন, এবং আসল চিত্রটির নিখুঁত পুনর্নির্মাণে আগ্রহী না হন, তবে সীমাবদ্ধতার সমস্যার কারণে আপনি কোনও তথ্য হ্রাস বা শব্দের ইনজেকশন সম্পর্কে চিন্তা করেন না। সাধারণত, পুলিং অপারেশন (গড় পুলিং বা সর্বাধিক পুলিং) যাইহোক আপনার সীমানা শিল্পকে সরিয়ে ফেলবে। সুতরাং, আপনার 'ইনপুট ফিল্ড' এর কিছু অংশ অবহেলা করতে দ্বিধা বোধ করবেন না, আপনার পুলিং অপারেশনটি আপনার পক্ষে এটি করবে।

-

সমঝোতার জেন:

পুরাতন-স্কুল সিগন্যাল প্রসেসিং ডোমেনে, যখন কোনও ইনপুট সিগন্যালকে একটি ফিল্টারের মাধ্যমে সমাধান করা বা পাস করা হয়, তখন কোনও পূর্ব-বিচারের উপায় ছিল না যে কোন দ্রবীভূত / ফিল্টারযুক্ত প্রতিক্রিয়ার উপাদানগুলি প্রাসঙ্গিক / তথ্যবহুল এবং কোনটি ছিল না। ফলস্বরূপ, লক্ষ্য ছিল এই রূপান্তরগুলিতে সংকেত উপাদানগুলি (এটির সবগুলি) সংরক্ষণ করা।

এই সংকেত উপাদানগুলি হল তথ্য। কিছু উপাদান অন্যদের তুলনায় আরও তথ্যপূর্ণ। এর একমাত্র কারণ হ'ল আমরা উচ্চ-স্তরের তথ্য আহরণে আগ্রহী; কিছু শব্দার্থক ক্লাসের দিকে তথ্য প্রাসঙ্গিক। তদনুসারে, সেই সংকেত উপাদানগুলি যা আমাদের বিশেষভাবে আগ্রহী তথ্য সরবরাহ করে না তাদের ছাঁটাই করা যেতে পারে। অতএব, কনভলিউশন / ফিল্টারিং সম্পর্কে পুরানো-বিদ্যালয়ের মতবাদগুলির বিপরীতে, আমরা যেমন মনে করি তেমন সমঝোতার প্রতিক্রিয়াটিকে সাঁতার / ছাঁটাই করতে মুক্ত। আমরা যেভাবে এটি অনুভব করি তা হ'ল আমাদের পরিসংখ্যানের মডেলটিকে উন্নত করার জন্য অবদান রাখছে না এমন সমস্ত ডেটা উপাদান কঠোরভাবে মুছে ফেলা।

— গতিশীল স্টারডাস্ট
সূত্র

আপনার প্রশস্তকরণের জন্য আপনাকে ধন্যবাদ, তবে গাণিতিক শর্তে বোঝার সংজ্ঞাটি দেখে এটি বোঝা কি সহজ নয়? en.wikedia.org/wiki/Cvvolve#Discrete_convolution কারণ এখানে আমরা দেখতে পাচ্ছি যে আমাদের বরাবর বাম এবং ডান দিকের মূল পদটি থাকবে ... সুতরাং এর ফলে সর্বদা একটি অসম পরিমাণ থাকবে।

— zwep

@Zwep রাজি! প্রশ্নোত্তর ফোরামগুলি এনসাইক্লোপিডিয়াস প্রতিস্থাপন করে না; তবে কেবল তাদের পরিপূরক করুন। তবে আপনার মন্তব্যের বিস্তৃত দৃষ্টিকোণ: সংজ্ঞাটি সাধারণত উপলব্ধ বিকল্পগুলির মধ্যে নিখুঁতভাবে পর্যালোচনা করা সেরা পছন্দ; এটি সুসমাচারের সত্য নয়। তবুও, নিয়মগুলি সেগুলি ভাঙ্গার আগে প্রথমে শিখতে হবে, সুতরাং আপনি কীভাবে এবং কেন এটি অন্যভাবে করছেন তা ঠিকভাবে সম্প্রদায়কে জানানো যেতে পারে। একটি নির্দিষ্ট সংজ্ঞার পিছনে কারণ এবং বিকল্প পছন্দগুলি গবেষণামূলক কাগজগুলিতে এবং সাধারণত কোনও এনসাইক্লোপিডিয়ায় নয়।

— ডায়নামিক স্টারডাস্ট

5

1) ধরুন input_fieldসূচকে একটি এন্ট্রি বাদে সমস্ত শূন্য idx। একটি বিজোড় ফিল্টার আকার চারপাশে কেন্দ্রের শীর্ষগুলি দিয়ে ডেটা ফেরত দেবে idx, এমনকি একটি ফিল্টার আকারও না করে - আকার 2 সহ ইউনিফর্ম ফিল্টারের ক্ষেত্রে বিবেচনা করে Most বেশিরভাগ লোকেরা যখন ফিল্টার করে তখন পর্বতের অবস্থানগুলি সংরক্ষণ করতে চায়।

2) input_fieldসংশ্লেষের জন্য সমস্ত প্রাসঙ্গিক, তবে output_fieldপ্রয়োজনীয় ডেটা অন্তর্ভুক্ত না হওয়ায় প্রান্তগুলি সঠিকভাবে গণনা করা যায় না input_field। যদি আমি এর প্রথম উপাদানের একটি উত্তর গণনা করতে চাই output_fieldতবে ফিল্টারটি অবশ্যই প্রথম উপাদানটির উপর ভিত্তি করে কেন্দ্রীভূত করা উচিত input_field। তবে তারপরে এমন ফিল্টার উপাদান রয়েছে যা কোনও উপলব্ধ উপাদানের সাথে মিলে না input_field। এর প্রান্তগুলির জন্য অনুমান করার জন্য বিভিন্ন কৌশল রয়েছে output_field।

— ডেভ কিয়েলপিনস্কি
সূত্র

2

বিজোড় আকারের ফিল্টারটির জন্য, পূর্ববর্তী সমস্ত স্তর পিক্সেলগুলি আউটপুট পিক্সেলের চারপাশে প্রতিসাম্যিকভাবে হবে। এই প্রতিসাম্যতা ব্যতীত, আমাদের সম-আকারের কার্নেলটি ব্যবহার করার সময় ঘটে যাওয়া স্তরগুলিতে বিকৃতিগুলির জন্য অ্যাকাউন্ট করতে হবে। অতএব, সম-আকারের কার্নেল ফিল্টারগুলি প্রায়শই বাস্তবায়নের সরলতার প্রচার করতে এড়িয়ে যায়। যদি আপনি প্রদত্ত পিক্সেল থেকে কেন্দ্রের পিক্সেলকে কোনও বিভাজন হিসাবে কনভলিউশনটির কথা ভাবেন, তবে আমরা কোনও সম-আকারের ফিল্টার ব্যবহার করে কোনও সেন্টার পিক্সেলের সাথে বিভক্ত করতে পারি না।

উত্স: https : //towardsdatasज्ञान. com/ deciding-optimal-filter-size-for-cnns-d6f7b56f9363

— Sushanth
সূত্র

কেন কনভোলশানগুলি সর্বদা বিজোড় সংখ্যাগুলি ফিল্টার_ আকার হিসাবে ব্যবহার করে