পরবর্তী সমঝোতার স্তরগুলি কীভাবে কাজ করবে?


29

এই প্রশ্নটি "কীভাবে কনভলিউশন স্তরগুলি ঠিক কাজ করে তা উত্সাহিত করে ।

ধরুন আমার কাছে একটি গ্রেস্কেল চিত্র রয়েছে। সুতরাং চিত্রটির একটি চ্যানেল রয়েছে। প্রথম স্তরে, আমি ফিল্টার এবং প্যাডিংয়ের সাথে কনভলিউশন প্রয়োগ করি । তারপর আমি সাথে অন্য সংবর্তন স্তর রয়েছে convolutions এবং ফিল্টার। আমার কাছে কতগুলি বৈশিষ্ট্যের মানচিত্র রয়েছে?n×mকে 1 5 × 5 কে 23×3k15×5k2

1 সমঝোতা টাইপ করুন

প্রথম স্তরটি কার্যকর হয়। এর পরে, আমার কাছে বৈশিষ্ট্য মানচিত্র রয়েছে (প্রতিটি ফিল্টারের জন্য একটি)। এগুলির প্রত্যেকেরই আকার । প্রতিটি একক পিক্সেল প্যাডযুক্ত ইনপুট চিত্র থেকে পিক্সেল নিয়ে তৈরি হয়েছিল। এন × এম 3 3 = 9k1n×m33=9

তারপরে দ্বিতীয় স্তরটি প্রয়োগ করা হয়। প্রতিটি একক ফিল্টার বৈশিষ্ট্য মানচিত্রের প্রতিটি পৃথকভাবে প্রয়োগ করা হয় । এর ফলে কে বৈশিষ্ট্য মানচিত্রের প্রত্যেকটির জন্য কে বৈশিষ্ট্য মানচিত্র রয়েছে। সুতরাং দ্বিতীয় স্তরের পরে বৈশিষ্ট্য মানচিত্র রয়েছে। নতুন বৈশিষ্ট্য মানচিত্রগুলির প্রত্যেকটির একক পিক্সেল আগে থেকে প্যাডযুক্ত বৈশিষ্ট্য মানচিত্রের "পিক্সেল" নিয়ে তৈরি হয়েছিল।কে 1 কে 1 × কে 2 5 5 = 25k2k1k1×k255=25

সিস্টেমটি পরামিতি শিখতে হবে ।k133+k255

2.1 কনভোলজেশন টাইপ করুন

আগের মত: প্রথম স্তরটি কার্যকর হয়। এর পরে, আমার কাছে বৈশিষ্ট্য মানচিত্র রয়েছে (প্রতিটি ফিল্টারের জন্য একটি)। এগুলির প্রত্যেকেরই আকার । প্রতিটি একক পিক্সেল প্যাডযুক্ত ইনপুট চিত্র থেকে পিক্সেল নিয়ে তৈরি হয়েছিল। এন × এম 3 3 = 9k1n×m33=9

আগের মত নয়: তারপরে দ্বিতীয় স্তরটি প্রয়োগ করা হবে। প্রতিটি একক ফিল্টার একই অঞ্চলে প্রয়োগ করা হবে তবে সমস্ত বৈশিষ্ট্য আগে থেকেই রয়েছে। দ্বিতীয় স্তরটি কার্যকর হওয়ার পরে বৈশিষ্ট্য মানচিত্রের ফলাফল in নতুন বৈশিষ্ট্য মানচিত্রগুলির প্রত্যেকটির একক পিক্সেল আগে থেকে প্যাডযুক্ত বৈশিষ্ট্য মানচিত্রের কে "পিক্সেল" নিয়ে তৈরি হয়েছিল।কে 25 5 = 25 কে 2k2k255=25k2

সিস্টেমটি পরামিতি শিখতে হবে ।k133+k255

2.2 কনভোলজেশন টাইপ করুন

উপরের মত, তবে ফিল্টার প্রতি পরামিতি থাকার পরিবর্তে শিখতে হবে এবং অন্য ইনপুট বৈশিষ্ট্যের মানচিত্রের জন্য অনুলিপি করা উচিত, আপনার কাছে পরামিতি যা শিখতে হবে।কে 13 3 + কে 2কে 15 555=25k133+k2k155

প্রশ্ন

  1. টাইপ 1 বা টাইপ 2 সাধারণত ব্যবহৃত হয়?
  2. অ্যালেক্সনেটে কোন ধরণের ব্যবহার হয় ?
  3. গুগলনেটে কোন ধরণের ব্যবহার হয় ?
    • আপনি যদি টাইপ 1 বলে থাকেন: কেন সমাবর্তন কোনও অর্থ দেয়? তারা কি কেবল একটি ধ্রুবক দিয়ে ডেটা গুণ করে না?1×1
    • আপনি যদি টাইপ 2 বলে থাকেন: দয়া করে চতুর্ভুজ ব্যয়ের ব্যাখ্যা করুন ("উদাহরণস্বরূপ, গভীর দৃষ্টি নেটওয়ার্কে, যদি দুটি সমঝোতা স্তরগুলি বেঁধে রাখা হয়, তবে তাদের ফিল্টারগুলির সংখ্যায় কোনও অভিন্ন বৃদ্ধি গণনাটির চতুর্ভুজ বৃদ্ধি পেয়েছে")

সমস্ত উত্তরের জন্য, দয়া করে কিছু প্রমাণ দিন (কাগজপত্র, পাঠ্যপুস্তক, ফ্রেমওয়ার্কের ডকুমেন্টেশন) যে আপনার উত্তরটি সঠিক।

বোনাস প্রশ্ন 1

পুলিংটি কেবল সর্বদা বৈশিষ্ট্য মানচিত্রের জন্য প্রয়োগ করা হয় বা এটি একাধিক বৈশিষ্ট্যের মানচিত্রের মাধ্যমেও করা হয়?

বোনাস প্রশ্ন 2

আমি তুলনামূলকভাবে নিশ্চিত যে টাইপ 1 সঠিক এবং আমি গুগলি পেপারে কিছু ভুল পেয়েছি। তবে একটি থ্রিডি কনভলিউশনও রয়েছে। আপনাকে বলুন যে আপনার কাছে সাইজের মাপের 1337 টি বৈশিষ্ট্যযুক্ত মানচিত্র রয়েছে এবং আপনি ফিল্টার প্রয়োগ করেন । আপনি কীভাবে বৈশিষ্ট্য মানচিত্রের উপর ফিল্টার স্লাইড করবেন? (বাম থেকে ডানদিকে, উপরে থেকে নীচে, সর্বশেষ বৈশিষ্ট্যের মানচিত্রের সর্বশেষ বৈশিষ্ট্য মানচিত্র?) আপনি যতক্ষণ না এটি ধারাবাহিকভাবে কাজ করেন ততক্ষণ কি বিষয়টি বিবেচনা করে?3 × 4 × 542×3143×4×5

আমার গবেষণা


কিছুক্ষণ পরে: কনভলিউশনাল নিউরাল নেটওয়ার্ক আর্কিটেকচার বিশ্লেষণ এবং অনুকূলিতকরণ , বিশেষত অধ্যায় 2 এবং চিত্র 2.2 এবং চিত্র 2.3।
মার্টিন থোমা

উত্তর:


5

উপরে বর্ণিত বিকল্পগুলি সম্পর্কে আমি নিশ্চিত নই, তবে সাধারণভাবে ব্যবহৃত পদ্ধতিটি হ'ল:

অ-লিনিয়ারিটি প্রয়োগ করার আগে, প্রতিটি ফিল্টার আউটপুট প্যাচের মধ্যে আগে সমস্ত বৈশিষ্ট্য মানচিত্রের উপর রৈখিকভাবে নির্ভর করে, সুতরাং আপনি দ্বিতীয় স্তরগুলির পরে কে ফিল্টারটি শেষ করেন। পরামিতি সামগ্রিক সংখ্যা । 3 ˙k23˙3˙k1+k1˙5˙5˙k2

বোনাস 1: পুলিং বৈশিষ্ট্য মানচিত্রের জন্য পৃথকভাবে করা হয়।

বোনাস 2: "স্লাইডিং" এর ক্রম কোনও ব্যাপার নয়। আসলে, প্রতিটি আউটপুট পূর্ববর্তী স্তরের উপর ভিত্তি করে গণনা করা হয়, সুতরাং আউটপুট ফিল্টার প্রতিক্রিয়াগুলি একে অপরের উপর নির্ভর করে না। এগুলি সমান্তরালে গণনা করা যায়।


1
আমি এই প্রশ্নটি সম্পর্কে সম্পূর্ণ ভুলে গেছি। এদিকে, আমি সিএনএন সম্পর্কে আমার মাস্টার্স থিসিস লিখেছি। অধ্যায় 3 তারা কীভাবে কাজ করে তা ব্যাখ্যা করে।
মার্টিন থোমা

1
স্পষ্ট করতে: টাইপ 2.2 হ'ল সঠিক (এই উত্তরে বর্ণিত)
মার্টিন থোমা

1
যদি কেউ সত্যিই এটি কার্যকরভাবে দেখতে চায় , আমি গুগল শিটগুলিতে একটি গভীর সমঝোতা সংক্রান্ত নিউরাল নেট প্রয়োগ করেছি। আপনি ফিল্টার, এবং ইনপুট ইমেজ, পিক্সেলের জন্য পিক্সেল দেখতে যেমন সিএনএন মাধ্যমে এটি পথ কাজ করে, যতক্ষণ না সিএনএন উত্তর অনুমান করতে পারেন: docs.google.com/spreadsheets/d/...
bwest87

5

আমি কয়েক ঘন্টা ধরে এই একই প্রশ্নটির সাথে লড়াই করেছি। ভেবেছিলাম আমি অন্তরঙ্গটি ভাগ করব যা এটি আমাকে বুঝতে সাহায্য করেছে।

উত্তরটি হ'ল দ্বিতীয় কনভ্যুশনাল স্তরের ফিল্টারগুলির প্রথম স্তরের ফিল্টারগুলির মতো মাত্রা নেই। সাধারণভাবে, ফিল্টারটির ইনপুটগুলির মতো একই পরিমাণের মাত্রা থাকতে হয় । সুতরাং প্রথম রূপান্তর স্তরে ইনপুটটির 2 টি মাত্রা রয়েছে (কারণ এটি একটি চিত্র)। এইভাবে ফিল্টারগুলির দুটি মাত্রাও রয়েছে। যদি প্রথম রূপান্তর স্তরে 20 টি ফিল্টার থাকে তবে প্রথম রূপান্তর স্তরের আউটপুট 20 2 ডি বৈশিষ্ট্য মানচিত্রের স্ট্যাক। সুতরাং প্রথম রূপান্তর স্তরের আউটপুটটি 3 টি মাত্রিক, যেখানে তৃতীয় মাত্রার আকার প্রথম স্তরের ফিল্টারগুলির সংখ্যার সমান।

এখন এই 3 ডি স্ট্যাকটি দ্বিতীয় কনও স্তরতে ইনপুট তৈরি করে। 2 য় স্তরের ইনপুটটি 3D হওয়ায় ফিল্টারগুলিও 3 ডি হতে হবে। তৃতীয় মাত্রায় দ্বিতীয় স্তরের ফিল্টারগুলির আকারটি প্রথম স্তরের ফলাফলগুলির মানচিত্রের সংখ্যার সমান করুন।

এখন আপনি কেবল প্রথম 2 টি মাত্রা ধরেছেন; সারি এবং কলাম। সুতরাং বৈশিষ্ট্য মানচিত্রের স্ট্যাক (প্রথম স্তরের আউটপুট) সহ প্রতিটি 2 স্তরের ফিল্টারের কনভলশনটি একটি একক বৈশিষ্ট্য মানচিত্র দেয়।

দ্বিতীয় স্তরের আউটপুট তৃতীয় মাত্রার আকার তাই দ্বিতীয় স্তরের ফিল্টার সংখ্যার সমান।


2

এই বক্তৃতা এবং এই দৃশ্যায়ন পরীক্ষা করুন

সাধারণত এটি টাইপ ২.১ কনভোলজেশন ব্যবহার করা হয়। ইনপুটটিতে আপনার কাছে এনএক্সএমএক্স 1 চিত্র রয়েছে, তারপরে প্রথম সমঝোতার পরে আপনি N_1xM_1xk_1 পাবেন, সুতরাং প্রথম সমাবর্তনের পরে আপনার চিত্রটিতে কে_1 চ্যানেল থাকবে। নতুন মাত্রা N_1 এবং M_1 আপনার স্ট্রাইড এস এবং প্যাডিংয়ের উপর নির্ভর করবে পি: এন_1 = (এন - 3 + 2 পি) / এস + 1, আপনি M_1 কে উপমা অনুসারে গণনা করুন। প্রথম রূপান্তর স্তরের জন্য আপনার 3x3xk_1 + কে_1 ওজন থাকবে। ননলাইনার ফাংশনে বায়াসের জন্য কে-ই যুক্ত হয়েছে।

দ্বিতীয় স্তরে আপনার আকারের N_1xM_1xk_1 আকারের একটি ইনপুট চিত্র রয়েছে, যেখানে k_1 চ্যানেলের নতুন সংখ্যা। এবং দ্বিতীয় সমঝোতার পরে আপনি N_2xM_2xk_2 চিত্র (অ্যারে) পাবেন। আপনার দ্বিতীয় স্তরে 5x5xk_2xk_1 + k_2 পরামিতি রয়েছে।

K_3 ফিল্টার এবং ইনপুট NxMxC (সি ইনপুট চ্যানেলের সংখ্যা) সহ 1x1 কনভ্যুশনের জন্য আপনি নতুন চিত্র (অ্যারে) NxMxk_3 পাবেন, সুতরাং 1x1 বুদ্ধিমান হয়ে উঠবে। তাদের এই প্রবন্ধে পরিচয় করিয়ে দেওয়া হয়েছিল

বোনাস 1: বৈশিষ্ট্য মানচিত্রে পুলিং প্রয়োগ করা হয়।

বিশদগুলির জন্য দয়া করে স্ট্যানফোর্ডে সিএনএন কোর্সের স্লাইডগুলি দেখুন - বেশ কয়েকটি ইনপুট চ্যানেল থেকে কীভাবে সমঝোতা সংক্ষিপ্তসারটি সংশ্লেষ করা হয় তা আপনার কাছে দুর্দান্ত দৃশ্যধারণ রয়েছে।


2
কেবলমাত্র লিঙ্কের উত্তর নিরুৎসাহিত করা হয় - লিঙ্কগুলি কাজ করা বন্ধ করতে পারে। আপনি কি প্রাসঙ্গিক তথ্য ইনলাইন করতে পারেন?
শন ওভেন

1
দৃশ্যায়ন সত্যিই সহায়ক ছিল। আমার এপিফ্যানির মুহূর্তটি যখন আমি বুঝতে পেরেছিলাম যে ফিল্টারগুলি 3 ডি, 3 ডি নয়।
kmace

1
দুর্দান্ত লিঙ্কগুলি, আমার জন্য সরানো স্টাফগুলি। তবে আপনার উত্তরটি লিঙ্কগুলিতে যা বলেছে তার সাথে অসঙ্গত বলে মনে হচ্ছে, বিশেষত রূপান্তরকারী স্তর 2 এ প্রতিটি গ্রহনযোগ্য ক্ষেত্র 3 ডি 5x5xk_1 মাত্রাযুক্ত 3D তাই পরামিতির সংখ্যা 5 * 5 * কে_1 * কে_2 (প্লাস পক্ষপাত) হওয়া উচিত।
ড্যানিয়েল শ্লাগ

@ ড্যানিয়েলস্ক্লাগ আপনি ঠিক বলেছেন, আমি উত্তরটি সংশোধন করেছি।
pplonski

1

প্রথম স্তরটিতে কে কার্নেলগুলি মাপের কে বৈশিষ্ট্য মানচিত্র যা গভীরতার ভিত্তিতে give 3 3 1 কে 1k1331k1

দ্বিতীয় স্তর নিয়ে গঠিত আকার সঙ্গে কার্নেলের দিতে বৈশিষ্ট্য মানচিত্র যা গভীরতা ভিত্তিক সজ্জিত হয়। 5 5 কে 1 কে 2k255k1k2

এটি, একটি কনভোলজিকাল স্তরের কার্নেলগুলি পূর্ববর্তী স্তরের আউটপুটটির গভীরতা বিস্তৃত করে।

সঙ্গে একটি স্তর convolutional স্তর আসলে হয়েছে আকারের কার্নেলের ।কে এন 1 1 কে এন - 11×1kn11kn1

জল্পনা:

বোনাস প্রশ্ন 2 এমন কিছু নয় যার সাথে আমি পরিচিত, তবে আমি অনুমান করব যে সমঝোতার গভীরতা পরামিতি একটি অতিরিক্ত মাত্রা হয়ে যায়।

উদাহরণস্বরূপ যদি কোনও স্তরের আউটপুট আকার is হয় , প্যাডিং সহ একটি 3 ডি কনভ্যুশনের ফলে আকারের m n k n + 1k nmnknmnkn+1kn

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.