পরবর্তী সমঝোতার স্তরগুলি কীভাবে কাজ করবে?

29

এই প্রশ্নটি "কীভাবে কনভলিউশন স্তরগুলি ঠিক কাজ করে তা উত্সাহিত করে ।

ধরুন আমার কাছে একটি গ্রেস্কেল চিত্র রয়েছে। সুতরাং চিত্রটির একটি চ্যানেল রয়েছে। প্রথম স্তরে, আমি ফিল্টার এবং প্যাডিংয়ের সাথে কনভলিউশন প্রয়োগ করি । তারপর আমি সাথে অন্য সংবর্তন স্তর রয়েছে convolutions এবং ফিল্টার। আমার কাছে কতগুলি বৈশিষ্ট্যের মানচিত্র রয়েছে? $n \times m$ $3\times 3$ $k_1$ $5 \times 5$ $k_2$

1 সমঝোতা টাইপ করুন

প্রথম স্তরটি কার্যকর হয়। এর পরে, আমার কাছে বৈশিষ্ট্য মানচিত্র রয়েছে (প্রতিটি ফিল্টারের জন্য একটি)। এগুলির প্রত্যেকেরই আকার । প্রতিটি একক পিক্সেল প্যাডযুক্ত ইনপুট চিত্র থেকে পিক্সেল নিয়ে তৈরি হয়েছিল। $k_1$ $n \times m$ $3 \cdot 3 = 9$

তারপরে দ্বিতীয় স্তরটি প্রয়োগ করা হয়। প্রতিটি একক ফিল্টার বৈশিষ্ট্য মানচিত্রের প্রতিটি পৃথকভাবে প্রয়োগ করা হয় । এর ফলে কে বৈশিষ্ট্য মানচিত্রের প্রত্যেকটির জন্য কে বৈশিষ্ট্য মানচিত্র রয়েছে। সুতরাং দ্বিতীয় স্তরের পরে বৈশিষ্ট্য মানচিত্র রয়েছে। নতুন বৈশিষ্ট্য মানচিত্রগুলির প্রত্যেকটির একক পিক্সেল আগে থেকে প্যাডযুক্ত বৈশিষ্ট্য মানচিত্রের "পিক্সেল" নিয়ে তৈরি হয়েছিল। $k_2$ $k_1$ $k_1 \times k_2$ $5 \cdot 5 = 25$

সিস্টেমটি পরামিতি শিখতে হবে । $k_1 \cdot 3 \cdot 3 + k_2 \cdot 5 \cdot 5$

2.1 কনভোলজেশন টাইপ করুন

আগের মত: প্রথম স্তরটি কার্যকর হয়। এর পরে, আমার কাছে বৈশিষ্ট্য মানচিত্র রয়েছে (প্রতিটি ফিল্টারের জন্য একটি)। এগুলির প্রত্যেকেরই আকার । প্রতিটি একক পিক্সেল প্যাডযুক্ত ইনপুট চিত্র থেকে পিক্সেল নিয়ে তৈরি হয়েছিল। $k_1$ $n \times m$ $3 \cdot 3 = 9$

আগের মত নয়: তারপরে দ্বিতীয় স্তরটি প্রয়োগ করা হবে। প্রতিটি একক ফিল্টার একই অঞ্চলে প্রয়োগ করা হবে তবে সমস্ত বৈশিষ্ট্য আগে থেকেই রয়েছে। দ্বিতীয় স্তরটি কার্যকর হওয়ার পরে বৈশিষ্ট্য মানচিত্রের ফলাফল in নতুন বৈশিষ্ট্য মানচিত্রগুলির প্রত্যেকটির একক পিক্সেল আগে থেকে প্যাডযুক্ত বৈশিষ্ট্য মানচিত্রের কে "পিক্সেল" নিয়ে তৈরি হয়েছিল। $k_2$ $k_2 \cdot 5 \cdot 5 = 25 \cdot k_2$

সিস্টেমটি পরামিতি শিখতে হবে । $k_1 \cdot 3 \cdot 3 + k_2 \cdot 5 \cdot 5$

2.2 কনভোলজেশন টাইপ করুন

উপরের মত, তবে ফিল্টার প্রতি পরামিতি থাকার পরিবর্তে শিখতে হবে এবং অন্য ইনপুট বৈশিষ্ট্যের মানচিত্রের জন্য অনুলিপি করা উচিত, আপনার কাছে পরামিতি যা শিখতে হবে। $5 \cdot 5 = 25$ $k_1 \cdot 3 \cdot 3 + k_2 \cdot k_1 \cdot 5 \cdot 5$

প্রশ্ন

টাইপ 1 বা টাইপ 2 সাধারণত ব্যবহৃত হয়?
অ্যালেক্সনেটে কোন ধরণের ব্যবহার হয় ?
গুগলনেটে কোন ধরণের ব্যবহার হয় ?
- আপনি যদি টাইপ 1 বলে থাকেন: কেন সমাবর্তন কোনও অর্থ দেয়? তারা কি কেবল একটি ধ্রুবক দিয়ে ডেটা গুণ করে না? $1 \times 1$
- আপনি যদি টাইপ 2 বলে থাকেন: দয়া করে চতুর্ভুজ ব্যয়ের ব্যাখ্যা করুন ("উদাহরণস্বরূপ, গভীর দৃষ্টি নেটওয়ার্কে, যদি দুটি সমঝোতা স্তরগুলি বেঁধে রাখা হয়, তবে তাদের ফিল্টারগুলির সংখ্যায় কোনও অভিন্ন বৃদ্ধি গণনাটির চতুর্ভুজ বৃদ্ধি পেয়েছে")

সমস্ত উত্তরের জন্য, দয়া করে কিছু প্রমাণ দিন (কাগজপত্র, পাঠ্যপুস্তক, ফ্রেমওয়ার্কের ডকুমেন্টেশন) যে আপনার উত্তরটি সঠিক।

বোনাস প্রশ্ন 1

পুলিংটি কেবল সর্বদা বৈশিষ্ট্য মানচিত্রের জন্য প্রয়োগ করা হয় বা এটি একাধিক বৈশিষ্ট্যের মানচিত্রের মাধ্যমেও করা হয়?

বোনাস প্রশ্ন 2

আমি তুলনামূলকভাবে নিশ্চিত যে টাইপ 1 সঠিক এবং আমি গুগলি পেপারে কিছু ভুল পেয়েছি। তবে একটি থ্রিডি কনভলিউশনও রয়েছে। আপনাকে বলুন যে আপনার কাছে সাইজের মাপের 1337 টি বৈশিষ্ট্যযুক্ত মানচিত্র রয়েছে এবং আপনি ফিল্টার প্রয়োগ করেন । আপনি কীভাবে বৈশিষ্ট্য মানচিত্রের উপর ফিল্টার স্লাইড করবেন? (বাম থেকে ডানদিকে, উপরে থেকে নীচে, সর্বশেষ বৈশিষ্ট্যের মানচিত্রের সর্বশেষ বৈশিষ্ট্য মানচিত্র?) আপনি যতক্ষণ না এটি ধারাবাহিকভাবে কাজ করেন ততক্ষণ কি বিষয়টি বিবেচনা করে? $42 \times 314$ $3 \times 4 \times 5$

আমার গবেষণা

আমি উপরের দুটি কাগজ পড়েছি, তবে এখনও কী ব্যবহার করা হচ্ছে তা সম্পর্কে নিশ্চিত নই।
আমি লাসাগন ডকুমেন্টেশন পড়েছি
আমি থিয়ানো ডকুমেন্টেশন পড়েছি
আমি কনভোলশনাল নিউরাল নেটওয়ার্কগুলি বোঝার উপর উত্তরগুলি পড়েছি (সমস্ত লিঙ্ক অনুসরণ না করে)
আমি কনভলিউশনাল নিউরাল নেটওয়ার্ক (লেনেট) পড়েছি । বিশেষত চিত্র 1 আমাকে তুলনামূলকভাবে নিশ্চিত করে তোলে যে টাইপ 2.1 সঠিক। এটি গুগলি নেট-এর "চতুষ্কোণ ব্যয়" মন্তব্য এবং ক্যাফির সাথে আমার কিছু ব্যবহারিক অভিজ্ঞতার সাথে খাপ খায়।

neural-network convnet

— মার্টিন থোমা
সূত্র

কিছুক্ষণ পরে: কনভলিউশনাল নিউরাল নেটওয়ার্ক আর্কিটেকচার বিশ্লেষণ এবং অনুকূলিতকরণ , বিশেষত অধ্যায় 2 এবং চিত্র 2.2 এবং চিত্র 2.3।

— মার্টিন থোমা

5

উপরে বর্ণিত বিকল্পগুলি সম্পর্কে আমি নিশ্চিত নই, তবে সাধারণভাবে ব্যবহৃত পদ্ধতিটি হ'ল:

অ-লিনিয়ারিটি প্রয়োগ করার আগে, প্রতিটি ফিল্টার আউটপুট প্যাচের মধ্যে আগে সমস্ত বৈশিষ্ট্য মানচিত্রের উপর রৈখিকভাবে নির্ভর করে, সুতরাং আপনি দ্বিতীয় স্তরগুলির পরে কে ফিল্টারটি শেষ করেন। পরামিতি সামগ্রিক সংখ্যা । $k_2$ $3 \dot{} 3\dot{}k_1 + k_1\dot{} 5 \dot{} 5 \dot{} k_2$

বোনাস 1: পুলিং বৈশিষ্ট্য মানচিত্রের জন্য পৃথকভাবে করা হয়।

বোনাস 2: "স্লাইডিং" এর ক্রম কোনও ব্যাপার নয়। আসলে, প্রতিটি আউটপুট পূর্ববর্তী স্তরের উপর ভিত্তি করে গণনা করা হয়, সুতরাং আউটপুট ফিল্টার প্রতিক্রিয়াগুলি একে অপরের উপর নির্ভর করে না। এগুলি সমান্তরালে গণনা করা যায়।

— ChristianSzegedy
সূত্র

1

আমি এই প্রশ্নটি সম্পর্কে সম্পূর্ণ ভুলে গেছি। এদিকে, আমি সিএনএন সম্পর্কে আমার মাস্টার্স থিসিস লিখেছি। অধ্যায় 3 তারা কীভাবে কাজ করে তা ব্যাখ্যা করে।

— মার্টিন থোমা

1

স্পষ্ট করতে: টাইপ 2.2 হ'ল সঠিক (এই উত্তরে বর্ণিত)

— মার্টিন থোমা

1

যদি কেউ সত্যিই এটি কার্যকরভাবে দেখতে চায় , আমি গুগল শিটগুলিতে একটি গভীর সমঝোতা সংক্রান্ত নিউরাল নেট প্রয়োগ করেছি। আপনি ফিল্টার, এবং ইনপুট ইমেজ, পিক্সেলের জন্য পিক্সেল দেখতে যেমন সিএনএন মাধ্যমে এটি পথ কাজ করে, যতক্ষণ না সিএনএন উত্তর অনুমান করতে পারেন: docs.google.com/spreadsheets/d/...

— bwest87

5

আমি কয়েক ঘন্টা ধরে এই একই প্রশ্নটির সাথে লড়াই করেছি। ভেবেছিলাম আমি অন্তরঙ্গটি ভাগ করব যা এটি আমাকে বুঝতে সাহায্য করেছে।

উত্তরটি হ'ল দ্বিতীয় কনভ্যুশনাল স্তরের ফিল্টারগুলির প্রথম স্তরের ফিল্টারগুলির মতো মাত্রা নেই। সাধারণভাবে, ফিল্টারটির ইনপুটগুলির মতো একই পরিমাণের মাত্রা থাকতে হয় । সুতরাং প্রথম রূপান্তর স্তরে ইনপুটটির 2 টি মাত্রা রয়েছে (কারণ এটি একটি চিত্র)। এইভাবে ফিল্টারগুলির দুটি মাত্রাও রয়েছে। যদি প্রথম রূপান্তর স্তরে 20 টি ফিল্টার থাকে তবে প্রথম রূপান্তর স্তরের আউটপুট 20 2 ডি বৈশিষ্ট্য মানচিত্রের স্ট্যাক। সুতরাং প্রথম রূপান্তর স্তরের আউটপুটটি 3 টি মাত্রিক, যেখানে তৃতীয় মাত্রার আকার প্রথম স্তরের ফিল্টারগুলির সংখ্যার সমান।

এখন এই 3 ডি স্ট্যাকটি দ্বিতীয় কনও স্তরতে ইনপুট তৈরি করে। 2 য় স্তরের ইনপুটটি 3D হওয়ায় ফিল্টারগুলিও 3 ডি হতে হবে। তৃতীয় মাত্রায় দ্বিতীয় স্তরের ফিল্টারগুলির আকারটি প্রথম স্তরের ফলাফলগুলির মানচিত্রের সংখ্যার সমান করুন।

এখন আপনি কেবল প্রথম 2 টি মাত্রা ধরেছেন; সারি এবং কলাম। সুতরাং বৈশিষ্ট্য মানচিত্রের স্ট্যাক (প্রথম স্তরের আউটপুট) সহ প্রতিটি 2 স্তরের ফিল্টারের কনভলশনটি একটি একক বৈশিষ্ট্য মানচিত্র দেয়।

দ্বিতীয় স্তরের আউটপুট তৃতীয় মাত্রার আকার তাই দ্বিতীয় স্তরের ফিল্টার সংখ্যার সমান।

— অ্যালেক্স ব্লেনকিনসপ
সূত্র

2

এই বক্তৃতা এবং এই দৃশ্যায়ন পরীক্ষা করুন

সাধারণত এটি টাইপ ২.১ কনভোলজেশন ব্যবহার করা হয়। ইনপুটটিতে আপনার কাছে এনএক্সএমএক্স 1 চিত্র রয়েছে, তারপরে প্রথম সমঝোতার পরে আপনি N_1xM_1xk_1 পাবেন, সুতরাং প্রথম সমাবর্তনের পরে আপনার চিত্রটিতে কে_1 চ্যানেল থাকবে। নতুন মাত্রা N_1 এবং M_1 আপনার স্ট্রাইড এস এবং প্যাডিংয়ের উপর নির্ভর করবে পি: এন_1 = (এন - 3 + 2 পি) / এস + 1, আপনি M_1 কে উপমা অনুসারে গণনা করুন। প্রথম রূপান্তর স্তরের জন্য আপনার 3x3xk_1 + কে_1 ওজন থাকবে। ননলাইনার ফাংশনে বায়াসের জন্য কে-ই যুক্ত হয়েছে।

দ্বিতীয় স্তরে আপনার আকারের N_1xM_1xk_1 আকারের একটি ইনপুট চিত্র রয়েছে, যেখানে k_1 চ্যানেলের নতুন সংখ্যা। এবং দ্বিতীয় সমঝোতার পরে আপনি N_2xM_2xk_2 চিত্র (অ্যারে) পাবেন। আপনার দ্বিতীয় স্তরে 5x5xk_2xk_1 + k_2 পরামিতি রয়েছে।

K_3 ফিল্টার এবং ইনপুট NxMxC (সি ইনপুট চ্যানেলের সংখ্যা) সহ 1x1 কনভ্যুশনের জন্য আপনি নতুন চিত্র (অ্যারে) NxMxk_3 পাবেন, সুতরাং 1x1 বুদ্ধিমান হয়ে উঠবে। তাদের এই প্রবন্ধে পরিচয় করিয়ে দেওয়া হয়েছিল

বোনাস 1: বৈশিষ্ট্য মানচিত্রে পুলিং প্রয়োগ করা হয়।

বিশদগুলির জন্য দয়া করে স্ট্যানফোর্ডে সিএনএন কোর্সের স্লাইডগুলি দেখুন - বেশ কয়েকটি ইনপুট চ্যানেল থেকে কীভাবে সমঝোতা সংক্ষিপ্তসারটি সংশ্লেষ করা হয় তা আপনার কাছে দুর্দান্ত দৃশ্যধারণ রয়েছে।

— pplonski
সূত্র

2

কেবলমাত্র লিঙ্কের উত্তর নিরুৎসাহিত করা হয় - লিঙ্কগুলি কাজ করা বন্ধ করতে পারে। আপনি কি প্রাসঙ্গিক তথ্য ইনলাইন করতে পারেন?

— শন ওভেন

1

দৃশ্যায়ন সত্যিই সহায়ক ছিল। আমার এপিফ্যানির মুহূর্তটি যখন আমি বুঝতে পেরেছিলাম যে ফিল্টারগুলি 3 ডি, 3 ডি নয়।

— kmace

1

দুর্দান্ত লিঙ্কগুলি, আমার জন্য সরানো স্টাফগুলি। তবে আপনার উত্তরটি লিঙ্কগুলিতে যা বলেছে তার সাথে অসঙ্গত বলে মনে হচ্ছে, বিশেষত রূপান্তরকারী স্তর 2 এ প্রতিটি গ্রহনযোগ্য ক্ষেত্র 3 ডি 5x5xk_1 মাত্রাযুক্ত 3D তাই পরামিতির সংখ্যা 5 * 5 * কে_1 * কে_2 (প্লাস পক্ষপাত) হওয়া উচিত।

— ড্যানিয়েল শ্লাগ

@ ড্যানিয়েলস্ক্লাগ আপনি ঠিক বলেছেন, আমি উত্তরটি সংশোধন করেছি।

— pplonski

1

প্রথম স্তরটিতে কে কার্নেলগুলি মাপের কে বৈশিষ্ট্য মানচিত্র যা গভীরতার ভিত্তিতে give $k_1$ $3 \cdot 3 \cdot 1$ $k_1$

দ্বিতীয় স্তর নিয়ে গঠিত আকার সঙ্গে কার্নেলের দিতে বৈশিষ্ট্য মানচিত্র যা গভীরতা ভিত্তিক সজ্জিত হয়। $k_2$ $5 \cdot 5 \cdot k_1$ $k_2$

এটি, একটি কনভোলজিকাল স্তরের কার্নেলগুলি পূর্ববর্তী স্তরের আউটপুটটির গভীরতা বিস্তৃত করে।

সঙ্গে একটি স্তর convolutional স্তর আসলে হয়েছে আকারের কার্নেলের । $1 \times 1$ $k_n$ $1 \cdot 1 \cdot k_{n-1}$

জল্পনা:

বোনাস প্রশ্ন 2 এমন কিছু নয় যার সাথে আমি পরিচিত, তবে আমি অনুমান করব যে সমঝোতার গভীরতা পরামিতি একটি অতিরিক্ত মাত্রা হয়ে যায়।

উদাহরণস্বরূপ যদি কোনও স্তরের আউটপুট আকার is হয় , প্যাডিং সহ একটি 3 ডি কনভ্যুশনের ফলে আকারের $m \cdot n \cdot k_{n}$ $m \cdot n \cdot k_{n+1} \cdot k_{n}$

— geometrikal
সূত্র