ক্লাসিক সিভি টেম্পলেট মিলের তুলনায় ভিজ্যুয়াল ইন্সপেকশন টাস্কের জন্য কনভোলসনাল এনএন কেন ব্যবহার করবেন?


9

আমরা যে প্রকল্পে কাজ করছি তার উপর ভিত্তি করে আমার একটি আকর্ষণীয় আলোচনা উপস্থিত হয়েছিল: অ্যালগরিদমের সাথে টেমপ্লেটের সাথে মিল রেখে সিএনএন ভিজ্যুয়াল ইন্সপেকশন সিস্টেমটি কেন ব্যবহার করবেন?

পটভূমি: আমি একটি সাধারণ সিএনএন ভিশন সিস্টেম (ওয়েবক্যাম + ল্যাপটপ) এর একটি ডেমো দেখিয়েছি যা সনাক্ত করেছে যে কোনও নির্দিষ্ট ধরণের অবজেক্টটি "ভাঙ্গা" / ত্রুটিযুক্ত কিনা - এই ক্ষেত্রে, একটি পিসিবি সার্কিট বোর্ড। আমার সিএনএন মডেলটিকে স্থির পটভূমিতে সঠিক এবং ভাঙ্গা সার্কিট বোর্ডগুলির (প্রতিটিগুলির প্রায় 100 টি চিত্র) উদাহরণ দেখানো হয়েছিল। আমাদের মডেল প্রি-প্রশিক্ষিত ভিজিজি 16 (ইমেজনেটে) এর প্রথম কয়েকটি কুন / ম্যাকপুল স্তর ব্যবহার করেছিল এবং তারপরে আমরা কয়েকটি ঘন ঘন দিয়ে আরও কয়েকটি প্রশিক্ষণযোগ্য কনস / পুল যুক্ত করেছি, যার ফলে শ্রেণিবিন্যাসের জন্য একটি ডিমে -3 এক হট এনকোডযুক্ত ভেক্টর আউটপুট তৈরি করা হয়েছে : (is_empty, has_good_product, has_defective_product)।

মডেলটি খুব সহজে প্রশিক্ষিত হয়েছে এবং 99% এর বৈধতা কোনও সমস্যা নেই; আমরা জানি যে আমাদের ডেটাসেটটি ছোট ছিল তাই আমরা বিভিন্ন ডেটা বৃদ্ধির প্রশিক্ষণও দিয়েছি। অনুশীলনে, এটি 10 ​​এর মধ্যে প্রায় 9 বার কাজ করেছে, তবে একই সার্কিট বোর্ডের কয়েকটি এলোমেলো অনুবাদ / ঘূর্ণন মাঝে মাঝে এটিকে বিপরীত শ্রেণিতে ফেলে দেয়। সম্ভবত আরও আক্রমণাত্মক ডেটা বৃদ্ধি সাহায্য করবে helped যাইহোক, একটি প্রোটোটাইপ ধারণা প্রকল্পের জন্য আমরা খুশি।

এখন আমরা অন্য প্রকৌশলী এবং তার সহকর্মীর কাছে উপস্থাপন করছিলাম, এবং তিনি এই যুক্তিটি উপস্থিত করলেন যে এনএনগুলি এর জন্য বেশি পরিমাণে চলাফেরা করছে, কেবল টেমপ্লেট মেলানো উচিত, কেন কোনও সিএনএন করতে চাইবে?

আমাদের অ্যাপ্লিকেশন কেন নির্দিষ্ট অ্যাপ্লিকেশনগুলিতে (যেমন পরিদর্শন করার জন্য অন্যান্য অংশ) আরও ভাল হতে পারে তার জন্য আমাদের কাছে দুর্দান্ত উত্তর নেই। আমরা কিছু বিষয় তুলে ধরেছি:

1) আক্রমণকারীদের কাছে আরও শক্তিশালী (যেমন ডেটা বর্ধনের মাধ্যমে)

2) সিস্টেমটি উন্নত করতে অনলাইনে শেখা যায় (উদাহরণস্বরূপ মানুষ সফ্টওয়্যারটিকে বলতে পারে যে এটির উদাহরণগুলি কী ভুল হয়েছে)

3) ক্লাসিকাল কম্পিউটার ভিশন অ্যালগরিদমগুলির মতো থ্রেশহোল্ডগুলি সেট করার দরকার নেই আপনি ছেলেরা কী মনে করেন, এই জাতীয় পরিদর্শন কাজের জন্য সিএনএন সিস্টেমের আরও সুবিধা রয়েছে কি? কোন ক্ষেত্রে এটি টেমপ্লেট মিলের চেয়ে ভাল হবে?

ডিপ এনএনএস যখন কাজের জন্য প্রযুক্তি হতে পারে তার জন্য আরও কয়েকটি এলোমেলো ধারণা: যে সিস্টেমগুলির জন্য ইনপুটটির অংশ হিসাবে 3 ডি গভীরতা সংবেদনের প্রয়োজন হয়, বা যে কোনও ধরণের অবজেক্ট যা বিকৃত / প্রসারিত / স্কুইড হতে পারে তবে এখনও "ভাল" হতে পারে এবং ত্রুটিযুক্ত নয় (যেমন একটি স্টাফ করা প্রাণী, তার, ইত্যাদি)। আপনার চিন্তা শুনতে আগ্রহী :)


আমি গভীর শেখার পদ্ধতির পছন্দ করি এবং আমি জানি তারা ভবিষ্যত। যাইহোক, যখন আপনার উচ্চ নির্ভুলতার ফলাফলের প্রয়োজন হয় তখন সঠিক ঘূর্ণন এবং সঠিক স্কেল বলতে দিন, টেমপ্লেটের সাথে ম্যাচটি আরও ভাল ফলাফল দেয়। আমি 0.1 ডিগ্রি / স্কেল ফ্যাক্টরের ত্রুটি বা তার চেয়ে কম কথা বলছি। গভীর পড়াশোনা আপনাকে সম্ভবত "সেরা" ফলাফলটি সম্পর্কে একটি "সম্ভাবনা" সরবরাহ করে চলেছে তাই যখন উচ্চ নির্ভুলতার প্রয়োজন হয় তখন যথেষ্ট নয় আমি গভীর শিক্ষার সাহায্যে এই জাতীয় নির্ভুলতা পাওয়ার কোনও উপায় খুঁজে পেতে চাই তবে আমি এখনও কোনও অ্যালগরিদম খুঁজে পাই না গভীর শিখন ব্যবহার করে উচ্চ নির্ভুলতা টেম্পলেট মিলছে। আমি কোনও মতামত / পরামর্শের জন্য বা
পাবলো গঞ্জালেজ

উত্তর:


3

আপনার আবেদনের জন্য traditionalতিহ্যবাহী সিভি পদ্ধতিগুলির প্রস্তাবিত প্রকৌশলী কেবল অভ্যাসের বাইরে গিয়েছিলেন। টেমপ্লেট মিলটি ব্যবহার করা অত্যন্ত পুরানো এবং খুব খারাপভাবে সম্পাদন করতে দেখানো হয়েছে। তবে আমি মনে করি যে কোনও সিএনএন আপনার ডেটাসেটের আকারের উপর নির্ভর করে ওভারকিল করছে।

কীভাবে টেমপ্লেট মিলবে?

টেমপ্লেট মিলটি আপনার ইমেজ জুড়ে একটি উইন্ডো স্লাইড করে যা টেমপ্লেটের সাথে শতকরা ম্যাচ সরবরাহ করবে। যদি শতাংশ মিলটি একটি নির্দিষ্ট পূর্বনির্ধারিত প্রান্তিকের উপরে হয় তবে এটি একটি ম্যাচ বলে ধরে নেওয়া হয়। উদাহরণস্বরূপ, যদি আপনার কোনও কুকুরের চিত্র থাকে এবং আপনি চিত্রটিতে কোনও কুকুর আছে কিনা তা নির্ধারণ করতে চান, আপনি পুরো চিত্রের ক্ষেত্রের চারপাশে একটি কুকুর টেমপ্লেট স্লাইড করবেন এবং দেখুন যথেষ্ট পরিমাণে মিলল কিনা। এটি সম্ভবত খুব খারাপ পারফরম্যান্সের ফলস্বরূপ হবে কারণ এটির জন্য টেমপ্লেটটি অনুরূপভাবে চিত্রটিকে ওভারল্যাপ করতে হবে । বাস্তবে এর সম্ভাবনা কত? খুব বেশি নয়।

আপনি যা সন্ধান করছেন ঠিক তা যদি জানেন এবং আপনি নিশ্চিত হন যে কোনও নির্দিষ্ট শ্রেণীর প্রতিটি উদাহরণে এটি প্রায় অভিন্নভাবে উপস্থিত হবে তবে কেবলমাত্র টেমপ্লেট টেম্পলেটটিই যথেষ্ট কৌশল a

পরিবর্তে মেশিন লার্নিং কেন ব্যবহার করবেন?

মেশিন শেখার কৌশলগুলি অনমনীয় নয়। স্ট্যাম্যাক্স যা বলেছে তার বিপরীতে, সিএনএনগুলি খুব ভালভাবে একটি ডেটাসেটকে সাধারণীকরণ করতে সক্ষম হয় । এ কারণেই তারা এত শক্তিশালী। কুকুর উদাহরণ ব্যবহার করে, সিএনএন কুকুর হিসাবে কী গঠন তা বোঝার জন্য অস্তিত্বে থাকা প্রতিটি কুকুরের ছবি দেখার দরকার নেই। আপনি এটি গুগল অনুসন্ধান থেকে 1000 টি চিত্র দেখিয়ে দিতে পারেন, এবং তারপরে অ্যালগরিদমটি সনাক্ত করতে সক্ষম হবে যে আপনার কুকুরটি আসলে একটি কুকুর। মেশিন লার্নিং অ্যালগরিদমগুলি খুব ভালভাবে সাধারণীকরণ করার কারণটি ছিল যে তারা সমস্ত প্রাচীন সিভি কৌশল প্রতিস্থাপন করেছিল। এখন সমস্যাটি হ'ল সিএনএন প্রশিক্ষণ দেওয়ার জন্য আপনার প্রয়োজনীয় পরিমাণের পরিমাণ। তারা অত্যন্ত তথ্য নিবিড়

আমি মনে করি না যে 100 টি ডেটা পয়েন্ট একটি শক্তিশালী সিএনএন প্রশিক্ষণের জন্য যথেষ্ট। পক্ষপাতিত্বকে সীমাবদ্ধ করার জন্য মডেলের গভীর জটিলতার কারণে আপনার উদাহরণগুলির সংখ্যা বাড়াতে হবে। আমি সাধারণত গভীর মডেলগুলির জন্য প্রতিটি বৈশিষ্ট্যের জন্য 100 উদাহরণ এবং অগভীর মডেলগুলির জন্য প্রতিটি বৈশিষ্ট্যের জন্য 10 টি উদাহরণ প্রস্তাব করি। এটি সত্যই আপনার বৈশিষ্ট্য-স্থানের উপর নির্ভর করে।

আমি কি পরামর্শ দিই।

আপনি প্রকৃতপক্ষে যা করছেন তা হ'ল অসাধারণত সনাক্তকরণ । আপনার কাছে এমন অনেকগুলি উদাহরণ রয়েছে যা পিসিবিগুলির উপস্থাপিত হবে যা অন্যথায় ভাল আকারে রয়েছে। যা ভেঙে গেছে তা আপনি সনাক্ত করতে চান। সুতরাং আমি পরিবর্তে কিছু অসাধারণ সনাক্তকরণ পদ্ধতি চেষ্টা করব। এগুলি প্রয়োগ করা অনেক সহজ এবং বিশেষত স্কিউ ডেটাসেটগুলিতে অগভীর মডেলগুলি ব্যবহার করে আপনি ভাল ফলাফল পেতে পারেন (1 শ্রেণিটি উপস্থাপিত।


আপনার ব্যাপক মন্তব্যের জন্য ধন্যবাদ! আপনি কি প্রকল্প বা কাগজপত্রগুলির উদাহরণ সরবরাহ করতে পারেন যা (এবং সম্ভবত ডেমো) বিচ্ছিন্নতা সনাক্তকরণের ব্যাখ্যা দেয়? চিয়ার্স
জেডিএস

1
ভি। চান্দোলা, এ। ব্যানার্জি এবং ভি কুমার, "অ্যানোমালি ডিটেকশন: একটি জরিপ", এসিএম কম্পিউটিং সার্ভেস, খন্ড 41, না। 3, পি। 15, 2009.
JahKnows

5

উত্তরটি কাজের উপর নির্ভর করে। টেমপ্লেট মিলটি কিছু কাজের জন্য কাজ করতে পারে তবে সবার জন্য নয়। সিএনএন-তে সম্ভাব্যরূপে অদৃশ্য ইনপুটগুলি সাধারণ করার ক্ষমতা রয়েছে যা আপনার কোনও টেম্পলেটগুলির সাথে মেলে না, তাই সম্ভাব্যতরভাবে আরও সাধারণীকরণ করা যায়।

তবে সিএনএনগুলি কী টেমপ্লেট মিলবে তা নির্দিষ্ট কাজের উপর নির্ভর করবে এবং আপনি বিশেষত কী অর্জন করার চেষ্টা করছেন। এটি একটি অনুগত বিজ্ঞান; শেষ পর্যন্ত, আপনি যেটি আরও ভাল কাজ করেন তা আবিষ্কার করার উপায় হ'ল তাদের উভয়কেই চেষ্টা করা - বা যারা চেষ্টা করেছেন তাদের কাছ থেকে শেখা (যেমন, সাহিত্য পড়ে)। আমি মনে করি না যে আপনি এমন কিছু তত্ত্ব বা শ্রবণশাস্ত্র সন্ধান করতে যাচ্ছেন যা বাস্তব-বিশ্বের ডেটাগুলিতে অভিজ্ঞতাগত মূল্যায়নের বিকল্প হিসাবে চলেছে।


5

একটি এনএন (এবং অন্যান্য শ্রেণিবদ্ধকরণ পদ্ধতি) নিয়ে আপনি সম্ভবত যে সমস্যাটি দেখাতে পারেন তা হ'ল যেহেতু আপনি কেবল এটির নির্দিষ্ট ত্রুটিগুলি দেখিয়েছেন তাই ভবিষ্যতে পপ আপ হওয়া সম্পূর্ণ নতুন / এখনও অদেখা ত্রুটিগুলিতে কীভাবে প্রতিক্রিয়া জানাতে হবে তা হয়ত জানেন না।

আপনি এনএন "এমন কোনও কিছু শিখতে চান যা" ত্রুটিযুক্ত পিসিবি একটি ত্রুটিযুক্ত পিসিবি নয় "learn তবে কী যদি এটি "এমন কোনও কিছু শিখেছে যা ত্রুটিযুক্ত পিসিবি একটি ত্রুটিযুক্ত পিসিবি নয়"?

আপনি এলোমেলো লোকেশনগুলিতে একটি ছোট সাদা স্পট (বা অন্য কোনও ছোট্ট ছদ্মবেশ) যুক্ত করে নিউরটিভ পিসিবিগুলির কয়েকটি চিত্র সংশোধন করার চেষ্টা করতে পারেন এবং নিউরাল নেটওয়ার্কগুলি এই সংশোধিত চিত্রগুলিকে শ্রেণিবদ্ধকরণ করতে পারেন। এটি অবশ্যই তাদের ত্রুটিযুক্ত হিসাবে শ্রেণিবদ্ধ করা উচিত, তাই না? তবে এটি সম্ভবত কিছু (বা বেশিরভাগ) মিস করবে কারণ এটি এর আগে এমন ত্রুটি আগে কখনও দেখেনি।

সম্পূর্ণ নতুন ত্রুটিগুলি সনাক্ত করতে, অসাধারণ সনাক্তকরণের পদ্ধতিগুলি / এক শ্রেণির শ্রেণিবদ্ধ আরও বেশি হতে পারে .. বিশ্বস্ততা, কারণ তাদের এমন কোনও কিছু নেওয়া উচিত যা আগে কখনও দেখা যায় নি।

যেমনটি ডব্লু ডাব্লু বলেছেন, আপনাকে কেবল দুটি পদ্ধতি ব্যবহার করতে হবে এবং কোনটি আরও ভাল কাজ করে তা খুঁজে বের করতে হবে। সত্যই একটি ভাল পরীক্ষা সেট আছে যাতে সম্পূর্ণ নতুন ত্রুটি রয়েছে তা নিশ্চিত করুন!

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.