কনভোলিউশনাল নিউরাল নেটওয়ার্ক স্কেল সংবেদনশীলতা


11

উদাহরণস্বরূপ, ধরা যাক আমরা কোনও ব্যক্তির ছবির উপর ভিত্তি করে একটি বয়স অনুমানকারী তৈরি করছি। আমাদের স্যুটে দু'জন লোক নিচে রয়েছে, তবে প্রথমটি দ্বিতীয়জনের চেয়ে স্পষ্টতই কম বয়সী।


(উত্স: tinytux.com )

প্রচুর বৈশিষ্ট্য রয়েছে যা এটি বোঝায়, উদাহরণস্বরূপ মুখের কাঠামো। তবে সর্বাধিক বলার বৈশিষ্ট্য হ'ল মাথার আকারের সাথে শরীরের আকারের অনুপাত :


(উত্স: উইকিমিডিয়া.অর্গ )

সুতরাং ধরুন আমরা কোনও ব্যক্তির বয়স সম্পর্কে ভবিষ্যদ্বাণী করতে একটি সিএনএন রিগ্রেশন প্রশিক্ষণ দিয়েছি। আমি যে বয়সের ভবিষ্যদ্বাণীকারীদের চেষ্টা করেছি তার মধ্যে, বাচ্চাটির উপরের চিত্রটি ভবিষ্যদ্বাণীগুলিকে তার বয়স্ক ভাবতে বোকা বানাবে বলে মনে হয়, মামলা ও সম্ভবত কারণ তারা মূলত মুখের উপর নির্ভর করে:

আমি ভাবছি যে ভ্যানিলা সিএনএন আর্কিটেকচারটি মাথা থেকে ধড়ের অনুপাতটিকে কতটা ভালভাবে অনুমান করতে পারে?

একটি আঞ্চলিক আরসিএনএন এর সাথে তুলনা করা, যা শরীর এবং মাথায় বাউন্ডিং বক্স পেতে সক্ষম, ভ্যানিলা সিএনএন কি সর্বদা আরও খারাপ সম্পাদন করবে?

ভ্যানিলা সিএনএন (যেমন সমস্ত কনভোলিউশনের ঠিক পরে) বিশ্বব্যাপী সমতলকরণের ঠিক আগে, প্রতিটি আউটপুটে একটি অনুরূপ গ্রহণযোগ্য ক্ষেত্র থাকে, যার স্কেল বোধ থাকা উচিত। আমি জানি যে দ্রুত আরসিএনএন ঠিক এই পর্যায়ে বাউন্ডিং বক্স প্রস্তাব তৈরি করে এটি কাজে লাগায়, যাতে সমস্ত পূর্ববর্তী কনভোলজিনাল ফিল্টারগুলি স্বয়ংক্রিয়ভাবে সমস্ত স্কেলে প্রশিক্ষিত হয়।

সুতরাং, আমি ভ্যানিলা সিএনএন মাথা থেকে ধড় আকারের অনুপাত নির্ধারণ করতে সক্ষম হতে হবে? এটা কী ঠিক? যদি তা হয়, তবে মানুষকে সনাক্তকরণে প্রাক-প্রশিক্ষিত হতে পারে এই সত্যটি কাজে লাগাতে দ্রুত আরসিএনএন কাঠামো ব্যবহার করার একমাত্র সুবিধা?


1
আপনি কি জানেন যে আপনার বয়স রিকনগনাইজারটি ঠিক কোথায় ব্যর্থ হয়েছে? আপনি কেন এটি মাথা আকার অনুপাত বলে মনে করেন? আপনি কি মাঝারি স্তরগুলির আউটপুটটি দেখেছেন?
আকসকল

@ আকসাকাল আমার মনে হয়না তিনি সিএনএন প্রশিক্ষণ নিয়েছিলেন। আমি যা বুঝতে পেরেছি সে থেকে তিনি বিদ্যমান ওয়েব পরিষেবাদি দিয়ে পরীক্ষা নিরীক্ষা করছেন: "অনেক বয়সের ভবিষ্যদ্বাণীকারী যা আমি চেষ্টা করেছি [..]"।
ডেল্টাভিও

উত্তর:


8

প্রথমত, একটি খুব আকর্ষণীয় প্রশ্ন পোস্ট করার জন্য ধন্যবাদ।

এর শিগগিরই উত্তর দেওয়ার জন্য, কোনও ফটো থেকে বয়সের পূর্বাভাস দেওয়ার জন্য কোনও ভ্যানিলা কনফেট প্রশিক্ষিত শেষ-২-এন্ডটি সাধারণত আপনি পোস্ট করেছেন এমন চিত্রের ভুল শ্রেণিবদ্ধকরণের প্রবণ । দ্বিতীয়ত, দ্রষ্টব্য যে কোনও ব্যক্তির বয়স সম্পর্কে সঠিকভাবে অনুমান করা প্রায় অসম্ভব কাজ 1

কিছু অবজেক্ট ডিটেক্টর (এটি আরসিএনএন, দ্রুত আরসিএনএন, ইওলো বা এসএসডি) ব্যবহার করে আপনার প্রস্তাবিত পদ্ধতির মূল পার্থক্য হ'ল আপনি মডেলগুলি প্রশিক্ষণের জন্য বিভিন্ন তথ্য ব্যবহার করছেন। সিএনএন কেবল ইমেজগুলিতে প্রশিক্ষণপ্রাপ্ত এবং প্রয়োজনীয় সমস্ত বৈশিষ্ট্য নিজেই খুঁজে বের করার প্রয়োজন। এটি বেশিরভাগ মুখের বিভিন্ন বৈশিষ্ট্য সন্ধান করতে চলেছে তবে এটি পোশাক এবং সম্ভবত দৃশ্যের বৈশিষ্ট্যগুলির উপরও নির্ভর করবে (শিশুরা বেশিরভাগ খেলনা সহ ছবিতে থাকতে পারে, প্রাপ্তবয়স্কদের অফিসের পরিবেশে বেশি দেখা যায় ইত্যাদি)। এই বৈশিষ্ট্যগুলি আপনার পাল্টা নমুনার শক্তিশালী হবে না।

অন্যদিকে, যদি আপনি "টড়সো" এবং "হেড" হিসাবে স্পষ্টরূপে অবজেক্টগুলি সনাক্ত করতে নেটওয়ার্ককে প্রশিক্ষণ দেন তবে আপনি অতিরিক্ত তথ্য সরবরাহ করছেন যে এই বিষয়গুলি কাজের জন্য গুরুত্বপূর্ণ এবং এইভাবে সমস্যাটি 2 সরল করে তুলেছে ।

মাথা এবং ধড় সনাক্তকরণের পদ্ধতি এবং তারপরে বাউন্ডিং বাক্সগুলির আকারের অনুপাতটি আকর্ষণীয় মনে হলেও আমি বেশ কয়েকটি বাধা দেখতে পাচ্ছি:

  1. ডেটা প্রাপ্ত: আমি বড় ডেটাসেটের উপলব্ধতার বিষয়ে অবগত নই যেখানে বয়স এবং বাউন্ডিং উভয় বাক্সই উপস্থিত থাকবে।
  2. অসম্পূর্ণ FOV: বেশিরভাগ চিত্রগুলিতে (যেমন আপনার উভয় উদাহরণ), লোকেরা পুরো প্রদর্শিত হয় না। আপনাকে এই সত্যটি মোকাবেলা করতে হবে যে টর্স বাউন্ডিং বাক্সগুলি সর্বদা নিখুঁত হবে না কারণ কেবলমাত্র ব্যক্তির অংশটি ইমেজে নেই এবং নেটটি অনুমান করতে হবে যে কত বড় অংশ অনুপস্থিত (এবং স্থল সত্যের সীমাবদ্ধ বাক্সগুলি সবচেয়ে বেশি হবে) সম্ভবত এই তথ্য ক্যাপচার না)। এছাড়াও, পূর্বোক্ত অবজেক্ট ডিটেক্টর সর্বদা আংশিক বস্তুর পূর্বাভাস সঠিকভাবে পরিচালনা করে না। এটি মডেলটিতে খুব বেশি শব্দ শোনায়।
  3. বিভিন্ন ভঙ্গি: সামনে এবং পাশ থেকে দেখা লোকেদের জন্য ধড়-থেকে-মাথা অনুপাত খুব আলাদা হবে।
  4. প্রাপ্তবয়স্কদের: অনুপাতটি 0-21 এর মধ্যে বয়সের পূর্বাভাস দেওয়ার পক্ষে ভাল কাজ করে, তবে বয়স্কদের বয়সের ভবিষ্যদ্বাণী করতে এটি কীভাবে সহায়তা করবে তা আমি দেখতে পাই না (আমি অনুমান করি যে অনুপাতটি উচ্চ বয়সের পরিবর্তিত হয় না)।

এই সমস্ত সমস্যা থেকে বোঝা যায় যে মাথা থেকে টুড়ো অনুপাতের পদ্ধতিরও পুরোপুরি কার্যকর হতে চলেছে না, যদিও এটি আপনার নির্দিষ্ট প্রতিরূপের চেয়ে আরও দৃ rob় হতে পারে।

আমার ধারণা এই কাজটি সম্পাদন করার সর্বোত্তম উপায় হ'ল 1) মুখটি সনাক্ত করা, 2) কেবল মুখের ফসল থেকে বয়সের পূর্বাভাস (সম্ভাব্য বিভ্রান্তিকর তথ্য সরিয়ে দেয়)। নোট করুন যে কিছু আর-সিএনএন-জাতীয় আর্কিটেকচারকে ROI- পুলিং ব্যবহার করে এই প্রান্ত -2-শেষটি করার প্রশিক্ষণ দেওয়া যেতে পারে।


1 এমনকি খুব পরিশীলিত চিকিত্সা পদ্ধতি ব্যবহার করে (যা তত্ক্ষণাত ব্যক্তির ছবির চেয়ে অনেক বেশি তথ্যমূলক) এটি সঠিকভাবে করা সম্ভব নয়। দেখুন আরও তথ্যের জন্য এই কুয়োরা থ্রেড

2 নিবন্ধটি জ্ঞান সংক্রান্ত বিষয়গুলি দেখুন: অপ্টিমাইজেশনের জন্য পূর্বের তথ্যের গুরুত্ব উদাহরণস্বরূপ কীভাবে কার্য সম্পর্কে কিছু মধ্যবর্তী জ্ঞান সরবরাহ করা শিখনকে সহজতর করতে পারে।


8

এই প্রশ্নের উত্তর দেওয়ার জন্য সিএনএনগুলি একশ্রেণীর মডেল। লেএনট, অ্যালেক্সনেট, জেডএফ নেট এবং ভিজিজি 16 গুগলনেটের তুলনায় খুব আলাদা আচরণ করবে, যা সিএনএন আর্কিটেকচারের সাহায্যে বিশেষত আর-সিএনএন যা করে তা বেশিরভাগ ক্ষেত্রে তৈরি করা হয়েছিল (আপনি সম্ভবত গুগলনেটকে ইনসেপশন নামে জেনে থাকতে পারেন, যদিও কঠোরভাবে কথা বলা ইনসেপশন ঠিক বেসিক ইউনিট (সাবনেটওয়ার্ক) যার উপরে গুগলনেট নির্মিত হয়)। অবশেষে, রেসনেটগুলি অন্যরকম আচরণ করবে। এবং এই সমস্ত আর্কিটেকচারগুলি বয়সের শ্রেণিগুলিকে শ্রেণিবদ্ধ করার জন্য তৈরি করা হয়নি, তবে 1000 ইমেজনেট ক্লাসগুলিতে, যা মানুষের জন্য বয়সের শ্রেণি নেই। এক স্থানান্তর শেখার ব্যবহার করতে পারে(যদি আপনার পর্যাপ্ত প্রশিক্ষণ চিত্র থাকে) উপরের বিস্তৃত উপলব্ধ প্রশিক্ষিত মডেলগুলির একটিকে প্রশিক্ষণ দিতে এবং তারা কীভাবে পারফর্ম করে তা দেখুন। তবে সাধারণভাবে, বিশেষত পুরানো আর্কিটেকচারগুলিতে (ভিজিজি 16 পর্যন্ত বলা যাক) "বৈশ্বিক বৈশিষ্ট্যগুলি" শেখার জন্য একটি কঠিন সময় রয়েছে যা "মাথা" (ইতিমধ্যে একটি জটিল বৈশিষ্ট্য), "টর্স" (অন্য জটিল বৈশিষ্ট্য) এবং তাদের সম্পর্কে শিখতে হবে অনুপাত (যার জন্য দুটি বৈশিষ্ট্য একটি নির্দিষ্ট স্থানিক সম্পর্কের মধ্যেও প্রয়োজন)। এই জাতীয় জিনিসগুলি ক্যাপসুল নেটওয়ার্কগুলি করতে সক্ষম হওয়া উচিত works

প্রতিবেশীরা ঠিক তার বিপরীতে কাজ করার জন্য জন্মগ্রহণ করেছিল: স্থানীয় বৈশিষ্ট্যগুলির প্রতি সংবেদনশীল হতে হবে এবং তুলনামূলকভাবে তাদের আপেক্ষিক অবস্থান / স্কেলের প্রতি সংবেদনশীল নয়। একটি ভাল কনভনেটের "সাদা বিড়াল" স্বীকৃতি দেওয়া উচিত ছবিটি কোনও ক্লোজ-আপ বা আমেরিকান শট। পুলিং লেয়ারগুলির সাথে (যা স্থানীয় বৈশিষ্ট্যগুলির সাথে সংবেদনশীল) কনভোলশনাল স্তরগুলির সংমিশ্রণ (যা চিত্রের স্কেল বা অনুবাদে পরিবর্তনের সংবেদনশীলতার অংশকে সরিয়ে দেয়) আপনাকে এমন একটি স্থাপত্য দেয় যা এর মূল ভিত্তিতে স্থানিক প্রকারের শিখতে দুর্দান্ত নয় আপনি খুঁজছেন যে বস্তুর মধ্যে সম্পর্ক। কোথাও একটি উদাহরণ ছিল (তবে আমি এটি আর খুঁজে পাচ্ছি না) যেখানে বিভিন্ন আয়তক্ষেত্রাকার ননওভারল্যাপিং টাইলগুলিতে একটি বিড়ালের চিত্র বিভক্ত করার পরে এবং এলোমেলো ক্রমে তাদের একসাথে রাখার পরে সিএনএন চিত্রটি চিহ্নিত করতে থাকবেcat। এটি সূচিত করে যে সিএনএনগুলি স্থানীয় বৈশিষ্ট্যগুলির (টেক্সচার বা এর মতো কোনও কিছু) উচ্চ স্তরের বৈশিষ্ট্যগুলির মধ্যে স্থানিক সম্পর্কের চেয়ে বেশি সংবেদনশীল। এ সম্পর্কে কিছু আলোচনার জন্য ক্যাপসুল নেটওয়ার্ক পেপারও দেখুন । বন্দীদের সীমাবদ্ধতা সম্পর্কে একটি ভিডিওতে হিন্টন এর উদাহরণও দেখিয়েছিলেন ।

আমার বুনো অনুমান যে সাম্প্রতিক আর্কিটেকচারগুলির মধ্যে একটি শিশুদের থেকে পুরুষদের বোঝার জন্য পুরোপুরি সক্ষম (যথেষ্ট তথ্য দেওয়া হবে) তবে "মাথা" এবং "টড়সো" এর মতো উচ্চ স্তরের বৈশিষ্ট্যগুলির মধ্যে মেট্রিকের সম্পর্কের উপর "থ্রেশহোল্ড" হওয়ার কারণে নয় । এটি কিছু পরিসংখ্যানগত নিয়মিততা শিখতে পারে, সম্ভবত মানুষের কাছে সম্পূর্ণ অলক্ষিত, যা প্রশিক্ষণের সেটে প্রাপ্ত বয়স্ক চিত্রগুলিকে শিশুদের চিত্র থেকে পৃথক করে।


আমি আপনার উত্তর প্রশংসা করি, কিন্তু, আমি একমত করতে সমস্যা হচ্ছে। আরসিএনএন আর্কিটেকচারগুলিতে অবজেক্ট কনফিনেট হিসাবে ফিল্টারগুলির মূলত একই কাঠামো রয়েছে, উদাহরণস্বরূপ ভিজিজি এবং রেসনেট। আর যেহেতু আরসিএনএন স্কেল এবং আপেক্ষিক অবস্থান সনাক্ত করতে পারে তাই এটি অনুসরণ করে যে ভিজিজি এবং রেসনেটও স্কেল সনাক্ত করতে সক্ষম হবে। যাইহোক, আরসিএনএন আর্কিটেকচারগুলি বক্স প্রস্তাবগুলিতে নির্ভর করে, যার মধ্যে তারা প্রতি চিত্র হাজারে করে, যার পরে প্রতিটি বাক্স প্রস্তাব মূল্যায়ন করা হয়। সুতরাং মনে হচ্ছে যদি আমি এই বাক্সগুলির কমপক্ষে কিছু প্রস্তাব অন্তর্ভুক্ত করি তবে একটি ভ্যানিলা সিএনএন আরও ভাল স্কেল সনাক্ত করতে হবে। এটি করা দরকার কিনা আমি ঠিক নিশ্চিত নই।
অ্যালেক্স আর।

আরসিএনএন সিএনএন নয়। আপনি কেবল বাউন্ডিং বাক্সগুলির জন্য নির্বাচিত অনুসন্ধানকেই মিস করেন না, আপনি লিনিয়ার এসভিএম এবং সীমানা বাক্সের রেজিস্ট্রার পর্যায়েও মিস করেন। এছাড়াও, অ্যালেক্সনেট (যা মূল আরসিএনএন পেপারে সিএনএন ব্যবহৃত হয়) বা ভিজিজি, এবং গুগলনেট বা রেসনেট এর দক্ষতার মধ্যে একটি বড় পার্থক্য রয়েছে: আরসিএনএন যা করার জন্য গুগলনেটকে সঠিকভাবে বিকাশ করা হয়েছিল। আমি মনে করি উভয় GoogLeNet এবং ResNet শ্রেণীভুক্ত বয়স করতে সক্ষম হবে, কিন্তু কোন উপায় জানেন যে যদি তারা একটি বৈশিষ্ট্য যা আমাদের জ্ঞান করে তোলে (শরীর অনুপাত মাথা) ব্যবহার দ্বারা বা খোঁজার কিছু পরিসংখ্যানগত 1 / দ্বারা এটি করতে হবে এর
DeltaIV

2 / নিয়মিততা যা কোনও মানুষ কখনই খেয়াল করে না। আমি আপনাকে পরীক্ষার এবং চেষ্টা করার পরামর্শ দিচ্ছি, তবে দুর্ভাগ্যক্রমে কেবল চিত্রের ডাটাবেস তৈরি করা নিজেই একটি গবেষণা প্রকল্প হবে (যদি না আপনি কোনও ফ্যাশন সংস্থায় কাজ করেন)।
ডেল্টাভিও

1
বিভ্রান্তির জন্য আমার ক্ষমা চাই। আমি জানি যে সেখানে আছে 20 টি আলাদা আলাদা আরসিএনএন আর্কিটেকচার, অন্য দাবি করা প্রতিটি অপ্রচলিত।
অ্যালেক্স আর।

1
blog.piekniewski.info/2016/12/29/can-a-दीप-net-see-a-cat এছাড়াও, একটি ভিন্ন ইস্যু, তবুও টেক্সচার মিলের সাথে সম্পর্কিত এবং আরও সম্মানিত গবেষকরা, arxiv.org/pdf/ 1703.06857
ডেল্টাভিও

0

ঠিক আছে, এটি আপনার ডেটাसेटটি কীভাবে তৈরি হয় তার উপর নির্ভর করে। আমার অভিজ্ঞতা থেকে নিউরাল নেটওয়ার্কগুলি সহজ ব্যাখ্যাগুলিতে যেতে ঝোঁক। এবং সাজসজ্জা থেকে বয়সের অনুমান করা আসলে শরীরের অনুপাত থেকে মাথা ব্যবহারের চেয়ে সহজ। আপনি যদি এই বিষয়টি মাথায় রেখে আপনার ডেটাসেটটি প্রসারিত করতে পারেন তবে আপনার সিএনএন প্রত্যাশা অনুযায়ী কাজ করা উচিত।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.