ডেটাসেটের চিত্রটি বাদ দিয়ে বর্তমান চিত্রের পরিবর্তে গভীর শিক্ষার অর্থ কেন চিত্রগুলি সাধারণ করুন?


88

চিত্রগুলি কীভাবে স্বাভাবিক করা যায় সে সম্পর্কে কিছু তফাত রয়েছে তবে বেশিরভাগ ক্ষেত্রে এই দুটি পদ্ধতি ব্যবহার করা হয় বলে মনে হচ্ছে:

  1. সমস্ত চিত্রের জন্য গণনা করা প্রতি চ্যানেল গড়কে বিয়োগ করুন (উদাঃ VGG_ILSVRC_16_layers )
  2. সমস্ত চিত্রের উপরে গণনা করা পিক্সেল / চ্যানেল দ্বারা বিয়োগ (যেমন সিএনএনএস , এছাড়াও ক্যাফের রেফারেন্স নেটওয়ার্ক দেখুন )

প্রাকৃতিক দৃষ্টিভঙ্গি আমার মনে প্রতিটি চিত্রকে স্বাভাবিক করে তুলবে। দিবালোকের আলোতে তোলা কোনও চিত্র রাতারাতি ইমেজের চেয়ে বেশি নিউরনগুলিকে আগুনের কারণ হতে পারে এবং এটি আমাদের সময় সম্পর্কে জানাতে পারে যখন আমরা সাধারণত প্রান্তগুলিতে উপস্থিত আরও আকর্ষণীয় বৈশিষ্ট্যগুলি সম্পর্কে যত্ন করি etc.

পিয়ের সারমানেট ৩.৩.৩ এ উল্লেখ করেছেন যে স্থানীয় বিপরীতে নরমালাইজেশন যা প্রতি-চিত্র ভিত্তিক হবে তবে আমি যে উদাহরণ / টিউটোরিয়াল দেখেছি সেগুলির মধ্যে আমি কোনটিই পাই নি। আমি একটি আকর্ষণীয় কোওড়া প্রশ্ন এবং শিও-শেন ওয়েইয়ের পোস্টও দেখেছি তবে তারা উপরোক্ত দুটি পদ্ধতির সমর্থন করবে বলে মনে হয় না।

আমি ঠিক কী মিস করছি? এটি কি রঙিন নরমালাইজেশন ইস্যু বা এমন কোনও কাগজ রয়েছে যা আসলে ব্যাখ্যা করে যে এত লোক কেন এই পদ্ধতির ব্যবহার করে?


আমি উত্তরটি জানি না, তবে আপনি কি প্রতিটি পদ্ধতি ব্যবহার করে দেখেছেন? পারফরম্যান্সে কি তাদের কোনও পার্থক্য রয়েছে?
user112758

@ ব্যবহারকারী112758 - এগুলি বাস্তবায়ন করা কিছুটা বেদনাদায়ক (বিশেষত বাই পিক্সেলের জন্য) এবং আমার অভিজ্ঞতা হ'ল প্রতি চিত্রকে স্বাভাবিককরণ করা ঠিকঠাক কাজ করে তবে আমার ডেটা সেই প্রতিনিধি নয়। আমি স্বাভাবিককরণের সাথে পরীক্ষা করার চেষ্টা করব তবে আমি (আমার মনে) অদ্ভুত স্বাভাবিককরণের পদ্ধতিগুলির পিছনে অনুপ্রেরণা শুনতে আগ্রহী।
ম্যাক্স গর্ডন

ঠিক আছে, সম্ভবত আপনি এটি ক্যাফের গুগল গ্রুপ ক্যাফে গিটহাব সমস্যাগুলির মধ্যে জিজ্ঞাসা করতে পারেন। আমার ধারণা এই বিষয়ে আরও বিশেষজ্ঞ থাকবেন।
user112758

উত্তর:


58

ডেটাসেট মানে বিয়োগ করা ডেটা "কেন্দ্র" করার কাজ করে। অতিরিক্তভাবে, আপনি আদর্শভাবে সেই বৈশিষ্ট্য বা পিক্সেলের স্টেটদেব দ্বারা ভাগ করতে চান যদি আপনি প্রতিটি বৈশিষ্ট্যের মানকে জেড-স্কোরে স্বাভাবিক করতে চান।

আমরা এই দুটি জিনিসই করার কারণটি হ'ল আমাদের নেটওয়ার্ক প্রশিক্ষণের প্রক্রিয়া চলাকালীন, আমরা ক্রিয়াকলাপগুলির সাথে ব্যাকপ্রোগেট করে ক্রিয়াকলাপ তৈরি করতে এই প্রাথমিক ইনপুটগুলিকে বহুগুণ (ওজন) এবং যুক্তকরণ (বায়াসস) যুক্ত করতে যাচ্ছি মডেল প্রশিক্ষণ।

আমরা প্রতিটি প্রক্রিয়াটির জন্য একই বৈশিষ্ট্য তৈরি করতে চাই যাতে আমাদের গ্রেডিয়েন্টগুলি নিয়ন্ত্রণের বাইরে চলে না যায় (এবং আমাদের কেবলমাত্র একটি বৈশ্বিক শিক্ষার হারের গুণক প্রয়োজন)।

আপনি এটি সম্পর্কে গভীরভাবে চিন্তা করতে পারেন এমন আরও একটি উপায় হ'ল গভীর শিক্ষণ নেটওয়ার্কগুলি traditionতিহ্যগতভাবে অনেকগুলি পরামিতি ভাগ করে - যদি আপনি আপনার ইনপুটগুলি এমনভাবে তৈরি না করেন যা একই রকম বৈশিষ্ট্যের মানগুলির ফলাফল করে (যেমন: পুরো ডেটাसेटকে গড় বিয়োগ করে) ভাগ করে নেবে না খুব সহজেই ঘটে কারণ চিত্রের ওজনের এক অংশের ওজন wঅনেক বেশি এবং অন্যটিতে এটি খুব ছোট।

আপনি কিছু সিএনএন মডেলগুলিতে দেখতে পাবেন যে প্রতি চিত্রের সাদা রঙের ব্যবহার করা হয়, যা আপনার চিন্তার ধারায় আরও বেশি।


4
উত্তরের জন্য ধন্যবাদ. আমি ডেটা কেন্দ্র করে এবং স্থিতিশীল গ্রেডিয়েন্টগুলি পেতে রেঞ্জটি একইরকম হয় তা নিশ্চিত করার ধারণার সাথে আমি পরিচিত। প্রশ্নটি হ'ল কেন আমাদের সম্পূর্ণ ডেটাসেটের উপর এটি করা দরকার এবং প্রতি চিত্রের সাদা রঙের বিপরীতে এটি কেন সহায়তা করবে? আমি একটি সাধারণ রেফারেন্স চাই যা কোনওভাবে দেখায় যে আমি উত্তরটি গ্রহণ করার আগে এই শিক্ষার উন্নতি করে। আমি জানি যে ব্যাচের নরমালাইজেশন একটি অবিশ্বাস্যভাবে শক্তিশালী কৌশল তবে আমি পুরো ডেটাসেটের সাধারণীকরণের সংযোগটি দেখতে পাচ্ছি না।
সর্বোচ্চ গর্ডন

আপনি যদি ব্যাচের সাধারণীকরণটি ভাল বলে গ্রহণ করেন তবে আপনি ইতিমধ্যে সেখানে রয়েছেন। আপনি ব্যাচকে স্বাভাবিক করার একমাত্র কারণ হ'ল আপনি যখন মেমরিতে পুরো ডেটাসেটটি ফিট করতে না পারেন বা আপনি প্রশিক্ষণ বিতরণ করছেন (প্রায়শই একই সমস্যা)। এজন্য আমাদের ব্যাচ রয়েছে।
লোলারকোস্ট

আমি ভেবেছিলাম যে ব্যাচগুলি স্টোকাস্টিক গ্রেডিয়েন্ট বংশোদ্ভুতের ভিত্তি। এমনকি আমি মেমরিতে সমস্ত কিছু ফিট করতে পারলেও প্রতিটি পর্বের চেয়ে পরামিতিগুলি আরও ঘন ঘন আপডেট করতে চাই।
ম্যাক্স গর্ডন

3
তারা হয়। এবং আপনি চাইলেও ঘন ঘন আপডেট করতে পারেন - বিশ্লেষণাত্মক নিদর্শনগুলি অভিন্ন যা গ্রেডিয়েন্ট বংশোদ্ভূত সম্পর্কে এত সুন্দর এবং স্কেলযোগ্য is যে কারণে আমরা স্টোকাস্টিক গ্রেডিয়েন্ট বংশোদ্ভূত (শাফলিং ইনপুট অর্ডার + ব্যাচিং) ব্যবহার করি তা হ'ল গ্রেডিয়েন্ট স্পেসের মধ্য দিয়ে আমাদের পাহাড়ী আরোহণকে মসৃণ করা। একটি একক পয়েন্ট দিলে আমরা সত্যিই নিশ্চিত হতে পারি না যে আমাদের আপডেট আমাদের স্থানীয় ম্যাক্সিমার দিকে ঠেলে দেবে, তবে আপনি যদি পর্যাপ্ত পয়েন্ট নির্বাচন করেন তবে এই সম্ভাবনা বেশি হয়ে যায় (প্রত্যাশায়)।
lollercoaster

2
এটি কীভাবে অনুরূপ পরিসরে বৈশিষ্ট্য পেতে সহায়তা করে? আমার যদি দুটি চিত্র থাকে, যার একটি 0 থেকে 255 এবং পিক্সেল মানগুলিতে 0 থেকে 50 এর মধ্যে থাকে, 50 এর গড় এবং 15 এর স্টাডিভ দিয়ে বলুন mal নর্মালাইজিং আমাকে চিত্র -3.3 থেকে 13.6 এবং চিত্র 2-এর মধ্যে দেয় -3.3 থেকে 0 তারা এখনও একই স্কেলে নেই।
ড্যানিয়েল

9

ব্যাচের সাধারণকরণের আগে, প্রতিটি চ্যানেলের (আর, জি, বি) শূন্যের কাছাকাছি উপাত্তকে কেন্দ্র করে প্রতি চ্যানেল প্রতি গড় বিয়োগ ব্যবহৃত হত। এটি সাধারণত নেটওয়ার্কটিকে দ্রুত শিখতে সহায়তা করে যেহেতু প্রতিটি চ্যানেলের জন্য গ্রেডিয়েন্টগুলি সমানভাবে কাজ করে। আমি সন্দেহ করি আপনি যদি ব্যাচের সাধারণকরণ ব্যবহার করেন তবে প্রতি চ্যানেল মানে বিয়োগ বিয়োগের প্রাক প্রসেসিং পদক্ষেপটি যেহেতু আপনি মিনি-ব্যাচে প্রতি সাধারণীকরণ করছেন তাই সত্যিই প্রয়োজনীয় নয়।


1
"আমি সন্দেহ করি আপনি যদি ব্যাচের সাধারণকরণ ব্যবহার করেন তবে প্রতি চ্যানেল মানে বিয়োগ বিয়োগের প্রাক প্রসেসিং পদক্ষেপটি যেহেতু আপনি মিনি-ব্যাচে প্রতি সাধারণীকরণ করছেন তা সত্যিই প্রয়োজনীয় নয়" " তবে ব্যাচের আদর্শ বলতে আপনার নেটওয়ার্কের স্তরগুলিতে ওজনকে সাধারণকরণকে বোঝায় ... আসল ইনপুট চিত্র নয়। এটি 2 টি ভিন্ন জিনিস।
মনিকা হেডনেক

4

প্রতি চিত্রের সাধারণকরণ সাধারণ এবং এটি বর্তমানে টেনসরফ্লোতে অন্তর্নির্মিত একমাত্র কার্য (মূলত বাস্তবায়নের পক্ষে খুব সহজ হওয়ার কারণে)। আপনি যে সঠিক কারণটি উল্লেখ করেছেন (একই চিত্রের জন্য দিন ভিএস রাত) এটি ব্যবহার করা হয়। যাইহোক, আপনি যদি আরও আদর্শ দৃশ্যের কল্পনা করেন যেখানে আলো নিয়ন্ত্রণ করা হয়, তবে প্রতিটি চিত্রের মধ্যে তুলনামূলক পার্থক্য আলগোরিদিমে খুব মূল্যবান হবে, এবং আমরা প্রতি-চিত্রের স্বাভাবিককরণের সাথে এটি মুছতে চাই না (এবং চাইবে না সম্পূর্ণ প্রশিক্ষণের ডেটা সেট প্রসঙ্গে সাধারণকরণ করুন)।


4

এটিকে ডেটা ব্যবহারের আগে প্রাকপ্রসেসিং বলা হয়। আপনি বিভিন্ন উপায়ে প্রক্রিয়া করতে পারেন তবে একটি শর্ত রয়েছে যে আপনার প্রতিটি ফাংশনটি একই ফাংশন দিয়ে প্রক্রিয়াকরণ করা উচিত এক্স_প্রিপ্রোক = ফ (এক্স) এবং এই চ (।) নিজেই ডেটা নির্ভর করতে হবে না, তাই যদি আপনি বর্তমান চিত্রটি ব্যবহার করেন তবে এটি প্রক্রিয়া করার জন্য বর্তমান চিত্রটি আপনার চ (এক্স) আসলে সত্যই চ (এক্স, চিত্র) হবে এবং আপনি এটি চান না।

আপনি যে চিত্রটির বিপরীতে সাধারণীকরণের কথা বলছিলেন তা অন্য কোনও উদ্দেশ্যে different চিত্রের বিপরীতে নরমালাইজেশন বৈশিষ্ট্যটিতে সহায়তা করবে।

তবে উপরের চ (।) সমস্ত বৈশিষ্ট্যকে সংখ্যার সাথে একে অপরের সমান রেখে অপ্টিমাইজেশনে সহায়তা করবে (অবশ্যই প্রায়)

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.