কৃত্রিম নিউরাল নেটওয়ার্কের জন্য আমাদের ইনপুটটি কেন স্বাভাবিক করতে হবে?


151

এটি নিউরাল নেটওয়ার্কগুলির তত্ত্ব সম্পর্কিত একটি মূল প্রশ্ন:

নিউরাল নেটওয়ার্কের জন্য আমাদের ইনপুটটি কেন স্বাভাবিক করতে হবে?

আমি বুঝতে পারি যে কখনও কখনও, উদাহরণস্বরূপ যখন ইনপুট মানগুলি সংখ্যাসূচক হয় তবে একটি নির্দিষ্ট রূপান্তর সম্পাদন করা আবশ্যক, তবে যখন আমাদের সংখ্যার ইনপুট থাকে? সংখ্যাগুলি একটি নির্দিষ্ট বিরতিতে কেন হবে?

ডাটা স্বাভাবিক না হলে কী হবে?


1
আমি এই প্রশ্নটিকে অফ-টপিক হিসাবে বন্ধ করতে ভোট দিচ্ছি কারণ এটি স্ট্যাটস এসই বা এআই এসই এর অন্তর্গত।
এনবিরো

উত্তর:


101

এটি এখানে ভাল ব্যাখ্যা করা হয়েছে

যদি ইনপুট ভেরিয়েবলগুলি এমএলপি [মাল্টিলেয়ার পার্সেপট্রন] এর মতো রৈখিকভাবে একত্রিত হয়, তবে কমপক্ষে তত্ত্বের ক্ষেত্রে ইনপুটগুলিকে মানক করা খুব কমই কড়া প্রয়োজন। কারণটি হ'ল কোনও ইনপুট ভেক্টরকে পুনরুদ্ধার কার্যকরভাবে সংশ্লিষ্ট ওজন এবং বায়াসগুলি পরিবর্তন করে পূর্বাবস্থায় ফিরিয়ে নেওয়া যেতে পারে যা আপনাকে আগের মতো ঠিক একই আউটপুট দিয়ে ফেলেছে। যাইহোক, বিভিন্ন কৌশলগত কারণ রয়েছে যা ইনপুটগুলিকে মানীকৃত করা প্রশিক্ষণ দ্রুততর করতে পারে এবং স্থানীয় অনুকূলতায় আটকে যাওয়ার সম্ভাবনা হ্রাস করতে পারে। এছাড়াও, ওজন ক্ষয় এবং বায়সিয়ান অনুমান মানকৃত ইনপুটগুলির সাথে আরও স্বাচ্ছন্দ্যে করা যেতে পারে।


2
হাই, এমএলপিগুলিতে, বিভিন্ন মাত্রার জন্য ব্যাকপ্রোপেশন সংশোধনগুলিতে ধ্রুবক শেখার হারের কারণ / আন্ডার কমপেনসেশন ব্যবহার করার সময় বৈশিষ্ট্যগুলিকে মানক করা যায় না? আমি নিম্নলিখিত পোস্টটি থেকে ভাবছি যদি এটি সিএনএন-এর সাথে একচেটিয়া হয় তবে বা এমএলপিগুলি যদি এই সমস্যাটি ভাগ করে নিতে পারে: stats.stackexchange.com/questions/185853/…
অস্টিন

সমস্যা: গ্রেডিয়েন্ট বংশদ্ভুত অপ্ট। প্রক্রিয়াটি অনেক বেশি সময় নিতে পারে। কেন? যখন বৈশিষ্ট্যগুলি বিভিন্ন স্কেলের হয় (x1 = 0-1 এবং x2 = 0..1000), ত্রুটি ফাংশন পৃষ্ঠটি দীর্ঘায়িত হতে পারে। অর্থ: বিভিন্ন ডিমেসের জন্য বিভিন্ন স্কেল (ডাব্লু 1, ডাব্লু 2)। কিন্তু শেখার হার একই সব dims জন্য -> দীর্ঘায়ত অস্পষ্ট (W2) পদক্ষেপ পৌছানোর স্থানীয় মিনিট পর্যন্ত খুব ছোট হয়। সমস্যা: এলআরকে ইনক করতে পারে না, যেহেতু এটি অন্যান্য ম্লান (ডাব্লু 1) এ স্থানীয় মিনিট এড়িয়ে যায়। Youtube.com/watch?reload=9&v=UIp2CMI0748
ডেকেল

এখানে একটি লিনিয়ার উদাহরণ দেওয়া আছে, যেখানে স্কেলিং ছাড়াই জিনিসগুলি খুব খারাপ। স্ট্যাকওভারফ্লো.com / q / 59319643 । . । কোন ধারণা কেন?
সর্বদা

61

স্নায়ুবহুল নেটওয়ার্কগুলিতে, কেবলমাত্র তথ্যকে সাধারণকরণ না করে সেগুলি স্কেল করা ভাল ধারণা। এটি ত্রুটি পৃষ্ঠের উপরে গ্লোবাল মিনিমাতে দ্রুত পৌঁছানোর উদ্দেশ্যে is নিম্নলিখিত ছবিগুলি দেখুন: স্বাভাবিককরণের আগে এবং পরে ত্রুটি পৃষ্ঠ

স্কেলিংয়ের আগে এবং পরে ত্রুটি পৃষ্ঠ

ছবিগুলি নিউরাল নেটওয়ার্কগুলি সম্পর্কে কোর্স কোর্স থেকে নেওয়া হয় । কোর্সের লেখক হলেন জিওফ্রে হিন্টন।


14
আপনার পোস্ট করা গ্রাফিকের লেখককে ক্রেডিট করা ভাল লাগত। গ্রাফিকটি পরিষ্কারভাবে জেফ্রি হিন্টনের কোর্স কোর্স থেকে নেওয়া হয়েছিল ।
রিকার্ডো ক্রুজ

5
আমি এই ভিডিওটিকে উপরের চিত্রটি ব্যাখ্যা করতে সত্যই সহায়ক বলে মনে করেছি, যা এটি নিজেই আমার কাছে স্পষ্ট ছিল না।
chris838

21

এনএন-তে কিছু ইনপুটগুলির মান 'প্রাকৃতিকভাবে সংজ্ঞায়িত' পরিসীমা নাও থাকতে পারে। উদাহরণস্বরূপ, গড় মান ধীরে ধীরে হতে পারে তবে সময়ের সাথে অবিচ্ছিন্নভাবে বৃদ্ধি পেতে পারে (উদাহরণস্বরূপ ডাটাবেসে বেশ কয়েকটি রেকর্ড)।

এই ক্ষেত্রে আপনার নেটওয়ার্কে এই কাঁচা মান খাওয়ানো খুব ভাল কাজ করবে না। আপনি আপনার নেটওয়ার্ককে রেঞ্জের নিম্ন অংশ থেকে মানগুলিতে শিখিয়ে দেবেন, যখন আসল ইনপুটগুলি এই ব্যাপ্তির উচ্চতর অংশ (এবং সম্ভবত সম্ভবত রেঞ্জের উপরে যে নেটওয়ার্কটি কাজ করতে শিখেছে) থেকে হবে।

আপনার এই মানটি স্বাভাবিক করা উচিত। উদাহরণস্বরূপ আপনি পূর্ববর্তী ইনপুট থেকে মানটি কতটা পরিবর্তিত হয়েছে তা দ্বারা নেটওয়ার্কটিকে বলতে পারেন। এই ইনক্রিমেন্টটি সাধারণত একটি নির্দিষ্ট পরিসরে উচ্চ সম্ভাবনার সাথে সংজ্ঞায়িত করা যায় যা এটি নেটওয়ার্কের জন্য একটি ভাল ইনপুট করে makes


পূর্ববর্তী ইনপুটগুলির সেটাকে স্বাভাবিক করার বিষয়ে দুর্দান্ত ইঙ্গিত। এটি ব্যবহারকারীকে একটি স্বেচ্ছাসেবী স্বাভাবিককরণের ফ্যাক্টর সংজ্ঞা দেওয়া থেকে মুক্তি দেয়। তবে আমি সন্দেহ করি যে যদি প্রতিটি ইনপুট ভেক্টরটিতে নরমালাইজেশন ফ্যাক্টর একটি আন্তর্জাতিক ধ্রুবক প্রয়োগ করা হয় তবে নেট আরও নিখুঁতভাবে প্রশিক্ষণ দেবে will
ডেভিড

11

বাইরে থেকে নিউরাল নেটওয়ার্কের দিকে তাকানো, এটি কেবলমাত্র একটি ফাংশন যা কিছু যুক্তি নেয় এবং ফলাফল দেয়। সমস্ত ফাংশনের মতো এটির একটি ডোমেন রয়েছে (অর্থাত্ আইনী তর্কগুলির একটি সেট)। এটি যে ডোমেনে রয়েছে তা নিশ্চিত করার জন্য আপনাকে যে মানগুলি নিউরাল নেটতে যেতে চান তা স্বাভাবিক করতে হবে। সমস্ত ফাংশনের মতো, যদি আর্গুমেন্টগুলি ডোমেনে না থাকে তবে ফলাফলটি উপযুক্ত হওয়ার গ্যারান্টিযুক্ত নয়।

ডোমেনের বাইরের আর্গুমেন্টে স্নায়বিকের সঠিক আচরণ নিউরাল নেট বাস্তবায়নের উপর নির্ভর করে। তবে সামগ্রিকভাবে, যুক্তি ডোমেনের মধ্যে না থাকলে ফলাফল অকেজো।


16
যদি আপনি একটি সাধারণ অ্যাক্টিভেশন ফাংশন নেন (রিলু বা সিগময়েড), ডোমেনটি সর্বদা পুরো স্পেস আর। N থাকে। সুতরাং এটি তথ্যকে স্বাভাবিক করার কারণ হতে পারে না।
জোকার 123

1
চিত্রগুলি কেন সাধারণ করা হয় তা এটিও ব্যাখ্যা করে না, যেহেতু তাদের ইতিমধ্যে 0-255
ডলারআক্ষয়ের

4

নিউরাল নেটওয়ার্কে খাওয়ানোর আগে আমাদের ইনপুট বৈশিষ্ট্যগুলিকে সাধারণীকরণের 2 টি কারণ রয়েছে:

কারণ 1 : অন্যদের তুলনায় একটি Featureযদি Datasetস্কেল আকারে বড় হয় তবে এই বৃহত আকারযুক্ত বৈশিষ্ট্যটি প্রাধান্য পায় এবং এর ফলস্বরূপ, নিউরাল নেটওয়ার্কের পূর্বাভাসগুলি নির্ভুল হবে না।

উদাহরণ : কর্মচারী ডেটার ক্ষেত্রে, যদি আমরা বয়স এবং বেতন বিবেচনা করি তবে বয়স একটি দুই অঙ্কের সংখ্যা হবে এবং বেতন 7 বা 8 ডিজিট (1 মিলিয়ন ইত্যাদি) হতে পারে। সেক্ষেত্রে বেতনটি নিউরাল নেটওয়ার্কের পূর্বাভাসকে প্রাধান্য দেবে। তবে আমরা যদি এই বৈশিষ্ট্যগুলিকে সাধারণীকরণ করি তবে উভয় বৈশিষ্ট্যের মানগুলি (0 থেকে 1) এর মধ্যে থাকবে।

কারণ 2 : নিউরাল নেটওয়ার্কগুলির সম্মুখ প্রচারের মধ্যে ইনপুট বৈশিষ্ট্যযুক্ত ওজনের ডট প্রোডাক্ট জড়িত। সুতরাং, যদি মানগুলি খুব বেশি হয় (চিত্র এবং নন-চিত্র ডেটার জন্য), আউটপুট গণনা মেমরির পাশাপাশি গণনার সময়ও অনেক সময় নেয়। ব্যাক প্রচারের সময় একই ঘটনা ঘটে। ফলস্বরূপ, ইনপুটগুলি সাধারণীকরণ না করা হলে মডেল ধীরে ধীরে রূপান্তরিত হয়।

উদাহরণ : আমরা যদি চিত্রের শ্রেণিবিন্যাস করি তবে চিত্রের আকার খুব বিশাল হবে, কারণ প্রতিটি পিক্সেলের মান 0 থেকে 255 অবধি থাকে this এক্ষেত্রে সাধারণকরণ খুব গুরুত্বপূর্ণ।

নীচে উল্লেখ করা আছে যেগুলি নরমালাইজেশন অত্যন্ত গুরুত্বপূর্ণ:

  1. কে-পদ্ধতি
  2. কে-নিকটবর্তী-প্রতিবেশী
  3. প্রধান উপাদান বিশ্লেষণ (পিসিএ)
  4. গ্রেডিয়েন্ট বংশোদ্ভূত

2

আমি বিশ্বাস করি উত্তরটি দৃশ্যের উপর নির্ভরশীল।

অপারেটর এফ হিসাবে এনএন (নিউরাল নেটওয়ার্ক) বিবেচনা করুন, যাতে F (ইনপুট) = আউটপুট । যে ক্ষেত্রে এই সম্পর্কটি রৈখিক তাই एफ (এ * ইনপুট) = এ * আউটপুট , তবে আপনি ইনপুট / আউটপুটটিকে তাদের কাঁচা ফর্মের মধ্যে অস্বাভাবিক রেখে দিতে বেছে নিতে পারেন বা উভয়কে এ এড়িয়ে দেওয়ার জন্য স্বাভাবিক করতে পারেন স্পষ্টতই এই রৈখিক ধারণাটি হ'ল শ্রেণিবদ্ধকরণ কার্যগুলিতে লঙ্ঘন করা, বা প্রায় কোনও কার্য যা সম্ভাবনার সম্ভাবনা দেয়, যেখানে এফ (এ * ইনপুট) = 1 * আউটপুট

অনুশীলনে, নরমালাইজেশন নন-ফিটযোগ্য নেটওয়ার্কগুলিকে ফিটযোগ্য হতে দেয়, যা পরীক্ষক / প্রোগ্রামারদের পক্ষে অত্যন্ত গুরুত্বপূর্ণ cruc তবুও, স্বাভাবিককরণের সুনির্দিষ্ট প্রভাব কেবলমাত্র নেটওয়ার্ক আর্কিটেকচার / অ্যালগরিদমের উপর নির্ভর করবে না, তবে ইনপুট এবং আউটপুটটির ক্ষেত্রে পরিসংখ্যানের পূর্বেও নির্ভর করবে।

আরও বেশি, ব্ল্যাক-বাক্স ফ্যাশনে এনএন প্রায়শই খুব কঠিন সমস্যাগুলি সমাধানের জন্য প্রয়োগ করা হয় যার অর্থ অন্তর্নিহিত সমস্যাটির খুব খারাপ সংখ্যক পরিসংখ্যানিক গঠন হতে পারে, যার ফলে প্রযুক্তিগত সুবিধা (কল্পনাপ্রসূত হয়ে ওঠে) স্বাভাবিককরণের প্রভাবের মূল্যায়ন করা শক্ত করে তোলে পরিসংখ্যান উপর তার প্রভাব উপর আধিপত্য।

পরিসংখ্যানগত অর্থে, নর্মালাইজেশন এমন প্রকরণকে সরিয়ে দেয় যা আউটপুট পূর্বাভাস দেওয়ার ক্ষেত্রে অ-কার্যকারিতা বলে মনে করা হয়, যাতে এনএনকে ভবিষ্যদ্বাণীকারী হিসাবে এই প্রকরণটি শিখতে বাধা দিতে পারে ( এনএন এই প্রকরণটি দেখায় না, তাই এটি ব্যবহার করতে পারে না )।


2

আপনি যখন অস্বাভাবিক ইনপুট বৈশিষ্ট্যগুলি ব্যবহার করেন, ক্ষতির ফাংশনে খুব বর্ধিত উপত্যকা থাকার সম্ভাবনা থাকে। গ্রেডিয়েন্ট বংশোদ্ভূত সাথে অনুকূলকরণ করার সময়, এটি একটি ইস্যুতে পরিণত হয় কারণ কিছুটা পরামিতি সম্মানের সাথে গ্রেডিয়েন্ট খাড়া হবে। আপনি খাড়া opালুগুলির মধ্যে ঝাঁকুনির পরে এটি অনুসন্ধানের জায়গাগুলিতে বৃহত দোলনের দিকে নিয়ে যায়। ক্ষতিপূরণ দিতে, আপনাকে ছোট শিক্ষার হারের সাথে অপ্টিমাইজেশন স্থিতিশীল করতে হবে।

এক্স 1 এবং এক্স 2 বৈশিষ্ট্যগুলি বিবেচনা করুন, যেখানে যথাক্রমে 0 থেকে 1 এবং 0 থেকে 1 মিলিয়ন অবধি। এটি সম্পর্কিত প্যারামিটারের অনুপাত (যেমন, ডাব্লু 1 এবং ডাব্লু 2) আরও বড় হবে turns

স্বাভাবিককরণ ক্ষতির ক্রিয়াকে আরও প্রতিসম / গোলাকৃতির করে তোলে। এগুলি অনুকূলিতকরণ আরও সহজ কারণ গ্রেডিয়েন্টগুলি সর্বনিম্ন ন্যূনতম দিকে নির্দেশ করে এবং আপনি আরও বড় পদক্ষেপ নিতে পারেন।


1

সাধারণকরণের প্রয়োজনীয়তার কারণ হ'ল যদি আপনি দেখেন যে কীভাবে একটি অভিযোজিত পদক্ষেপটি ফাংশনের ডোমেনে এক জায়গায় এগিয়ে চলেছে, এবং আপনি কেবল সমস্যাটি কিছু দিকের কিছু দিক দিয়ে কিছু বড় মানের দ্বারা অনুবাদ করা একই ধাপের সমতুল্য স্থানান্তরিত করেন ডোমেন, তারপরে আপনি বিভিন্ন ফলাফল পাবেন। এটি একটি লিনিয়ার টুকরোটিকে ডেটা পয়েন্টে অভিযোজিত করার প্রশ্নে ফোটায়। বাঁক না দিয়ে টুকরোটি কতটা সরানো উচিত এবং সেই প্রশিক্ষণ পয়েন্টের প্রতিক্রিয়ায় এটি কতটা ঘুরতে হবে? ডোমেনের বিভিন্ন অংশে পরিবর্তিত অভিযোজন পদ্ধতিটি বোধগম্য নয়! সুতরাং প্রশিক্ষণের ফলাফলের পার্থক্য হ্রাস করার জন্য স্বাভাবিককরণ প্রয়োজন। আমি এটি লিখিতভাবে পাই নি, তবে আপনি কেবল একটি সরল রৈখিক ক্রিয়াকলাপের জন্য গণিতের দিকে তাকান এবং এটি কীভাবে এটি দুটি প্রশিক্ষণের জায়গায় একটি প্রশিক্ষণ পয়েন্ট দ্বারা প্রশিক্ষিত হয় তা দেখতে পারেন। এই সমস্যাটি কিছু জায়গায় সংশোধন করা হতে পারে তবে আমি তাদের সাথে পরিচিত নই। এএনএন-তে সমস্যাটি সংশোধন করা হয়েছে এবং আপনি যদি ওয়ারওয়ারস্ট্রং এটি শাল.কম-এ লিখেন তবে আমি আপনাকে একটি কাগজ পাঠাতে পারি can


-9

লুকানো স্তরগুলি আমাদের ডেটার জটিলতা অনুসারে ব্যবহৃত হয়। যদি আমাদের কাছে ইনপুট ডেটা থাকে যা লাইনগতভাবে পৃথকযোগ্য হয় তবে আমাদের লুকানো স্তর যেমন ওআর গেট ব্যবহার করার দরকার নেই তবে আমাদের যদি একটি লিনিয়ারলিপি সেপারেবল ডেটা থাকে তবে আমাদের উদাহরণস্বরূপ এক্সোর লজিক্যাল গেট ব্যবহার করতে হবে hidden যে কোনও স্তরে নেওয়া নোডের সংখ্যা আমাদের আউটপুট ক্রস বৈধকরণের ডিগ্রির উপর নির্ভর করে।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.