নিউরাল নেটওয়ার্ক গবেষকরা কেন যুগের বিষয়ে যত্নশীল হন?


69

স্টোকাস্টিক গ্রেডিয়েন্ট বংশোদ্ভূত একটি যুগকে ডেটাগুলির মাধ্যমে একক পাস হিসাবে সংজ্ঞায়িত করা হয়। প্রতিটি এসজিডি মিনিবাসের জন্য, k নমুনাগুলি আঁকা হয়, গ্রেডিয়েন্ট গণনা করা হয় এবং পরামিতি আপডেট করা হয়। যুগের সেটিংয়ে, নমুনাগুলি প্রতিস্থাপন ছাড়াই আঁকা হয়।

তবে এটি অপ্রয়োজনীয় বলে মনে হচ্ছে। প্রতিটি পুনরুক্তিতে সম্পূর্ণ ডেটা সেট থেকে k এলোমেলোভাবে আঁকায় কেন প্রতিটি এসজিডি মিনিবাচ আঁকবেন না ? প্রচুর যুগে যুগে, ছোট ছোট বিচ্যুতিগুলির মধ্যে যেগুলির নমুনাগুলি কম বেশি দেখা যায় তা গুরুত্বহীন বলে মনে হয়।


1
প্রশ্নের জন্য +1, আকর্ষণীয়ভাবে আমার প্রায় একই প্রশ্নটি জিজ্ঞাসা করা হয়েছিল!
হাইটাও ডু

কাহিনী প্রমাণ, কিন্তু আমি সম্প্রতি এমএনআইএসটি তথ্যগুলিতে এসজিডি ব্যবহার করে একটি স্তর স্তর নিউরাল নেটওয়ার্ক লাগিয়েছি যা প্রশিক্ষণের আকার 50000। একের পরে এলোমেলোভাবে শ্রেণিবদ্ধকরণের যথার্থতা 30-40% এর চেয়ে বেশি ছিল না এবং লগ-সম্ভাবনা স্পষ্টত রূপান্তরিত হয়নি। সুতরাং আমি আরও 30 টি যুগের জন্য প্রক্রিয়াটি পুনরাবৃত্তি করেছি যা 90% এর বেশি নির্ভুলতার দিকে নিয়ে যায়। কমপক্ষে কাউন্টারে নমুনা দ্বারা এটি আমাকে দেখিয়েছিল যে তারা প্রয়োজনীয় হতে পারে।
টমকা

6
k

1
আরও একটি আকর্ষণীয় প্রশ্ন হ'ল: মিনি ব্যাচের অর্ডারও কি ওভারফিটিংয়ের উপর প্রভাব ফেলবে?
Kh40tiK

3
@ পিনোকিও স্ট্যান্ডার্ড এসজিডি অনুশীলনটি প্রতিস্থাপন ছাড়াই নমুনা দিচ্ছে (যতক্ষণ না নমুনাগুলি পুলটি অবসন্ন না হয়, সেই সময়ে সমস্ত ডেটা দিয়ে একটি নতুন যুগ শুরু হয়)। আমার প্রশ্ন এটি প্রতিস্থাপনের সাথে কেন নমুনা ব্যবহার করে না। দেখা যাচ্ছে যে একটি উত্তর হ'ল প্রতিস্থাপন ছাড়াই নমুনা নিলে মডেলটির রূপান্তর হারের উন্নতি ঘটে।
সাইকোরাক্স 20'17

উত্তর:


60

ব্যবহারিকাগুলি সম্পর্কে ফ্রাঙ্কের উত্তর এবং ছোট উপগোষ্ঠীগুলি দেখার বিষয়ে ডেভিডের উত্তর ছাড়াও - উভয়ই গুরুত্বপূর্ণ বিষয় - বাস্তবে প্রতিস্থাপন ছাড়াই নমুনা পছন্দ করার কিছু তাত্ত্বিক কারণ রয়েছে। সম্ভবত কারণটি ডেভিডের পয়েন্টের সাথে সম্পর্কিত (যা মূলত কুপন সংগ্রাহকের সমস্যা )।

n=781,265

বোটাউ (২০০৯) কিছু স্টোকাস্টিক গ্রেডিয়েন্ট বংশদ্ভুত অ্যালগরিদমের কৌতূহলীভাবে দ্রুত রূপান্তর । শেখার এবং ডেটা বিজ্ঞানের উপর সিম্পোজিয়ামের কার্যক্রম। ( লেখকের পিডিএফ )

তিনি এসজিডি এর মাধ্যমে একটি সমর্থন ভেক্টর মেশিনকে তিনটি পদ্ধতির প্রশিক্ষণ দিয়েছিলেন:

  • র্যান্ডম : প্রতিটি পুনরাবৃত্তিতে সম্পূর্ণ ডেটাসেট থেকে এলোমেলো নমুনা আঁকুন।
  • চক্র : শেখার প্রক্রিয়া শুরুর আগে ডেটাসেটটি বদলান, তারপরে ক্রমান্বয়ে এটি চলুন, যাতে প্রতিটি পর্বে আপনি একই ক্রমে উদাহরণগুলি দেখতে পান।
  • বদলান : প্রতিটি যুগের আগে ডেটাসেটটি রদবদল করুন, যাতে প্রতিটি পর্ব আলাদা আলাদা ক্রমে চলে যায়।

E[C(θt)minθC(θ)]Cθtt

  • এলোমেলোভাবে, রূপান্তরটি প্রায় of (সেই সময়ে বিদ্যমান তত্ত্ব দ্বারা প্রত্যাশিত) অর্ডারে ছিল ।t1
  • চক্রটি the ( তবে ক্রমানুসারে পৃথক হয়, উদাহরণস্বরূপ Figure his তার চিত্র 1 এর জন্য ) এর ক্রমে একত্রিত হয়েছে ।tαα>1α1.8
  • এলোমেলো আরো বিশৃঙ্খল ছিল, কিন্তু সেরা-ফিট লাইন দিয়েছেন , অনেক এলোমেলো তুলনায় দ্রুততর।t2

এটি তাঁর চিত্র 1 চিত্রিত করে যে: প্রদত্ত হারে রূপান্তর উদাহরণ

এটি পরে তাত্ত্বিকভাবে কাগজ দ্বারা নিশ্চিত করা হয়েছিল:

গার্বিজবালাবান, ওজডাগ্লার এবং পেরিলো (2015)। কেন র্যান্ডম রেশফলিং স্টোকাস্টিক গ্রেডিয়েন্ট বংশোদ্ভূত হয়আরএক্সিভ: 1510.08560 । ( এনআইপিএস 2015 এ আমন্ত্রিত আলাপের ভিডিও )

তাদের প্রমাণ কেবলমাত্র সেই ক্ষেত্রে প্রযোজ্য যেখানে ক্ষতির ফাংশন দৃ strongly়ভাবে উত্তল, অর্থাৎ নিউরাল নেটওয়ার্কগুলিতে নয়। এটি আশা করা যুক্তিসঙ্গত, যদিও, একই ধরণের যুক্তি নিউরাল নেটওয়ার্ক কেসের ক্ষেত্রে প্রযোজ্য হতে পারে (যা বিশ্লেষণ করা আরও কঠিন)।


3
এটি একটি খুব অন্তর্দৃষ্টিপূর্ণ উত্তর। আপনার অবদানের জন্য আপনাকে অনেক ধন্যবাদ।
সাইকোরাক্স

1
অজ্ঞতার জন্য দুঃখিত, তবে এই তিনটির মধ্যে পার্থক্য কী, তা আরও কিছুটা বোঝাতে আপনার কি মনে হয়? বিশেষত আমি র্যান্ডম সম্পর্কে বিভ্রান্ত হয়ে পড়েছি, যখন আপনি "নমুনা" বলবেন, আপনার অর্থ কী? আমি জানি আপনি যা উল্লেখ করছেন এটি নয় তবে স্ট্যান্ডার্ড নিউরাল নেট মিনি ব্যাচ এসজিডি সাধারণত প্রতিটি পুনরাবৃত্তিতে প্রতিস্থাপন ছাড়াই ব্যাচগুলির নমুনা দেয়। এটাই কি এলোমেলো করে? যদি তা হয় তবে এগুলি শফলের থেকে আলাদা কীভাবে?
Pinocchio

1
এখন যেহেতু আমি এটি পুনরায় পড়েছি তিনটিই একই অ্যালগোরিদম বলে মনে হচ্ছে, ডেটা সেটটি বদলে গেলে বা কী হবে এবং এসজিডির জন্য ব্যাচগুলি যেভাবে সর্বদা এলোমেলোভাবে হয় তবে কতক্ষণ পার্থক্য রয়েছে?
পিনোচিও

3
@ পিনোচিও চার-বিলাপের ডেটাসেটের কল্পনা করুন। এলোমেলোভাবে ACADBBCA যেতে পারে; প্রতিটি এন্ট্রি সম্পূর্ণ এলোমেলো। চক্র বিডিএসি বিডিএসি বিডিএসি যেতে পারে; এটি প্রতিটি যুগের জন্য একটি আদেশ চয়ন করে এবং তারপরে পুনরাবৃত্তি করে। বদলানো বিডিএসি এডিসিবি সিবিএডি হতে পারে; এটি যুগের মধ্যে যায়, তবে প্রত্যেকে এলোমেলো। এই বিশ্লেষণটি মিনি-ব্যাচগুলি ব্যবহার করে না, কেবলমাত্র এক-সময়ে-সময়ে এসজিডি।
ডগল

এটি একটি দুর্দান্ত উত্তর। Thnx আপনি!
ড্যানকমাস্টারডান

24

এটি একটি বিশাল প্রশিক্ষণের সেট সহ পারফরম্যান্সের দৃষ্টিকোণ থেকে প্রকৃতপক্ষে বেশ অপ্রয়োজনীয়, তবে ইপচগুলি ব্যবহার করা সুবিধাজনক হতে পারে, যেমন:

  • এটি একটি দুর্দান্ত মেট্রিক দেয়: "নিউরাল নেটওয়ার্কটি 10 ​​যুগের জন্য প্রশিক্ষিত হয়েছিল" "নিউরাল নেটওয়ার্কটি 18942 পুনরাবৃত্তির জন্য প্রশিক্ষিত হয়েছিল" বা "নিউরাল নেটওয়ার্কটি 303072 এর বেশি নমুনায় প্রশিক্ষিত হয়েছিল" এর চেয়ে একটি পরিষ্কার বিবৃতি।
  • প্রশিক্ষণের পর্যায়ে পর্যাপ্ত এলোমেলো জিনিস চলছে: এলোমেলো ওজন সূচনা, মিনি-ব্যাচের বদল, ড্রপআউট ইত্যাদি
  • এটি কার্যকর করা সহজ
  • এটি প্রশিক্ষণ সেটটি দীর্ঘকালীন যুগে না থাকার জন্য যথেষ্ট বড় কিনা তা ভেবে এড়ানো যায়

[1] আরও একটি কারণ দেয় যা আজকের কম্পিউটার কনফিগারেশনের ক্ষেত্রে এটি এতটা প্রাসঙ্গিক নয়:

যে কোনও স্টোকাস্টিক গ্রেডিয়েন্ট বংশোদ্ভূত পদ্ধতি (মিনি-ব্যাচের কেস সহ) হিসাবে, অনুমানের দক্ষতার জন্য এটি গুরুত্বপূর্ণ যে প্রতিটি উদাহরণ বা মিনিবাচ প্রায় স্বাধীনভাবে নমুনা করা উচিত। যেহেতু স্মৃতিতে এলোমেলো অ্যাক্সেস (অথবা আরও খারাপ, ডিস্কে) ব্যয়বহুল, একটি ভাল অনুমানন, যাকে ইনক্রিমেন্টাল গ্রেডিয়েন্ট (বার্টসেকাস, ২০১০) বলা হয়, স্মৃতিতে তাদের আদেশের সাথে সামঞ্জস্য করে একটি নির্দিষ্ট ক্রমে উদাহরণগুলি (বা মিনি-ব্যাচগুলি) দেখার জন্য বা ডিস্ক (দ্বিতীয় পর্বের একই আদেশে উদাহরণগুলি পুনরাবৃত্তি করা, যদি আমরা শুদ্ধ অনলাইন ক্ষেত্রে না থাকি যেখানে প্রতিটি উদাহরণ কেবল একবার দেখা হয়)।এই প্রসঙ্গে, উদাহরণস্বরূপ বা মিনি-ব্যাচগুলি প্রথমে এলোমেলো ক্রমে রাখলে এটি নিরাপদ হয় (এটি নিশ্চিত হওয়ার জন্য, উদাহরণগুলি প্রথমে রদবদল করার জন্য এটি দরকারী হতে পারে)। মিনি-ব্যাচগুলি যে আদেশে দেখা গেছে তা প্রতিটি পর্বের জন্য পরিবর্তন করা হয়েছে, যদি প্রশিক্ষণের সেটটি কম্পিউটারের স্মৃতিতে ধারণ করে তবে যুক্তিযুক্তভাবে দক্ষ হতে পারে conver


[1] বেঞ্জিও, যোশুয়া। " গভীর আর্কিটেকচারের গ্রেডিয়েন্ট-ভিত্তিক প্রশিক্ষণের জন্য ব্যবহারিক প্রস্তাবনা " "নিউরাল নেটওয়ার্ক: ট্রেডের কৌশল। স্প্রিঞ্জার বার্লিন হাইডেলবার্গ, 2012. 437-478।


1
এগুলি ভাল পয়েন্টগুলির মতো বলে মনে হয় তবে আপনার আপডেটের ক্ষেত্রে এটি মনে হয় যে যুগের প্রতি স্যাম্পলিং নির্ভরশীল নমুনা (কারণ একটি যুগের মধ্যে একটি নমুনার দু'বার দেখা হওয়ার সম্ভাবনা 0)। সুতরাং আমি নিশ্চিত নই যে লেখকরা কীভাবে দাবি করতে পারবেন যে যুগের নির্মাণটি স্বাধীন, যদি না তাদের "প্রায় স্বতন্ত্রভাবে" এর অর্থ "স্বতন্ত্রভাবে নয়"। k
সাইকোরাক্স

1
@ সাইকোরাক্স প্রতিস্থাপন ছাড়াই স্যাম্পলিং, অবশ্যই স্বতন্ত্র না হওয়া সত্ত্বেও "প্রায় স্বাধীন" এই অর্থে যে এটি বিনিময়যোগ্য । কোনও শ্রেণিবদ্ধকে প্রশিক্ষণের দৃষ্টিকোণ থেকে যা কোনও একটি ডাটা পয়েন্ট সম্পর্কে খুব বেশি চিন্তা করে না, এই বিনিময়যোগ্যতা অবশ্যই "প্রায় স্বাধীন" এর কাছাকাছি।
ডুগল

18

আমি কিছুটা দ্বিমত পোষণ করছি যে এটি স্পষ্টভাবে বিবেচনা করে না। ধরা যাক একটি মিলিয়ন প্রশিক্ষণের উদাহরণ রয়েছে এবং আমরা দশ মিলিয়ন নমুনা নিই।

আর-তে, আমরা দ্রুত দেখতে পাচ্ছি যে বিতরণটি কেমন দেখাচ্ছে

plot(dbinom(0:40, size = 10 * 1E6, prob = 1E-6), type = "h")

দ্বিপদী পিএমএফ

কিছু উদাহরণ 20+ বার পরিদর্শন করা হবে, এবং এর মধ্যে 1% 3 বা তারও কম বার দেখা হবে। যদি প্রশিক্ষণের সেটটি সত্যিকারের ডেটাতে উদাহরণগুলির প্রত্যাশিত বিতরণের উপস্থাপনের জন্য সতর্কতার সাথে বেছে নেওয়া হয়েছিল, তবে ডেটা সেটের কিছু ক্ষেত্রে এটির সত্যিকারের প্রভাব পড়তে পারে --- বিশেষত একবার আপনি যখন ছোট গ্রুপগুলিতে ডেটা টুকরো টুকরো করা শুরু করেন।

সাম্প্রতিক ক্ষেত্রে বিবেচনা করুন যেখানে একজন ইলিনয় ভোটার কার্যকরভাবে 30x ওভার স্যাম্পলিং করতে পেরেছিলেন এবং নাটকীয়ভাবে তার জনসংখ্যার গোষ্ঠীর জন্য মডেলটির অনুমানগুলি স্থানান্তরিত করেছিলেন (এবং পুরো মার্কিন জনসংখ্যার জন্য কিছুটা হলেও)। যদি আমরা দুর্ঘটনাক্রমে মেঘলা দিনে দিনে সবুজ ব্যাকগ্রাউন্ডের বিরুদ্ধে নেওয়া "রাফড গোষ্ঠী" চিত্রগুলি ওভার স্যাম্পল করি এবং অন্যান্য ধরণের গ্রোয়েস চিত্রগুলিকে নিম্নরূপ করি, মডেলটি সেই অপ্রাসঙ্গিক বৈশিষ্ট্যগুলিকে বিভাগের লেবেলের সাথে যুক্ত করতে পারে। ডেটা স্লাইভ করার আরও বেশি উপায় রয়েছে, এই সাব-গ্রুপগুলি তত বেশি হবে এবং এই ধরণের ভুল হওয়ার আরও সুযোগ থাকবে।


1
আমি মনে করি না এটি একটি বৃহত প্রশিক্ষণের জন্য অনুশীলনে একটি বড় পার্থক্য তৈরি করবে, তবে অবশ্যই আমি আশা করি এটি একটি ছোট প্রশিক্ষণের সেট সহ হবে with
ফ্রাঙ্ক ডারননকোর্ট

5
@ ফ্র্যাঙ্কডেরননকোর্ট ভালভাবে, পুরো বিষয়টি হ'ল আপনি যদি ছোট ছোট উপ-গ্রুপগুলির দিকে তাকাতে শুরু করেন তবে এটি বড় ডেটাসেটগুলির পক্ষে গুরুত্বপূর্ণ। বড় ডেটাসেটগুলিতে যা কোনও অস্বাভাবিক প্রক্রিয়া নয়,
ডিম্পল

খুব নিশ্চিত যে আপনার একটি অভিন্ন বিতরণ ব্যবহার করা উচিত ছিল, দ্বিপদী নয়
লাহরান

2
@ আলাহরান প্রতিস্থাপনের সাথে আমরা উপাদান থেকে বার নমুনা করছি । আর এ, হবে । সেখান থেকে আপনি এর সাথে ফ্রিকোয়েন্সি বিতরণ প্লট করতে পারেন । দেখে মনে হচ্ছে ঠিক উপরে দ্বি-দ্বি বিতরণ। 107106samples = sample(1:1E6, size = 1E7, replace = TRUE)plot(table(table(samples)) / 1E7)
ডেভিড জে হ্যারিস

2
আহা! আমি তখন ভুল ছিলাম।
lahwran
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.