খারাপ উপাচার্য মাত্রা থাকা সত্ত্বেও গভীর শিক্ষা কেন হাইপড?


86

Vapnik-Chervonenkis (ভিসি) -dimension স্নায়ুর নেটওয়ার্ক জন্য সূত্র থেকে রেঞ্জ থেকে , সঙ্গে সবচেয়ে খারাপ ক্ষেত্রে, যেখানে প্রান্ত এবং সংখ্যা নোডের সংখ্যা। সাধারণীকরণের দৃ guarantee় গ্যারান্টি থাকতে প্রয়োজনীয় প্রশিক্ষণের নমুনাগুলির সংখ্যা ভিসি-মাত্রার সাথে লিনিয়ার।O(E)O(E2)O(E2V2)EV

এর অর্থ হ'ল কোটি কোটি প্রান্তযুক্ত একটি নেটওয়ার্কের জন্য, যেমন সফল গভীর শেখার মডেলগুলির ক্ষেত্রে, ট্রেনিং ডেটাসেটের সবচেয়ে খারাপ ক্ষেত্রে চতুর্ভুজবিস্তার জন্য, সেরা ক্ষেত্রে কোটি কোটি প্রশিক্ষণের নমুনার প্রয়োজন। বৃহত্তম প্রশিক্ষণ সেটে বর্তমানে প্রায় একশো বিলিয়ন নমুনা রয়েছে। যেহেতু পর্যাপ্ত প্রশিক্ষণের ডেটা নেই, তত সম্ভবত গভীর শেখার মডেলগুলি সাধারণীকরণ করছে। পরিবর্তে, তারা প্রশিক্ষণ ডেটা overfitting হয়। এর অর্থ মডেলগুলি এমন ডেটাতে ভাল সঞ্চালন করবে না যা প্রশিক্ষণের ডেটার থেকে পৃথক, যা মেশিন লার্নিংয়ের জন্য একটি অনাকাঙ্ক্ষিত সম্পত্তি।

ভিসি ডাইমেনশনাল বিশ্লেষণ অনুসারে, গভীর শেখার সাধারণকরণের অক্ষমতা দেওয়া, গভীর শিক্ষার ফলাফলগুলি কেন এত হাইপাইড হয়? কিছু ডেটাসেটে কেবল উচ্চ উচ্চতা থাকা নিজের পক্ষে খুব বেশি বোঝায় না। গভীর শেখার আর্কিটেকচার সম্পর্কে বিশেষ কিছু রয়েছে যা ভিসি-মাত্রাকে উল্লেখযোগ্যভাবে হ্রাস করে?

আপনি যদি ভিসি-ডাইমেনশন বিশ্লেষণটি প্রাসঙ্গিক বলে মনে করেন না, দয়া করে প্রমাণ / ব্যাখ্যা দিন যে গভীর শিক্ষণটি সাধারণীকরণ করছে এবং অত্যধিক উপযোগী নয়। অর্থাৎ এটির কী পুনরুদ্ধার এবং নির্ভুলতা আছে, বা কেবল ভাল পুনরুদ্ধার? 100% রিকালটি অর্জনের জন্য তুচ্ছ, যেমনটি 100% নির্ভুলতা। উভয়কেই 100% পাওয়া খুব কঠিন very

বিপরীত উদাহরণ হিসাবে, এখানে গভীর প্রমাণ শেখা অত্যধিক উপযুক্ত প্রমাণ রয়েছে । একটি ওভারফিট মডেল বোকা বানানো সহজ কারণ এটি নির্ধারক / স্টোকাস্টিক শব্দকে অন্তর্ভুক্ত করেছে। ওভারফিটিংয়ের উদাহরণের জন্য নিম্নলিখিত চিত্রটি দেখুন।

আন্ডারফিটিং, ফিটিং এবং ওভারফিটিংয়ের উদাহরণ।

এছাড়াও, পরীক্ষার ডেটাতে যথাযথতা থাকা সত্ত্বেও একটি ওভারফিট মডেল নিয়ে সমস্যাগুলি বোঝার জন্য এই প্রশ্নের নিম্নতর উত্তরগুলি দেখুন ।

কেউ কেউ প্রতিক্রিয়া জানিয়েছেন যে নিয়মিতকরণ একটি বড় ভিসি মাত্রার সমস্যা সমাধান করে । আরও আলোচনার জন্য এই প্রশ্নটি দেখুন ।


মন্তব্যগুলি বর্ধিত আলোচনার জন্য নয়; এই কথোপকথন চ্যাটে সরানো হয়েছে ।
DW

7
"হাইপাইড" কেন কিছু ভাল তা আমি প্রশ্ন করি না। উত্তরটি "কারণ মানুষ"। বিপণন সহ কারণগুলির আধিক্যের কারণে লোকেরা বিষয়গুলিতে আগ্রহী হয়।
luk32

গভীর শেখার অনুশীলনে কাজ করে। এটি অত্যধিক অতিরিক্ত হতে পারে। এটি সম্পূর্ণরূপে ন্যায়বিচারহীন হতে পারে। এটি কোনও প্রাচীন দেবতার কাছ থেকে মহাবিশ্বের গোপনীয় বিষয়গুলি শিখতে পারে। হাইপটি প্র্যাকশনারদের কাছ থেকে আসছে যারা হঠাৎ করে কোডে 30 টি লাইন লিখতে সক্ষম হন এবং স্বাক্ষরগুলি স্ক্যান করতে একটি ক্যামেরা শেখাতে এবং ব্যাংকের লেনদেনকে বৈধ করতে স্টোরেজযুক্তগুলির সাথে তাদের মেলে। অথবা ছবিতে অজানা লোকদের ট্যাগ করুন। ইত্যাদি। আপনি কি "লাইনটি শুনেছেন যদি এটি সত্য হয় তবে এটি অপমান নয়"? ভাল এটি হাইপ নয় যদি এটি কাজ করে। এটিতে প্রচুর সমস্যা রয়েছে এবং এটি অত্যধিক জনপ্রিয় হাইপগুলিতে কাজ করে না। তবে এটি বাস্তব জীবনের প্রয়োগে কাজ করে।
স্টেলা বিডারম্যান

@ স্টেলাবিডারম্যান স্ট্যান্ডার্ড মেশিন লার্নিং কৌশলগুলির আশেপাশে সরঞ্জামদানের সহজতা এবং ভাল। তবে আগ্রহটি ডিএনএন-এর অনুমিত শিক্ষার দক্ষতার সাথে আরও করণীয় বলে মনে করছে যে সম্ভবত মানবিক দক্ষতার প্রতিদ্বন্দ্বী করে, যা মডেলের ভিসি বিশ্লেষণের ফলে অতিরিক্ত আকারে প্রদর্শিত হয়। এই ধরনের একটি উচ্চ ভিসি মাত্রা বোঝায় যে মডেলগুলি সাধারণকরণ করবে না, এবং পরিবর্তে ডেটাসেটগুলি মুখস্ত করে চলেছে, এগুলিকে খুব ভঙ্গুর করে তোলে। সমস্ত বিপরীতে উদাহরণস্বরূপ কাগজপত্র এই পয়েন্টটি প্রদর্শিত হবে।
ইয়ার্স

@gerrit আমি নিশ্চিত না যে সম্পাদনাটি সমস্ত সহায়ক ছিল। আমি বাজি দিয়েছি যে ভিসি ডাইমেনশনটি কী তা কীসের চেয়ে বেশি তার চেয়ে বেশি লোক জানে।
ডেভিড রিচার্বি

উত্তর:


75

"যদি মানচিত্র এবং অঞ্চলটি একমত না হয় তবে অঞ্চলটিকে বিশ্বাস করুন।"

এটি গভীরভাবে শেখা যেমন কাজ করে তেমনি এটি সত্যই বোঝা যায় নি, তবে অবশ্যই ভিসি ডাইমেনশনগুলির মতো শেখার তত্ত্ব থেকে প্রাপ্ত পুরানো ধারণাগুলি খুব সহায়ক হবে না বলে মনে হয়।

বিষয়টি উষ্ণভাবে বিতর্কিত, উদাহরণস্বরূপ দেখুন:

প্রতিকূল উদাহরণগুলি ইস্যু সম্পর্কিত, সমস্যাটি আবিষ্কার করা হয়েছিল:

  • সিজেজেডি, ডব্লিউ। লিউ, ওয়াই জিয়া, পি। সর্মানেট, এস। রেড, ডি অ্যাঙ্গুয়েলভ, ডি। আরহান, ভি। ভানহোক, এ। রাবিনোভিচ, আরও দৃol়রূপে আরও গভীরভাবে যাচ্ছেন

এটি আরও উন্নত:

প্রচুর ফলো-অন কাজ রয়েছে।


মন্তব্যগুলি বর্ধিত আলোচনার জন্য নয়; এই কথোপকথন চ্যাটে সরানো হয়েছে ।
DW

যখন আপনি বলেন "প্রচুর ফলো-অন কাজ রয়েছে" আপনি কি ২০১৪ সালের শেষের কাগজটি উল্লেখ করছেন? আপনার উল্লেখ করা প্রথম দুটি কাগজ মোটামুটি সাম্প্রতিক। আপনি যে কাগজপত্রগুলি উল্লেখ করছেন তার সাথে আপডেট করতে পারবেন ?.
ভিএফ 1

2
"মানচিত্র এবং ভূখণ্ড একমত না হলে এই অঞ্চলটিকে বিশ্বাস করুন" এর জন্য শক্তিশালী +1। গণিতগুলি তাদের করা উচিত কিনা তা নির্বিশেষে মডেলগুলি অনুশীলনে অত্যন্ত ভালভাবে কাজ করে। একটি বৈজ্ঞানিক পিওভি থেকে, সর্বদা এটি ঘটে এবং যদি কোনও সমস্যা সমস্যাটিকে আরও আকর্ষণীয় করে তোলে। কেউ প্রাকৃতিক প্রুফ সম্পর্কে রাজবরোভ এবং রুডিচের কাজ পড়েন নি এবং "ভাল, আমার ধারণা পি বনাম এনপি কোনও আকর্ষণীয় প্রশ্ন নয়।" তারা গিয়ে বুঝতে পেরেছিল যে জটিলতা তত্ত্ব করতে বীজগণিত জ্যামিতি ব্যবহার করা সম্ভব হতে পারে। বিজ্ঞানের দৃষ্টিকোণ থেকে, আমাদের বোধগম্যতা ছাড়িয়ে যাওয়া সমস্যাগুলি আরও ভাল , আরও খারাপ নয়।
স্টেলা বিডারম্যান

65

"ভিসি ডাইমেনশনাল বিশ্লেষণ অনুসারে ডিপ লার্নিংয়ের সাধারণকরণের অক্ষমতা দেওয়া [...]"

না, ভিসি ডাইমেনশনাল বিশ্লেষণ যা বলে তা নয়। ভিসি মাত্রিক বিশ্লেষণ কিছু পর্যাপ্ত শর্ত দেয় যার অধীনে সাধারণীকরণের নিশ্চয়তা দেওয়া হয়। তবে কনভার্সটি অগত্যা তা নয়। এমনকি যদি আপনি এই শর্তগুলি পূরণ করতে ব্যর্থ হন তবে এমএল পদ্ধতিটি এখনও সাধারণীকরণ করতে পারে।

আরেকটি উপায় রাখুন: ভিসি ডাইমেনশনাল বিশ্লেষণের চেয়ে গভীর শেখার আরও ভাল কাজ করা আপনাকে প্রত্যাশার দিকে নিয়ে যায় (ভিসি বিশ্লেষণ "ভবিষ্যদ্বাণীগুলির চেয়ে ভাল")। এটি ভিসি ডাইমেনশনাল বিশ্লেষণের একটি ঘাটতি, গভীর শিক্ষার অভাব নয়। এটি বোঝায় না যে গভীর শিক্ষণ ত্রুটিযুক্ত। বরং এর অর্থ হ'ল গভীর জ্ঞান কেন কাজ করে তা আমরা জানি না - এবং ভিসি বিশ্লেষণ কোনও কার্যকর অন্তর্দৃষ্টি সরবরাহ করতে অক্ষম।

উচ্চ ভিসি মাত্রা বোঝায় না যে গভীর শিক্ষাকে বোকা করা যায়। উচ্চতর উপাচার্য মাত্রা ব্যবহারিক পরিস্থিতিতে এটি বোকা বানানো যায় কিনা সে সম্পর্কে কিছুতেই গ্যারান্টি দেয় না। ভিসি ডাইমেনশন একটি দিকনির্দেশক, সবচেয়ে খারাপ ক্ষেত্রে আবদ্ধ সরবরাহ করে: আপনি যদি এই শর্তগুলি মেটান, তবে ভাল জিনিস ঘটে যায়, তবে আপনি যদি এই শর্তগুলি না মানেন তবে আমরা জানি না কী ঘটবে (সম্ভবত ভাল জিনিসগুলি এখনও যাইহোক ঘটবে, যদি প্রকৃতি সবচেয়ে খারাপ অবস্থার চেয়ে ভাল আচরণ করে; ভিসি বিশ্লেষণে প্রতিশ্রুতি দেওয়া হয় না যে ভাল জিনিসগুলি ঘটতে পারে না / হবে না )।

এটি হতে পারে যে মডেলের জায়গার ভিসি মাত্রা বড় (এটি সম্ভব হিসাবে খুব জটিল নিদর্শনগুলি অন্তর্ভুক্ত করে) তবে প্রকৃতিকে সাধারণ নিদর্শন দ্বারা ব্যাখ্যা করা হয়, এবং এমএল অ্যালগরিদম প্রকৃতির উপস্থিত সরল প্যাটার্নটি শিখায় (যেমন, নিয়মিতকরণের কারণে) - - এই ক্ষেত্রে, ভিসি মাত্রা বেশি হবে তবে মডেলটি সাধারণীকরণ করবে (প্রকৃতিতে উপস্থিত নির্দিষ্ট প্যাটার্নের জন্য)।

তাই বলা হয় ... ক্রমবর্ধমান প্রমাণ গভীর শেখার আছে করতে adversarial উদাহরণ দ্বারা বোকা বানানো। তবে আপনার যুক্তির শৃঙ্খলা সম্পর্কে সতর্ক থাকুন। আপনি যে সিদ্ধান্তগুলি আঁকছেন সেগুলি আপনি যে প্রাঙ্গণ দিয়ে শুরু করেছিলেন তা অনুসরণ করে না।


6
উচ্চ ভিসি ডাইমেনশনটি সাধারণকরণ (এটি কিছুটা অর্থে, স্বেচ্ছাসেবী বিতরণের সাথে কাজ করার সময়) শক্ত করে বোঝায়। সাধারণীকরণ ত্রুটি নিম্ন মুখী ঠিক এর মানে হল যে ভিসি মাত্রা তুলনায় ছোট নমুনা সংখ্যার জন্য, একটি বন্টন যেমন যে আপেক্ষিক এটা কোনো অ্যালগরিদম বিদ্যমান উচ্চতর জেনারালাইজেশন ত্রুটি (উচ্চ সম্ভাবনার সাথে) অনুভব করবে। Ω(dn)
এরিয়েল

5
-1 "হাই ভিসি ডাইমেনশনাল কোনও কিছুরই গ্যারান্টি দেয় না" " এটি সত্য নয়: উচ্চ ভিসি-মাত্রা পিএসি শেখার জন্য নমুনা জটিলতার নিম্ন সীমানাকে বোঝায়। একটি ভাল উত্তর সবচেয়ে খারাপ ক্ষেত্রে বনাম "বাস্তব জীবন" বিতরণ সম্বোধন করা উচিত।
সাশো নিকোলভ

1
@ সাশোনিকোলভ, ভালো কথা - আপনাকে ধন্যবাদ! সম্পাদনা করা হয়েছে।
DW

এই পোস্টটি নিম্ন মানের পর্যালোচনা ছিল। বিষয়বস্তু, দৈর্ঘ্য, ভোট এবং গুণমান দেওয়া, এটি হাস্যকর, এখানে এটি নির্দেশ করে তবে এটির জন্য মেটার দরকার হতে পারে, কারণ কিছু সত্যই ভুল।
ইভিল

23

শিল্পের লোকেরা ভিসি ডাইমেনশন, গুন্ডাদের কোনও সম্মান রাখে না ...

আরও গুরুতর নোটের বিষয়ে, যদিও প্যাক মডেল হ'ল শেখার বিষয়ে চিন্তাভাবনা করার এক দুর্দান্ত উপায় (কমপক্ষে আমার মতে), এবং আকর্ষণীয় ধারণা এবং প্রশ্নগুলিকে উত্থাপন করতে যথেষ্ট জটিল (যেমন ভিসির মাত্রা এবং নমুনা জটিলতার সাথে এর সংযোগ) , বাস্তব জীবনের পরিস্থিতিগুলির সাথে এটির খুব কম সম্পর্ক রয়েছে।

মনে রাখবেন যে পিএসি মডেলটিতে আপনাকে স্বেচ্ছাচারিতামূলক বিতরণগুলি পরিচালনা করতে হবে, এর অর্থ হল আপনার অ্যালগরিদমের বিপরীতে বিতরণগুলি পরিচালনা করা উচিত। বাস্তব বিশ্বে কিছু ঘটনা শিখার চেষ্টা করার সময়, কেউ আপনাকে আপনার ফলাফলগুলিকে গণ্ডগোলের জন্য "প্রতিকূল তথ্য" দিচ্ছে না, তাই পিএসি শেখার জন্য একটি ধারণা শ্রেণীর প্রয়োজন খুব শক্তিশালী হতে পারে। কখনও কখনও আপনি নির্দিষ্ট শ্রেণীর বন্টনের জন্য ভিসি মাত্রার থেকে স্বাধীনভাবে সাধারণীকরণের ত্রুটিটিকে আবদ্ধ করতে পারেন। এটি মার্জিন সীমাগুলির ক্ষেত্রে, যারা ভিসি মাত্রা থেকে স্বতন্ত্রভাবে তৈরি করা হয়। তারা কম সাধারণীকরণের ত্রুটির প্রতিশ্রুতি দিতে পারে যদি আপনি উচ্চ পরীক্ষামূলক মার্জিনের গ্যারান্টি দিতে পারেন (যা অবশ্যই সমস্ত বিতরণের জন্য ঘটতে পারে না, যেমন বিপরীত ট্যাগগুলির সাথে সমতলে দুটি ঘনিষ্ঠ পয়েন্ট নিন এবং সেগুলিতে বিতরণকে ফোকাস করুন)।

সুতরাং, পিএসি মডেল এবং উপাচার্যের দিকটি একপাশে রেখে, আমি মনে করি যে হাইপটি কেবলমাত্র তারা কাজ করছে বলে মনে হয়, এবং যে কাজগুলি আগে সম্ভব ছিল না সেগুলিতে সফল হয় (সর্বশেষতম কৃতিত্বের মধ্যে একটিটি আলফাগো হয়)। নিউরাল নেট সম্পর্কে আমি খুব কম জানি, তাই আমি আশা করি যে আরও অভিজ্ঞতার সাথে কেউ প্রবেশ করবে, তবে আমার জ্ঞানের কাছে এখনও কোনও ভাল গ্যারান্টি নেই (অবশ্যই প্যাক মডেলের মতো নয়)। সম্ভবত সঠিক অনুমানের অধীনে কেউ আনুষ্ঠানিকভাবে নিউরাল জালের সাফল্যকে ন্যায়সঙ্গত করতে পারেন (আমি ধরে নিই যে স্নায়ু জাল এবং "গভীর জ্ঞান" এর আনুষ্ঠানিক চিকিত্সার চারপাশে কাজ রয়েছে, তাই আমি আশা করছি যে বিষয়টিতে আরও জ্ঞানের অধিকারী কিছু কাগজপত্র লিঙ্ক করতে পারে) ।


মন্তব্যগুলি বর্ধিত আলোচনার জন্য নয়; এই কথোপকথন চ্যাটে সরানো হয়েছে ।
DW

15

ডিপ লার্নিংয়ের সাধারণকরণের অক্ষমতা দেওয়া,

আমি জানি না আপনি কোথা থেকে নিয়েছেন? আমলিতভাবে, সাধারণীকরণকে অদেখা তথ্যের স্কোর (যেমন যথার্থতা) হিসাবে দেখা হয়।

সিএনএন কেন ব্যবহার করা হয় তার উত্তরটি সহজ: সিএনএনগুলি অন্য যে কোনও কিছুর চেয়ে অনেক ভাল কাজ করে । উদাহরণস্বরূপ ইমেজনেট ২০১২ দেখুন:

  • সিএনএন: 15.315% (এটি একটি প্রাথমিক উদাহরণ ছিল example সিএনএন এখন আরও ভাল are প্রায় 4% শীর্ষ -5 ত্রুটিতে)
  • সেরা নন-সিএনএন: 26.172% শীর্ষ -5-ত্রুটি ( উত্স - আমার জ্ঞান কৌশলগুলি যা সিএনএন ব্যবহার করে না 25% শীর্ষ -5 ত্রুটির নীচে পায় নি)

একটি শ্রেণিবদ্ধ তৈরি করুন যা আরও ভাল এবং লোকেরা এতে স্থানান্তরিত হবে।

আপডেট: ডিপ লার্নিংয়ের পক্ষে এই প্রমাণের মতো, সাধারণভাবে মেশিন লার্নিংটি সহজে বোকা বানানো হয়েছে এমন প্রকাশিত প্রমাণ সরবরাহকারী যে কোনও ব্যক্তিকে আমি উত্তর দেব award

এই ক্ষেত্রে না হয়. আপনি একটি শ্রেণিবদ্ধকারী তৈরি করতে পারেন যা একটি সাধারণ ডেটাসেটে অত্যন্ত সহজ। এটি বোকা বানানো সম্ভব হবে না (এটি "সহজ" অর্থ কী তা বিবেচনা করে না) তবে এটি আকর্ষণীয়ও নয়।


3
একটি নিম্ন ত্রুটি সাধারণকরণ বোঝায় না। এটি প্রয়োজনীয় তবে শর্ত নয়।
ইয়ার্স

3
@ ইয়ার্স দয়া করে তখন সাধারণীকরণের সংজ্ঞা দিন।
মার্টিন থোমা 16'17

5
@ ইয়ার্স, এই মন্তব্যটি আমাকে ভাবিয়ে তোলে যে আপনি মেশিন লার্নিং সম্পর্কে খুব বেশি পড়েন নি। মার্টিন অদেখা তথ্যের যথার্থতা বলেছিলেন । আপনি প্রশিক্ষণের ডেটাতে নির্ভুলতার কথা বলছেন। সাধারণীকরণ কী তা সম্পর্কে আপনি মূলত সঠিক, তবে দয়া করে বুঝতে পারেন যে এখানে প্রত্যেকে প্রত্যেকে এটি বুঝতে পারে
কেন উইলিয়ামস

1
@ ইয়িটার্স আমি বেশ নিশ্চিত যে কেন (এবং এই সাইটের অনেক লোক, আমাকে সহ) এটি জানেন। যদি আপনার পরীক্ষা সেটটি আপনার ডেটাसेटকে উপস্থাপন না করে আপনি সাধারণীকরণ সম্পর্কে কোনও বিবৃতি দিতে পারবেন না। এটি মাথায় রাখার পক্ষে মূল্যবান হওয়া সত্ত্বেও, আমি দেখতে পাচ্ছি না যে এটি আপনাকে এই প্রশ্নের জন্য কোনও উপায়ে কীভাবে সহায়তা করে। আপনাকে কেবল ধরে নিতে হবে / নিশ্চিত করতে হবে যে আপনার পরীক্ষার সেটটি উত্পাদন সময় আপনার ডেটা উপস্থাপন করে। প্রকৃতপক্ষে, এটি প্রশিক্ষণ নমুনাগুলি বিতরণকে প্রতিনিধিত্ব না করে আপনি যে কোনও শ্রেণিবদ্ধকে স্বেচ্ছাচারিতায় খারাপ করতে পারেন তা দেখানো সত্যিই সহজ।
মার্টিন থোমা

2
এটা সুস্পষ্ট। কোনও মডেল যদি ভুল ডেটাতে বৈধ হওয়ার বিষয়ে প্রশিক্ষণপ্রাপ্ত হয় তবে আপনি ভাল করতে পারেন এমন আশা করতে পারবেন না expect আপনার আরও ভাল ডেটা প্রয়োজন, আরও ভাল মডেল নয়।
এমরে

9

এক শব্দের উত্তরটি হ'ল "নিয়ন্ত্রণ"। নিষ্পাপ ভিসি ডাইমেনশন সূত্রটি এখানে সত্যিই প্রয়োগ করে না কারণ নিয়মিতকরণের প্রয়োজন ওজন সাধারণ না হওয়া be নিয়মিতকরণের পরে ওজন কম্বিনেশনের একটি ক্ষুদ্র (অনন্য?) অনুপাতের গ্রহণযোগ্য ক্ষতি রয়েছে loss সত্য মাত্রা হ'ল ফলশ্রুতিতে কম মাত্রার অনেকগুলি অর্ডার, সুতরাং আমাদের যে প্রশিক্ষণ সেট রয়েছে তার সাথে সাধারণীকরণ ঘটতে পারে। বাস্তব জীবনের ফলাফল বহন করে যে ওভারফিট করা সাধারণত হয় না।


2
আমি বারবার দাবি দেখেছি যে বাস্তব জীবনের ফলাফলগুলি গভীর শিক্ষার জেনারেলাইজগুলি দেখায়। সাধারণীকরণ দেখায় এমন ফলাফলগুলি কী? আমি এখন পর্যন্ত যা দেখেছি তা হ'ল ডিএল নির্দিষ্ট ডেটাসেটগুলিতে কম ত্রুটি হার অর্জন করে, যার অর্থ এই নয় যে ডিএল জেনারেলাইজেশন করে।
ইয়ার্স

3
এটি এমন ডেটাতে ভাল ফলাফল ("ভাল" = অন্যান্য এমএল পদ্ধতির চেয়ে ভাল) দেখায় যা এটি প্রশিক্ষণপ্রাপ্ত ছিল না । আপনি কীভাবে আরও সাধারণভাবে সাধারণীকরণ পরিমাপ করতে চান তা নিশ্চিত নই।
lvilnis

3

আমরা কাগজটি সম্বোধন করেছি: গভীর শিখন বোঝা পুনর্বিবেচনার সাধারণীকরণ প্রয়োজন। মধ্যে

পুনর্বিবেচনার সাধারণীকরণের জন্য পুরানো ধারণাগুলি পুনর্বিবেচনা করা দরকার: পরিসংখ্যানীয় মেকানিক্সের পদ্ধতি এবং জটিল শিক্ষার আচরণ চার্লস এইচ। মার্টিন এবং মাইকেল ডাব্লু মাহনি

দেখুন: https://arxiv.org/pdf/1710.09553.pdf

মূলত, আমরা যুক্তি দিয়েছিলাম যে ভিসি সীমানা খুব শিথিল কারণ মৌলিক পদ্ধতির এবং কীভাবে পরিসংখ্যানিক সীমা নেওয়া হয়েছে তা অবাস্তব।

স্ট্যাটিস্টিকাল মেকানিক্সে আরও ভাল পদ্ধতির অন্তর্ভুক্ত, যা এক শ্রেণীর ডেটা নির্ভরশীল ফাংশন বিবেচনা করে, থার্মোডাইনামিক সীমা গ্রহণ করে (কেবলমাত্র বৃহত সংখ্যার সীমা নয়)

তদুপরি, আমরা আরও উল্লেখ করি যে কীভাবে গভীর প্রয়োজনের প্রাকৃতিক বিচ্ছিন্নতাগুলি শেখার বক্ররেখার ধাপে রূপান্তর করতে পরিচালিত করে, যা আমরা বিশ্বাস করি গুগল পেপারে (উপরে) পর্যবেক্ষণ করা হচ্ছে

সীমাবদ্ধতা সম্পর্কে, আমাদের কাগজের বিভাগ 4.2 দেখুন

"স্পষ্টতই, আমরা যদি নমুনা আকারের মিটার স্থির করি এবং [ফাংশন শ্রেণির আকার] N → ∞, [বা vise বিপরীতে, N স্থির করি, তবে এম → let] করি, যেহেতু আমাদের একটি অপ্রয়োজনীয় ফলাফল আশা করা উচিত নয়, যেহেতু [ এন] আরও বড় হয়ে উঠছে তবে নমুনার আকারটি স্থির Thus সুতরাং, [পরিসংখ্যান মেকানিক্সে] কেউ সাধারণত কেসটিকে এম, এন ∞ consid যেমন α = মি / এন একটি স্থির ধ্রুবক হিসাবে বিবেচনা করে ers "

এটি হ'ল খুব কমই আমরা একটি গভীর জালে আরও ডেটা (এম) যুক্ত করব। আমরা সর্বদা নেট (এন) এর আকারও বৃদ্ধি করি, কারণ আমরা জানি যে আমরা ডেটা থেকে আরও বিশদ বৈশিষ্ট্য / তথ্য ক্যাপচার করতে পারি। পরিবর্তে আমরা কাগজে যে যুক্তি দিয়েছি তা অনুশীলনে করি - বড় মাপের সীমা গ্রহণ করুন, অনুপাতের সাথে এম / এন স্থির করুন (ফিক্সিং এম বলার বিপরীতে এবং এন বাড়িয়ে দিন)।

এই ফলাফলগুলি স্ট্যাটিস্টিকাল মেকানিক্স অফ লার্নিংয়ে সুপরিচিত। বিশ্লেষণ আরও জটিল, তবে ফলাফলগুলি আরও সমৃদ্ধ কাঠামোর দিকে নিয়ে যায় যা গভীর শিক্ষার অনেকগুলি ঘটনার ব্যাখ্যা দেয়।

এছাড়াও, এবং বিশেষত, এটি জানা যায় যে পরিসংখ্যান থেকে অনেকগুলি সীমানা হয় তুচ্ছ হয় বা নন-মসৃণ সম্ভাব্যতা বিতরণের ক্ষেত্রে প্রযোজ্য হয় না বা যখন ভেরিয়েবলগুলি পৃথক মান গ্রহণ করে। নিউরাল নেটওয়ার্কগুলির সাথে, তাত্পর্যপূর্ণ হওয়ার কারণে (অ্যাক্টিভেশন ফাংশনগুলিতে) অ-তুচ্ছ আচরণ দেখা দেয় যা পর্যায়ক্রমে রূপান্তরিত করে (যা থার্মোডাইনামিক সীমাতে উদ্ভূত হয়)।

আমরা যে কাগজটি লিখেছি তা কম্পিউটার বিজ্ঞানের দর্শকদের কাছে মূল ধারণাগুলি ব্যাখ্যা করার চেষ্টা করে।

ভ্যাপনিক নিজেই বুঝতে পেরেছিলেন যে তাঁর তত্ত্বটি নিউরাল নেটওয়ার্কগুলিতে সত্যিই প্রযোজ্য ছিল না ... ১৯৯৪ সালের দিকে

"মাল্টিলেয়ার নেটওয়ার্কগুলিতে [ভিসি ডাইমেনশন] বাড়ানো [অনেকগুলি অসুবিধার মুখোমুখি হয়েছে .. বিদ্যমান শিক্ষাগত অ্যালগরিদমগুলি নেটওয়ার্কের দ্বারা কার্যকরভাবে প্রয়োগ করা যেতে পারে এমন পুরো কর্মের উপর সাম্রাজ্যগত ঝুঁকি হ্রাস হিসাবে দেখা যায় না ... [কারণ] এটি সম্ভবত ... অনুসন্ধানটি [এই] ফাংশনগুলির একটি উপসেটে সীমাবদ্ধ থাকবে ... পুরো সেটটির সক্ষমতা থেকে এই সেটটির ক্ষমতা অনেক কম হতে পারে ... [এবং] পর্যবেক্ষণের সংখ্যার সাথে পরিবর্তন হতে পারে। এটির জন্য একটি তত্ত্বের প্রয়োজন হতে পারে যা "
ভ্যাপনিক, লেভিন এবং লেকুন ১৯৯৪ " এর একটি 'অ্যাক্টিভ' সাবসেট সহ অ-ধ্রুবক ক্ষমতাকে বিবেচনা করে that

http://yann.lecun.com/exdb/publis/pdf/vapnik-levin-lecun-94.pdf

ভিসি তত্ত্বের সাথে চিকিত্সা করা সহজ নয়, যদিও এটি স্ট্যাট মেছের জন্য সমস্যা নয় ... এবং যা তারা বর্ণনা করেন এটি প্রোটিন ভাঁজ করার শক্তি ল্যান্ডস্কেপ থিওরির মতো দেখায়। (যা ভবিষ্যতের কাগজের বিষয় হবে)


এটি আকর্ষণীয় শোনায় তবে আমি নিশ্চিত নই যে আমি আপনার যুক্তিটি অনুসরণ করেছি। আপনি কি প্রথম বাক্যটি ব্যাখ্যা করতে পারেন, যেমন, কীভাবে মৌলিক পদ্ধতির / পরিসংখ্যান সীমাটি অবলম্বনীয়, একটি স্বনির্ভর উপায়ে যাতে পরিসংখ্যানিক মেকানিক্স বোঝার প্রয়োজন হয় না? ভিসি সীমানা কোন অনুমানগুলি তৈরি করে এবং সেগুলি অবাস্তব কেন? সেই তথ্য অন্তর্ভুক্ত করার জন্য আপনি সম্ভবত নিজের উত্তরটি সম্পাদনা করতে পারেন?
ডিডাব্লিউ

আমি ভ্যাপনিক এবং লেকান (1994) র মূল কাজের একটি উল্লেখ উল্লেখ করেছি যা ইস্যুটি নিয়ে আলোচনা করে।
চার্লস মার্টিন

এবং কিছু স্পষ্টতা যোগ করেছেন।
চার্লস মার্টিন

1

উপরের উত্তরগুলিতে কেউ উল্লেখ করেছেন বলে মনে হয় না যে, ভিসি ডাইমেনশন সূত্রটি উদ্ধৃত হয়েছে কেবল 1-স্তরীয় নিউরাল নেটওয়ার্কের জন্য। আমার ধারণা হ'ল ভিসি ডাইমেনশন আসলে স্তরগুলির সংখ্যা বাড়ার সাথে সাথে তাত্পর্যপূর্ণভাবে বৃদ্ধি পায়। আমার যুক্তি গভীর নিউরাল নেটওয়ার্কগুলি বিবেচনার ভিত্তিতে যেখানে অ্যাক্টিভেশন ফাংশনটি বহুপদী ব্যক্তিদের দ্বারা প্রতিস্থাপিত হয়। তারপরে স্তরগুলি বাড়ার সাথে সাথে বহুগুণিত সমন্বিত ডিগ্রি দ্রুততর বৃদ্ধি পায়।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.