বিরল শব্দের জন্য কেন হায়ারারিকিকাল সফটম্যাক্স ভাল, যখন ঘন ঘন শব্দের জন্য নেতিবাচক নমুনা আরও ভাল?


12

আমি অবাক হই যে কেন হায়ারারিকিকাল সফটম্যাক্স অপ্রতুল শব্দের জন্য আরও ভাল, অন্যদিকে শব্দ 2vec এর সিবিওউ এবং স্কিপ-গ্রাম মডেলগুলিতে ঘন ঘন শব্দের জন্য নেতিবাচক নমুনা আরও ভাল। আমি https://code.google.com/p/word2vec/ এ দাবিটি পড়েছি ।

উত্তর:


10

আমি ওয়ার্ড টুভেকের বিশেষজ্ঞ নই, তবে রং, এক্স পড়ার পরে (2014)। word2vec প্যারামিটার লার্নিং ব্যাখ্যা করা হয়েছে এবং আমার নিজের এনএন অভিজ্ঞতা থেকে আমি যুক্তিটি সহজ করে তুলব:

  • হায়ারারিকিকাল সফটম্যাক্স ট্রেনিং দক্ষতার উন্নতির জন্য সরবরাহ করে যেহেতু আউটপুট ভেক্টরটি নেটওয়ার্ক স্তরগুলির গাছের মতো ট্র্যাভারসাল দ্বারা নির্ধারিত হয়; প্রদত্ত প্রশিক্ষণের নমুনায় কেবল নেটওয়ার্ক ইউনিটগুলি মূল্যায়ন / আপডেট করতে হবে, । এটি একটি বৃহত শব্দভাণ্ডার সমর্থন করার জন্য ওজনকে মূলত প্রসারিত করে - প্রদত্ত শব্দটি কম নিউরন এবং ভিসার বিপরীতে সম্পর্কিত।O(log(N))O(N)
  • নেতিবাচক নমুনা প্রশিক্ষণ ডেটা নমুনার উপায়, স্টোকাস্টিক গ্রেডিয়েন্ট বংশোদ্ভূত অনুরূপ, তবে কী আপনি নেতিবাচক প্রশিক্ষণের উদাহরণ সন্ধান করেন। স্বজ্ঞাতভাবে, এটি স্যাম্পলিংয়ের জায়গাগুলির উপর ভিত্তি করে ট্রেন করে যেখানে এটি কোনও শব্দের প্রত্যাশা করেছিল, তবে একটিও খুঁজে পেল না, যা প্রতিটি পুনরাবৃত্তিকে পুরো কর্পাসকে প্রশিক্ষণের চেয়ে দ্রুত এবং সাধারণ শব্দগুলির জন্য অর্থবোধ করে।

দুটি পদ্ধতি তাত্ত্বিকভাবে একচেটিয়া বলে মনে হচ্ছে না, তবে যাইহোক এটি বারবার এবং বিরল শব্দের জন্য কেন ভাল হবে বলে মনে হয়।


1

আমার বোধগম্যটি হ্যাফম্যান কোডিং বিভাগের ক্রমবিন্যাস তৈরি করার সময় ব্যবহৃত হওয়ার কারণে এটি ।

হায়ারার্কিকাল সফটম্যাক্স একটি বড় সফটম্যাক্সের পরিবর্তে সিগময়েড নোডের একটি গাছ ব্যবহার করে, হাফম্যান কোডিং নিশ্চিত করে যে কোনও সিগময়েড নোডের প্রতিটি পাশের ডেটা পয়েন্টগুলির বিতরণ ভারসাম্যপূর্ণ। সুতরাং এটি একটি বড় সফটম্যাক্স এবং নেতিবাচক নমুনা ব্যবহারের সাথে তুলনা করে ঘন ঘন বিভাগগুলির অগ্রাধিকার দূর করতে সহায়তা করে।


0

হায়ারারিকিকাল সফটম্যাক্স পুরো শব্দভাণ্ডারের উপরে একটি গাছ তৈরি করে এবং বিরল শব্দের প্রতিনিধিত্বকারী পাত নোডগুলি অনিবার্যভাবে গাছের মধ্যে তাদের পূর্বপুরুষদের ভেক্টর উপস্থাপনার উত্তরাধিকারী হবে, যা কর্পাসের অন্যান্য ঘন ঘন শব্দের দ্বারা প্রভাবিত হতে পারে। এটি নতুন কর্পাসের ইনক্রিমেন্টাল প্রশিক্ষণে উপকৃত হবে।

নেতিবাচক স্যাম্পলিং শব্দ বিপরীতে অনুমানের ভিত্তিতে এবং এলোমেলোভাবে শব্দটিকে নমুনা হিসাবে কৃত্রিমভাবে উত্পাদিত এলোমেলো শব্দ থেকে পর্যবেক্ষণ করা তথ্যের পার্থক্যের নমুনার ভিত্তিতে বিকাশ করা হয়।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.