আমি অবাক হই যে কেন হায়ারারিকিকাল সফটম্যাক্স অপ্রতুল শব্দের জন্য আরও ভাল, অন্যদিকে শব্দ 2vec এর সিবিওউ এবং স্কিপ-গ্রাম মডেলগুলিতে ঘন ঘন শব্দের জন্য নেতিবাচক নমুনা আরও ভাল। আমি https://code.google.com/p/word2vec/ এ দাবিটি পড়েছি ।
আমি অবাক হই যে কেন হায়ারারিকিকাল সফটম্যাক্স অপ্রতুল শব্দের জন্য আরও ভাল, অন্যদিকে শব্দ 2vec এর সিবিওউ এবং স্কিপ-গ্রাম মডেলগুলিতে ঘন ঘন শব্দের জন্য নেতিবাচক নমুনা আরও ভাল। আমি https://code.google.com/p/word2vec/ এ দাবিটি পড়েছি ।
উত্তর:
আমি ওয়ার্ড টুভেকের বিশেষজ্ঞ নই, তবে রং, এক্স পড়ার পরে (2014)। word2vec প্যারামিটার লার্নিং ব্যাখ্যা করা হয়েছে এবং আমার নিজের এনএন অভিজ্ঞতা থেকে আমি যুক্তিটি সহজ করে তুলব:
দুটি পদ্ধতি তাত্ত্বিকভাবে একচেটিয়া বলে মনে হচ্ছে না, তবে যাইহোক এটি বারবার এবং বিরল শব্দের জন্য কেন ভাল হবে বলে মনে হয়।
আমার বোধগম্যটি হ্যাফম্যান কোডিং বিভাগের ক্রমবিন্যাস তৈরি করার সময় ব্যবহৃত হওয়ার কারণে এটি ।
হায়ারার্কিকাল সফটম্যাক্স একটি বড় সফটম্যাক্সের পরিবর্তে সিগময়েড নোডের একটি গাছ ব্যবহার করে, হাফম্যান কোডিং নিশ্চিত করে যে কোনও সিগময়েড নোডের প্রতিটি পাশের ডেটা পয়েন্টগুলির বিতরণ ভারসাম্যপূর্ণ। সুতরাং এটি একটি বড় সফটম্যাক্স এবং নেতিবাচক নমুনা ব্যবহারের সাথে তুলনা করে ঘন ঘন বিভাগগুলির অগ্রাধিকার দূর করতে সহায়তা করে।
হায়ারারিকিকাল সফটম্যাক্স পুরো শব্দভাণ্ডারের উপরে একটি গাছ তৈরি করে এবং বিরল শব্দের প্রতিনিধিত্বকারী পাত নোডগুলি অনিবার্যভাবে গাছের মধ্যে তাদের পূর্বপুরুষদের ভেক্টর উপস্থাপনার উত্তরাধিকারী হবে, যা কর্পাসের অন্যান্য ঘন ঘন শব্দের দ্বারা প্রভাবিত হতে পারে। এটি নতুন কর্পাসের ইনক্রিমেন্টাল প্রশিক্ষণে উপকৃত হবে।
নেতিবাচক স্যাম্পলিং শব্দ বিপরীতে অনুমানের ভিত্তিতে এবং এলোমেলোভাবে শব্দটিকে নমুনা হিসাবে কৃত্রিমভাবে উত্পাদিত এলোমেলো শব্দ থেকে পর্যবেক্ষণ করা তথ্যের পার্থক্যের নমুনার ভিত্তিতে বিকাশ করা হয়।