এই পোস্ট থেকে নেওয়া: https://stats.stackexchange.com/a/245452/154812
সমস্যাটি
"মানক" নিউরাল নেটওয়ার্ক ব্যবহার করে ভেক্টর শব্দটি শিখতে কিছু সমস্যা রয়েছে। এই পদ্ধতিতে, ভেক্টর শব্দটি শিখে নেওয়া হয় যখন নেটওয়ার্ক শব্দের একটি উইন্ডো (নেটওয়ার্কের ইনপুট) দিয়ে পরবর্তী শব্দটির পূর্বাভাস দিতে শেখে।
পরের শব্দের পূর্বাভাস দেওয়া ক্লাসের পূর্বাভাস দেওয়ার মতো। অর্থাত, এই জাতীয় নেটওয়ার্কটি কেবল একটি "স্ট্যান্ডার্ড" মাল্টিনোমিয়াল (মাল্টি-ক্লাস) শ্রেণিবদ্ধ। এবং এই নেটওয়ার্কে অবশ্যই ক্লাস যতগুলি আউটপুট নিউরন থাকতে হবে। ক্লাসগুলি প্রকৃত শব্দ হলে নিউরনের সংখ্যাটি বেশ, বিশাল well
একটি "স্ট্যান্ডার্ড" নিউরাল নেটওয়ার্ক সাধারণত ক্রস-এনট্রপি ব্যয়ের সাথে ফাংশন দিয়ে প্রশিক্ষিত হয় যার জন্য আউটপুট নিউরনের মান সম্ভাবনার প্রতিনিধিত্ব করতে হয় - যার অর্থ প্রতিটি শ্রেণীর জন্য নেটওয়ার্ক দ্বারা গণনা করা আউটপুট "স্কোর" স্বাভাবিক করতে হবে, রূপান্তর করতে হবে প্রতিটি শ্রেণীর জন্য বাস্তব সম্ভাবনা। এই স্বাভাবিককরণের পদক্ষেপটি সফটম্যাক্স ফাংশনটির মাধ্যমে অর্জন করা হয়। একটি বিশাল আউটপুট স্তর প্রয়োগ করা হলে সফটম্যাক্স খুব ব্যয়বহুল।
(ক) সমাধান
এই ইস্যুটি মোকাবেলার জন্য, অর্থাৎ, সফটম্যাক্সের ব্যয়বহুল গণনা, ওয়ার্ড 2 ভিইচ শব্দ-বিপরীত অনুমানের একটি কৌশল ব্যবহার করে। এই কৌশলটি [A] দ্বারা চালু করা হয়েছিল ([B] দ্বারা সংশোধিত) এরপরে [C], [D], [E] এ শিরোনামহীন প্রাকৃতিক ভাষার পাঠ্য থেকে শব্দ এম্বেডিং শিখতে ব্যবহৃত হয়েছিল।
মূল ধারণাটি হ'ল বহুজাতিক শ্রেণিবদ্ধকরণ সমস্যাটিকে (যেমন এটি পরবর্তী শব্দটির পূর্বাভাস দেওয়ার সমস্যা) বাইনারি শ্রেণিবদ্ধকরণ সমস্যায় রূপান্তর করা। অর্থাৎ আউটপুট শব্দের সত্য সম্ভাবনা বিতরণ অনুমান করার জন্য সফটম্যাক্স ব্যবহার না করে পরিবর্তে একটি বাইনারি লজিস্টিক রিগ্রেশন (বাইনারি শ্রেণিবিন্যাস) ব্যবহৃত হয়।
প্রতিটি প্রশিক্ষণের নমুনার জন্য, বর্ধিত (অনুকূলিত) শ্রেণিবদ্ধকারীকে একটি সত্য জোড়া প্রদান করা হয় (একটি কেন্দ্র শব্দ এবং অন্য শব্দ যা এর প্রসঙ্গে প্রকাশিত হয়) এবং বেশ কয়েকটি কে কে এলোমেলোভাবে দূষিত জোড় (কেন্দ্রের শব্দ এবং এলোমেলোভাবে নির্বাচিত শব্দযুক্ত) থেকে প্রাপ্ত শব্দভান্ডার)। প্রকৃত জোড়গুলি দূষিতদের থেকে আলাদা করতে শিখার দ্বারা শ্রেণিবদ্ধকারী শেষ পর্যন্ত ভেক্টর শব্দটি শিখবে।
এটি গুরুত্বপূর্ণ: পরবর্তী শব্দটি ("মানক" প্রশিক্ষণের কৌশল) পূর্বাভাস দেওয়ার পরিবর্তে অনুকূলিত শ্রেণিবদ্ধার কেবল একটি জুটির শব্দ ভাল বা খারাপ কিনা তা ভবিষ্যদ্বাণী করে।
ওয়ার্ড 2Vec প্রক্রিয়াটি সামান্য কাস্টমাইজ করে এবং এটিকে নেতিবাচক নমুনা বলে। ওয়ার্ড টুভেক-তে, নেতিবাচক নমুনাগুলির জন্য শব্দগুলি (দূষিত জোড়গুলির জন্য ব্যবহৃত) একটি বিশেষভাবে ডিজাইন করা বিতরণ থেকে আঁকা, যা প্রায়শই প্রায়শই আঁকতে কম ঘন ঘন শব্দকে সমর্থন করে।
তথ্যসূত্র
[এ] (২০০৫) - বিপরীত অনুমান: লেবেলযুক্ত ডেটাতে লগ-লিনিয়ার মডেলগুলি প্রশিক্ষণ
[বি] (২০১০) - কোলাহল-বিপরীত অনুমান: অস্বাভাবিক পরিসংখ্যানের মডেলগুলির জন্য একটি নতুন অনুমানের নীতি
[সি] (২০০৮) - প্রাকৃতিক ভাষা প্রক্রিয়াকরণের জন্য একীভূত আর্কিটেকচার: মাল্টিটাস্ক শিক্ষার সাথে গভীর স্নায়বিক নেটওয়ার্ক networks
[ডি] (২০১২) - নিউরাল সম্ভাব্য ভাষা মডেলদের প্রশিক্ষণের জন্য একটি দ্রুত এবং সাধারণ অ্যালগরিদম ।
[ই] (২০১৩) - শব্দ-বিপরীত অনুমানের সাথে দক্ষতার সাথে শব্দ এম্বেডিং শেখা ।