নেতিবাচক নমুনা ওয়ার্ড টুভেচে কীভাবে কাজ করে?

আমি ওয়ার্ড টুভেকের প্রসঙ্গে নেতিবাচক নমুনার ধারণাটি বোঝার চেষ্টা করছি। আমি [নেতিবাচক] স্যাম্পলিংয়ের ধারণাটি হজম করতে অক্ষম। উদাহরণস্বরূপ , মিকোলভের কাগজগুলিতে নেতিবাচক নমুনা প্রত্যাশা হিসাবে সূত্রিত হয়

\log σ (⟨ w, c ⟩) + k \cdot E_{c_{N} \sim P D} [\log σ (- ⟨ w, c_{N} ⟩)] .

$\log \sigma(\langle w,c\rangle ) + k \cdot \mathbb E_{c_N\sim PD}[\log\sigma(−\langle w,c_N\rangle)].$

আমি বাম শব্দটি বুঝতে , কিন্তু আমি নেতিবাচক শব্দ-প্রসঙ্গ জোড়া স্যাম্পলিং ধারণা বুঝতে পারছি না। $\log \sigma(\langle w,c\rangle)$

machine-learning word2vec word-embeddings

— উপেন্দ্র কুমার
সূত্র

ওয়ার্ড 2vec এর জন্য ডকুমেন্টেশনটি কতটা ছড়িয়ে ছিটিয়ে আছে তা হাস্যকর। আপনি এখানে নেতিবাচক নমুনা প্রাপ্তির সন্ধান পাবেন: arxiv.org/pdf/1402.3722v1.pdf

— অ্যালেক্স আর

আপনি যে ব্যাখ্যাটি উল্লেখ করেছেন তা পেরেছি এবং এর পিছনে গণিতগুলি বুঝতে পেরেছি। আমি নমুনা দেওয়ার পিছনে অন্তর্নিহিত হজম করতে অক্ষম।

— উপেন্দ্র কুমার

সম্পর্কিত: স্ট্যাকওভারফ্লো.com

— অ্যামিবা বলেছেন মোনিকা পুনরায়

সমস্যাটি

"মানক" নিউরাল নেটওয়ার্ক ব্যবহার করে ভেক্টর শব্দটি শিখতে কিছু সমস্যা রয়েছে। এই পদ্ধতিতে, ভেক্টর শব্দটি শিখে নেওয়া হয় যখন নেটওয়ার্ক শব্দের একটি উইন্ডো (নেটওয়ার্কের ইনপুট) দিয়ে পরবর্তী শব্দটির পূর্বাভাস দিতে শেখে ।

পরের শব্দের পূর্বাভাস দেওয়া ক্লাসের পূর্বাভাস দেওয়ার মতো। অর্থাত, এই জাতীয় নেটওয়ার্কটি কেবল একটি "স্ট্যান্ডার্ড" মাল্টিনোমিয়াল (মাল্টি-ক্লাস) শ্রেণিবদ্ধ। এবং এই নেটওয়ার্কে অবশ্যই ক্লাস যতগুলি আউটপুট নিউরন থাকতে হবে। ক্লাস প্রকৃত শব্দ হয়, নিউরোন সংখ্যা, ভাল, বিশাল ।

একটি "স্ট্যান্ডার্ড" নিউরাল নেটওয়ার্ক সাধারণত ক্রস-এনট্রপি ব্যয়ের সাথে ফাংশন দিয়ে প্রশিক্ষিত হয় যার জন্য আউটপুট নিউরনের মান সম্ভাবনার প্রতিনিধিত্ব করতে হয় - যার অর্থ প্রতিটি শ্রেণীর জন্য নেটওয়ার্ক দ্বারা গণনা করা আউটপুট "স্কোর" স্বাভাবিক করতে হবে, রূপান্তর করতে হবে প্রতিটি শ্রেণীর জন্য বাস্তব সম্ভাবনা। এই স্বাভাবিককরণের পদক্ষেপটি সফটম্যাক্স ফাংশনের মাধ্যমে অর্জন করা হয় । একটি বিশাল আউটপুট স্তর প্রয়োগ করা হলে সফটম্যাক্স খুব ব্যয়বহুল।

(ক) সমাধান

এই ইস্যুটি মোকাবেলার জন্য, অর্থাৎ, সফটম্যাক্সের ব্যয়বহুল গণনা, ওয়ার্ড 2 ভিইচ শব্দ-বিপরীত অনুমানের একটি কৌশল ব্যবহার করে । এই কৌশলটি [A] দ্বারা চালু করা হয়েছিল ([B] দ্বারা সংশোধিত) এরপরে [C], [D], [E] এ শিরোনামহীন প্রাকৃতিক ভাষার পাঠ্য থেকে শব্দ এম্বেডিং শিখতে ব্যবহৃত হয়েছিল।

মূল ধারণাটি হ'ল বহুজাতিক শ্রেণিবদ্ধকরণ সমস্যাটিকে (যেমন এটি পরবর্তী শব্দটির পূর্বাভাস দেওয়ার সমস্যা ) বাইনারি শ্রেণিবদ্ধকরণ সমস্যায় রূপান্তর করা । অর্থাৎ আউটপুট শব্দের সত্য সম্ভাবনা বিতরণ অনুমান করার জন্য সফটম্যাক্স ব্যবহার না করে পরিবর্তে একটি বাইনারি লজিস্টিক রিগ্রেশন (বাইনারি শ্রেণিবিন্যাস) ব্যবহৃত হয়।

$k$

এটি গুরুত্বপূর্ণ: পরবর্তী শব্দটি ("মানক" প্রশিক্ষণের কৌশল) পূর্বাভাস দেওয়ার পরিবর্তে অনুকূলিত শ্রেণিবদ্ধার কেবল একটি জুটির শব্দ ভাল বা খারাপ কিনা তা ভবিষ্যদ্বাণী করে ।

ওয়ার্ড 2Vec প্রক্রিয়াটি সামান্য কাস্টমাইজ করে এবং এটিকে নেতিবাচক নমুনা বলে । ওয়ার্ড টুভেক-তে, নেতিবাচক নমুনাগুলির জন্য শব্দগুলি (দূষিত জোড়গুলির জন্য ব্যবহৃত) একটি বিশেষভাবে ডিজাইন করা বিতরণ থেকে আঁকা, যা প্রায়শই প্রায়শই আঁকতে কম ঘন ঘন শব্দকে সমর্থন করে।

তথ্যসূত্র

[এ] (২০০৫) - বিপরীত অনুমান: লেবেলযুক্ত ডেটাতে লগ-লিনিয়ার মডেলগুলি প্রশিক্ষণ

[বি] (২০১০) - গোলমাল-বিপরীত অনুমান: অস্বাভাবিক পরিসংখ্যানের মডেলগুলির জন্য একটি নতুন অনুমানের নীতি

[সি] (২০০৮) - প্রাকৃতিক ভাষা প্রক্রিয়াকরণের জন্য একীভূত আর্কিটেকচার: মাল্টিটাস্ক শিক্ষার সাথে গভীর স্নায়বিক নেটওয়ার্ক

[ডি] (২০১২) - নিউরাল সম্ভাব্য ভাষা মডেলদের প্রশিক্ষণের জন্য একটি দ্রুত এবং সাধারণ অ্যালগরিদম ।

[ই] (২০১৩) - শব্দ-বিপরীত অনুমানের সাথে দক্ষতার সাথে শব্দ এম্বেডিং শেখা ।

উত্তরটি আমার কিছু পুরানো নোটের উপর ভিত্তি করে - আমি আশা করি সেগুলি সঠিক ছিল :)

— turdus-merula
সূত্র

আপনি উল্লেখ করেছেন

"in Word2Vec, the words for the negative samples (used for the corrupted pairs) are drawn from a specially designed distribution, which favours less frequent words to be drawn more often"

,। আমি ভাবছি এটা কি সঠিক? কারণ অন্য কিছু সূত্র বলছে যে আরও ঘন ঘন শব্দগুলি নেতিবাচক নমুনা হিসাবে নমুনা হয়।

Essentially, the probability for selecting a word as a negative sample is related to its frequency, with more frequent words being more likely to be selected as negative samples.

— টাইলার :

( Mccormickml.com/2017/01/11/... ) `, এছাড়াও, tensorflow.org/api_docs/python/tf/nn/... ।

— টাইলার :

বিটিডাব্লু, উচ্চ বা নিম্ন ঘন ঘন শব্দকে নেতিবাচক নমুনা হিসাবে বেছে নেওয়ার কারণ কী? প্রসঙ্গবিহীন শব্দগুলির থেকে এলোমেলো নমুনা কি যথেষ্ট ভাল নয়?

— টাইলার

@ টাইলার 傲来国主 আমি এটি বুঝতে পেরেছি, প্রসঙ্গে সুনির্দিষ্ট হওয়ার ঝোঁকগুলি কম ঘন ঘন শব্দগুলি আরও তথ্যবহুল হয়। আরও ঘন ঘন শব্দগুলি আরও অনেক শব্দের সাথে জড়িত থাকে (চূড়ান্ত উদাহরণ "দ্য" নিন) take এটি বিরল শব্দগুলিকে ডান পেতে "শক্ত" করে তোলে (আপনি দ্রুত শিখবেন) এবং এমন কোনও শব্দ বাছাইয়ের সম্ভাবনাও হ্রাস করে যা আসলে কোনও নেতিবাচক নমুনা নয় (যেহেতু বড় কর্পোরার সাথে এটি পরীক্ষা করা ব্যয়বহুল এবং প্রায়শই বাদ যায়)।

— ড্রিভিকো

@ ড্রেভিকো কম ঘন ঘন শব্দগুলি আরও তথ্যবহুল, তবে কম ঘন ঘন শব্দগুলি নেতিবাচক নমুনা হওয়ার কারণে কম তথ্যযুক্ত হয়। তথ্য তত্ত্ব অনুসারে, সম্ভাবনা তত বেশি, স্ব-তথ্য তত ছোট। প্রদত্ত টার্গেট শব্দের জন্য ঘন ঘন শব্দের নেতিবাচক নমুনা হওয়ার ঘটনাটি খুব কম সম্ভাবনার হওয়া উচিত, যার অর্থ তথ্যের উচ্চ পরিমাণ।

— টাইলার 主来国主