শব্দগুলির অবিচ্ছিন্ন ব্যাগ সম্পর্কে প্রশ্ন


11

এই বাক্যটি বুঝতে আমার সমস্যা হচ্ছে:

প্রথম প্রস্তাবিত আর্কিটেকচারটি ফিডফোর্ড এনএনএলএম এর অনুরূপ, যেখানে অ-রৈখিক লুকানো স্তর সরানো হয় এবং প্রজেকশন স্তরটি সমস্ত শব্দের জন্য ভাগ করা হয় (কেবলমাত্র প্রক্ষেপণ ম্যাট্রিক্স নয়); সুতরাং, সমস্ত শব্দ একই অবস্থানে প্রজেক্ট হয় (তাদের ভেক্টরগুলির গড় হয়)।

প্রোজেকশন স্তর বনাম প্রজেকশন ম্যাট্রিক্স কী? সমস্ত শব্দ একই অবস্থানে প্রত্যাশিত হওয়ার অর্থ কী? এবং কেন এর অর্থ হল যে তাদের ভেক্টরগুলির গড় গড়ে আছে?

বাক্যটি ভেক্টর স্পেসে শব্দের উপস্থাপনার দক্ষ অনুমানের 3.1 বিভাগের প্রথমটি (মিকোলভ এট আল 2013)

উত্তর:


6

চিত্র 1 সেখানে কিছুটা স্পষ্ট করে। প্রদত্ত আকারের উইন্ডো থেকে সমস্ত শব্দের ভেক্টর সংক্ষিপ্ত করা হয়, ফলাফলটি (1 / উইন্ডো আকার) দ্বারা গুণিত হয় এবং তারপরে আউটপুট স্তরতে খাওয়ানো হয়।

প্রজেকশন ম্যাট্রিক্সের অর্থ একটি সম্পূর্ণ অনুসন্ধান সারণী যেখানে প্রতিটি শব্দ একক বাস্তব-মূল্যবান ভেক্টরের সাথে মিলে যায়। প্রজেকশন স্তরটি কার্যকরভাবে একটি প্রক্রিয়া যা কোনও শব্দ (শব্দ সূচক) নেয় এবং সংশ্লিষ্ট ভেক্টরকে ফেরত দেয়। যে কোনওটি তাদেরকে সম্মতি জানাতে পারে (সাইজের কে * এন এর ইনপুট প্রাপ্ত যেখানে কে উইন্ডোর আকার এবং এন ভেক্টরের দৈর্ঘ্য) বা সিবিওউ মডেল হিসাবে কেবল তাদের সমস্তটি যোগ করুন (আকার এন এর ইনপুট প্রাপ্ত)।

এখানে চিত্র বর্ণনা লিখুন


প্রথমে, আপনার উত্তরের জন্য ধন্যবাদ। প্রজেকশন ম্যাট্রিক্স এবং প্রজেকশন স্তরটির মধ্যে পার্থক্য দেখে আমি এখনও কিছুটা বিভ্রান্ত। তারা একই মনে হয়।
ব্যবহারকারী 70394

@ ব্যবহারকারী 70394 হ্যাঁ, বাস্তবে আমি পরিভাষাটি কিছুটা বিভ্রান্তি পেয়েছি। মূলত যে কোনও এনএন স্তর হ'ল একটি ফাংশন যা আউটপুটগুলিতে ইনপুটগুলি ম্যাপ করে। প্রজেকশন স্তরটি করে যে প্রজেকশন ম্যাট্রিক্স থেকে ওজন ব্যবহার করে তবে এটি নিজেই ম্যাট্রিক্স নয়। একই ম্যাট্রিক্স দেওয়া একাধিক বিভিন্ন ফাংশন সংজ্ঞায়িত করতে পারে। প্রকৃতপক্ষে, সিবিডব্লিউর ক্ষেত্রে আমরা সম্ভবত বলতে পারি যে আমাদের সময় সময় বিলম্বের সাথে সংক্ষেপ স্তর পরে প্রক্ষেপণ স্তর রয়েছে। আরএনএনএলএম মডেলটিতে "প্রজেকশন স্তর" আসলে পুনরাবৃত্ত লুকানো স্তরের একটি অংশ যা প্রোজেকশন ম্যাট্রিক্সের ওজনের সাথে পুনরাবৃত্ত ওজনের সাথে গণনা আউটপুটগুলিকে একত্রিত করে।
ডেনিস তারাসভ

1

আমি যখন সিবিডাব্লু সংক্রান্ত বিষয়গুলি ঘুরে দেখছিলাম এবং তাতে হোঁচট খেয়েছি, তখন এনএনএলএম মডেলটি দেখে (বেনজিও এট আল। ) দেখে আপনার (প্রথম) প্রশ্নের ("প্রোজেকশন স্তর বনাম ম্যাট্রিক্স কী?") এর বিকল্প উত্তর এখানে দেওয়া হয়েছে । 2003):

বেনজিও ইট আল।, 2003, চিত্র 1: নিউরাল আর্কিটেকচার: f (i, w_ {t − 1}, ···, w_ {t − n + 1}) = g (i, C (w_ {t − 1}) ), ···, সি (w_ {t − n + 1})) যেখানে জি নিউরাল নেটওয়ার্ক এবং সি (i) হ'ল আই-থ্রি শব্দ বৈশিষ্ট্য ভেক্টর।

যদি এটি মিকোলভের মডেল [গুলি] (এই প্রশ্নের বিকল্প উত্তরে দেখানো হয়েছে) এর সাথে তুলনা করা হয়, উদ্ধৃত বাক্য (প্রশ্নে) এর অর্থ মিকোলভ উপরের দেখানো বেনজিওর মডেলটিতে প্রদর্শিত (অ-রৈখিক!) স্তরটি সরিয়ে দিয়েছেন । এবং মিকোলভের প্রথম (এবং শুধুমাত্র) লুকানো স্তর, প্রতিটি শব্দের জন্য পৃথক ভেক্টর কেবলমাত্র একটি ভেক্টর ব্যবহার করে যা "শব্দের পরামিতি" যোগ করে এবং তারপরে এই পরিমাণগুলি গড় হয়। সুতরাং এটি শেষ প্রশ্নটি ব্যাখ্যা করে ("এর অর্থ কী কী ভেক্টর গড় হয়?")। শব্দগুলি "একই অবস্থানে প্রজেক্ট করা হয়" কারণ পৃথক ইনপুট শব্দের জন্য নির্ধারিত ওজনগুলি মিকোলভের মডেলটিতে সংক্ষিপ্ত করা হয় এবং গড় গড়ে নেওয়া হয়। অতএব, তার প্রজেকশন স্তরtanhC(wi)বেনজিওর প্রথম লুকানো স্তর (যেমন প্রক্ষেপণ ম্যাট্রিক্স ) এর বিপরীতে সমস্ত অবস্থানগত তথ্য হারাবে - যার ফলে দ্বিতীয় প্রশ্নের উত্তর দেওয়া হবে ("এর অর্থ কী যে সমস্ত শব্দ একই অবস্থানে প্রত্যাশিত হয়?")। সুতরাং মিকোলভের মডেল [গুলি] "ওয়ার্ড প্যারামিটারগুলি" (ইনপুট ওজন ম্যাট্রিক্স) ধরে রেখেছে, প্রজেকশন ম্যাট্রিক্স এবং স্তরটি সরিয়ে নিয়েছে এবং উভয়কে "সরল" প্রক্ষেপণ স্তর দিয়ে প্রতিস্থাপন করেছেCtanh

যোগ করতে এবং "কেবলমাত্র রেকর্ডের জন্য": আসল উত্তেজনাপূর্ণ অংশটি হ'ল মিকোলভের সেই অংশটি সমাধান করার দৃষ্টিভঙ্গি যেখানে বেনজিওর ইমেজে আপনি "সর্বাধিক গণনা" শব্দবন্ধটি দেখতে পাচ্ছেন। বেনজিও একটি পরবর্তী কাগজে (মোরিণ এবং বেনজিও 2005) হায়ারারিকিকাল সফটম্যাক্স (কেবলমাত্র সফটম্যাক্স ব্যবহার না করে) বলে এমন কিছু করে এই সমস্যাটি হ্রাস করার চেষ্টা করেছিলেন । তবে মিকোলভ তার নেতিবাচক সাবস্কেপিংয়ের কৌশলটি এই পদক্ষেপটি আরও এগিয়ে নিয়েছিলেন: তিনি সমস্ত "ভুল" শব্দের নেতিবাচক লগ-সম্ভাবনা (বা হাফম্যান কোডিং, যেমন বেনজিও 2005 সালে প্রস্তাব করেছিলেন) গণনা করেন না, এবং কেবল একটি খুব কমপিট করে নেতিবাচক মামলার ছোট নমুনা, যা যথেষ্ট পরিমাণে এই পরিমাণ গণনা এবং একটি চতুর সম্ভাবনা বন্টন প্রদত্ত, অত্যন্ত কার্যকরভাবে কাজ করে। এবং দ্বিতীয় এবং আরও বড় অবদান, প্রাকৃতিকভাবে,যুত "compositionality" ( "ম্যান + + রাজা = নারী + +?" উত্তর রাণী সঙ্গে), যা শুধুমাত্র সত্যিই তার এড়িয়ে গ্রাম মডেলের ভাল কাজ করে, করা যায় এবং মোটামুটিভাবে , Bengio এর মডেল গ্রহণ বোঝা আবেদন পরিবর্তন Mikolov প্রস্তাব (অর্থাত, আপনার প্রশ্নে উদ্ধৃত বাক্যাংশ) এবং তারপরে পুরো প্রক্রিয়াটি উল্টানো। এটির পরিবর্তে আউটপুট শব্দগুলি (এখন ইনপুট হিসাবে ব্যবহৃত হয়), থেকে আশেপাশের শব্দগুলির অনুমান করা।P(context|wt=i)

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.