ওয়ার্ড টুভেমে ফিচার ম্যাট্রিক্স কী?


10

আমি নিউরাল নেটওয়ার্কগুলির একটি শিক্ষানবিশ এবং বর্তমানে আমি ওয়ার্ড টু ওয়েভ মডেলটি অন্বেষণ করছি। তবে বৈশিষ্ট্যটির ম্যাট্রিক্সটি হ'ল কি তা বোঝার জন্য আমার একটি শক্ত সময় কাটাচ্ছে।

এখানে চিত্র বর্ণনা লিখুন

আমি বুঝতে পারি যে প্রথম ম্যাট্রিক্স একটি প্রদত্ত শব্দের জন্য এক-হট এনকোডিং ভেক্টর, তবে দ্বিতীয় ম্যাট্রিক্সটি কী বোঝায়? আরও সুনির্দিষ্টভাবে বলা যায় যে, এই প্রতিটি মান (অর্থাত্ 17, 24, 1 ইত্যাদি) এর অর্থ কী?


গুগল দ্বারা উত্পাদিত ডাব্লু সম্পর্কে আমার একটি প্রশ্ন রয়েছে, আপনি কি গুগল প্রদত্ত মান সম্পর্কে আরও তথ্য দিতে পারেন? এই বৈশিষ্ট্যগুলি কি ব্যবহার করা হয়? আপনার সাহায্যের জন্য ধন্যবাদ।
হাম্বি

উত্তর:


8

Word2vec পিছনে ধারণা মাত্রা প্রকৃত সংখ্যার একটি ভেক্টর দ্বারা শব্দ উপস্থাপিত করার । সুতরাং দ্বিতীয় ম্যাট্রিক্স হল সেই শব্দের প্রতিনিধিত্ব।

আমি এই ম্যাট্রিক্সের -th লাইনের ভেক্টর উপস্থাপনা আমি -th শব্দ।

ধরা যাক যে আপনার উদাহরণে আপনার কাছে 5 টি শব্দ রয়েছে: ["সিংহ", "ক্যাট", "কুকুর", "ঘোড়া", "মাউস"], তারপরে প্রথম ভেক্টরটি [0,0,0,1,0] এর অর্থ আপনি "ঘোড়া" শব্দটি বিবেচনা করছি এবং সুতরাং "ঘোড়া" এর উপস্থাপনা [10, 12, 19]। একইভাবে, [17, 24, 1] হ'ল "সিংহ" শব্দের উপস্থাপনা।

আমার জানা মতে, এই উপস্থাপনাগুলির প্রতিটি সংখ্যার জন্য বিশেষত কোনও "মানবিক অর্থ" নেই। একটি সংখ্যাটি শব্দটি ক্রিয়াপদ বা না, একটি বিশেষণ বা না থাকলে প্রতিনিধিত্ব করছে না ... এটি আপনার শব্দের উপস্থাপনা শেখার জন্য আপনার অনুকূলকরণের সমস্যাটি সমাধান করার জন্য যে ওজন পরিবর্তন করেছেন।

এই টিউটোরিয়ালটি আপনাকে সহায়তা করতে পারে: http://mccormickML.com/2016/04/19/word2vec-tutorial-the-skip-gram-model/ যদিও আমি মনে করি আপনি যে চিত্রটি রেখেছেন তা এই লিঙ্কটি থেকে।

আপনি এটিও পরীক্ষা করে দেখতে পারেন, যা আপনাকে টেনসরফ্লো দিয়ে শব্দ ভেক্টর দিয়ে শুরু করতে সহায়তা করতে পারে: https://www.tensorflow.org/tutorials/word2vec


5

টিএল; ডিআর :

প্রথম ম্যাট্রিক্স একটি গরম ফর্ম্যাটে ইনপুট ভেক্টরকে উপস্থাপন করে

দ্বিতীয় ম্যাট্রিক্স ইনপুট স্তর নিউরোন থেকে লুকানো স্তর নিউরনে সিএনপটিক ওজন উপস্থাপন করে

দীর্ঘ সংস্করণ :

"বৈশিষ্ট্যটি ম্যাট্রিক্স হ'ল"

দেখে মনে হচ্ছে আপনি উপস্থাপনাটি সঠিকভাবে বুঝতে পারেন নি। সেই ম্যাট্রিক্স কোনও বৈশিষ্ট্য ম্যাট্রিক্স নয় বরং নিউরাল নেটওয়ার্কের জন্য একটি ওজন ম্যাট্রিক্স। নীচে দেওয়া চিত্রটি বিবেচনা করুন। বিশেষত বাম উপরের কোণটি লক্ষ্য করুন যেখানে ইনপুট লেয়ার ম্যাট্রিক্সকে ওজন ম্যাট্রিক্স দিয়ে গুণিত করা হয়েছে। এখানে চিত্র বর্ণনা লিখুন

এখন উপরের ডানদিকে তাকান। ওয়েট ট্রান্সপোজ দিয়ে তৈরি এই ম্যাট্রিক্স গুণন ইনপুটলায়ার ডট-র উপরের ডানদিকে স্নায়বিক নেটওয়ার্ক উপস্থাপনের এক সহজ উপায়।

সুতরাং, আপনার প্রশ্নের উত্তর দেওয়ার জন্য, আপনি যে সমীকরণ পোস্ট করেছেন তা হ'ল ওয়ার্ড 2 ভেক অ্যালগরিদমে ব্যবহৃত নিউরাল নেটওয়ার্কের গাণিতিক উপস্থাপনা।

প্রথম অংশ, [0 0 0 1 0 ... 0] ইনপুট শব্দটিকে একটি গরম ভেক্টর হিসাবে উপস্থাপন করে এবং অন্য ম্যাট্রিক্স লুকানো স্তর নিউরনের সাথে প্রতিটি ইনপুট স্তর নিউরনের সংযোগের জন্য ওজন উপস্থাপন করে।

ওয়ার্ড টুভেক ট্রেন হিসাবে, এটি এই ওজনগুলিতে ব্যাকপ্রোপেট করে এবং ভেক্টর হিসাবে শব্দের আরও ভাল উপস্থাপনা দেওয়ার জন্য তাদের পরিবর্তন করে।

একবার প্রশিক্ষণ শেষ হয়ে গেলে, আপনি কেবল এই ওজন ম্যাট্রিক্স ব্যবহার করুন, 'কুকুর' বলার জন্য [0 0 1 0 0 ... 0] নিন এবং 'কুকুর' এর ভেক্টরকে একটি মাত্রায় উপস্থাপন করার জন্য এটি উন্নত ওজন ম্যাট্রিক্স দিয়ে গুন করুন = লুকানো স্তর নিউরনের কোন।

আপনি যে চিত্রটি উপস্থাপন করেছেন তাতে হিডেন লেয়ার নিউরনের সংখ্যা 3

সুতরাং ডান হাতটি মূলত ভেক্টর শব্দ।

চিত্রের ক্রেডিট: http://www.datasciencecentral.com/profiles/blogs/matrix-multplication-in-neural-networks

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.