আসলে, কোনও গাণিতিক ক্রিয়াকলাপ ব্যবহার করে আউটপুট ভেক্টরগুলি ইনপুট থেকে গণনা করা হয় না। পরিবর্তে, প্রতিটি ইনপুট পূর্ণসংখ্যা সূচক হিসাবে একটি টেবিলটিতে প্রবেশ করতে ব্যবহৃত হয় যাতে সমস্ত ধরণের ভেক্টর থাকে contains এই কারণেই আপনাকে প্রথম আর্গুমেন্ট হিসাবে ভোকাবুলারিটির আকার নির্দিষ্ট করতে হবে (যাতে সারণিটি আরম্ভ করা যেতে পারে)।
এই স্তরটির সর্বাধিক সাধারণ প্রয়োগ হ'ল পাঠ্য প্রক্রিয়াজাতকরণ। আসুন একটি সহজ উদাহরণ দেখুন। আমাদের প্রশিক্ষণ সেটটি কেবল দুটি বাক্যাংশ নিয়ে গঠিত:
আশা করি শীঘ্রই দেখা হবে
তোমাকে আবার দেখে ভালো লাগলো
সুতরাং আমরা প্রতিটি শব্দকে একটি অনন্য পূর্ণসংখ্যার নম্বর প্রদান করে (উদাহরণস্বরূপ আমাদের প্রশিক্ষণ ডেটাসেটে উপস্থিতির ক্রম অনুসারে) এই বাক্যগুলি এনকোড করতে পারি। তারপরে আমাদের বাক্যাংশগুলি আবার লিখিত হতে পারে:
[0, 1, 2, 3, 4]
[5, 1, 2, 3, 6]
এখন কল্পনা করুন আমরা এমন কোনও নেটওয়ার্ককে প্রশিক্ষণ দিতে চাই যার প্রথম স্তরটি এম্বেডিং স্তর। এই ক্ষেত্রে, আমাদের নিম্নলিখিত হিসাবে এটি সূচনা করা উচিত:
Embedding(7, 2, input_length=5)
প্রথম যুক্তি (7) হ'ল প্রশিক্ষণ সেটে স্বতন্ত্র শব্দের সংখ্যা। দ্বিতীয় যুক্তি (2) এম্বেডিং ভেক্টরগুলির আকার নির্দেশ করে। Input_length argumet, অবশ্যই, প্রতিটি ইনপুট ক্রম আকার নির্ধারণ করে।
নেটওয়ার্কটি প্রশিক্ষিত হয়ে গেলে, আমরা এম্বেডিং স্তরের ওজন পেতে পারি, যা এই ক্ষেত্রে আকারের (7, 2) হবে এবং ভ্যাক্টর এম্বেডিংয়ের জন্য পূর্ণসংখ্যার মানচিত্র তৈরি করার জন্য ব্যবহৃত টেবিল হিসাবে বিবেচনা করা যেতে পারে:
+------------+------------+
| index | Embedding |
+------------+------------+
| 0 | [1.2, 3.1] |
| 1 | [0.1, 4.2] |
| 2 | [1.0, 3.1] |
| 3 | [0.3, 2.1] |
| 4 | [2.2, 1.4] |
| 5 | [0.7, 1.7] |
| 6 | [4.1, 2.0] |
+------------+------------+
সুতরাং এই এম্বেডিং অনুযায়ী আমাদের দ্বিতীয় প্রশিক্ষণের বাক্যাংশটি উপস্থাপিত হবে:
[[0.7, 1.7], [0.1, 4.2], [1.0, 3.1], [0.3, 2.1], [4.1, 2.0]]
এটি প্রথমে স্বতঃস্ফূর্ত মনে হতে পারে তবে অন্তর্নিহিত স্বয়ংক্রিয় ডিফারেন্সেশন ইঞ্জিনগুলি (যেমন, টেনসরফ্লো বা থানো) আপনার মডেলের অন্যান্য প্যারামিটারের মতো প্রতিটি ইনপুট পূর্ণসংখ্যার সাথে যুক্ত এই ভেক্টরগুলিকে অনুকূল করতে পরিচালনা করে। বিভিন্ন ডোমেনের অন্যান্য পদ্ধতি / লোকদের দ্বারা শিখে নেওয়া এম্বেডিংগুলি ( যেমন https://blog.keras.io/ using-pre-trained-word-e એમ્બેડdings-in-a-keras-model.html দেখুন ) হিসাবে ব্যবহার করা আকর্ষণীয় [1] সালে সম্পন্ন।
[1] ল্যাপেজ-সানচেজ, ডি।, হেরেরো, জেআর, অ্যারিটা, এজি, এবং করচাডো, জেএম হাইব্রিডাইজিং মেট্রিক লার্নিং এবং অভিযোজ্য ক্লিকবাইট সনাক্তকরণের জন্য কেস-ভিত্তিক যুক্তি। ফলিত গোয়েন্দা তথ্য, 1-16।