তত্ত্বাবধানে থাকা শিক্ষার সাথে ব্যবহারের জন্য কোনও বৈশিষ্ট্য ভেক্টরটিতে নথির মানচিত্র তৈরি করতে আমি কী শব্দ এম্বেডিং ব্যবহার করব?
একটি শব্দ এমবেডিং প্রতিটি শব্দ মানচিত্র একটি ভেক্টর করার , যেখানে কিছু না খুব-সংখ্যক (যেমন, 500) হয়। জনপ্রিয় শব্দ এম্বেডিংগুলিতে ওয়ার্ড 2vec এবং গ্লোভ অন্তর্ভুক্ত রয়েছে ।বনাম ∈ আর ঘ ঘ
আমি নথি শ্রেণিবদ্ধ করতে তদারকি করা শিক্ষার প্রয়োগ করতে চাই। আমি বর্তমানে প্রতিটি নথিকে ব্যাগ-অফ-শব্দের উপস্থাপনা ব্যবহার করে কোনও বৈশিষ্ট্য ভেক্টরে ম্যাপ করছি, তারপরে একটি অফ শেল্ফ শ্রেণিবদ্ধকরণ প্রয়োগ করছি। এম্বেডিং শব্দের মধ্যে থাকা শব্দার্থবিজ্ঞানের জ্ঞানের সুযোগ নিতে আমি বিদ্যমান প্রাক-প্রশিক্ষিত শব্দ এম্বেডিংয়ের উপর ভিত্তি করে কিছু দিয়ে ব্যাগ-অফ-শব্দের বৈশিষ্ট্য ভেক্টরকে প্রতিস্থাপন করতে চাই। এটি করার কোনও মানক উপায় আছে?
আমি কিছু সম্ভাবনা কল্পনা করতে পারি, তবে আমি জানি না এমন কিছু আছে যা সর্বাধিক অর্থবোধ করে। আমি বিবেচনা করেছি প্রার্থী পদ্ধতির:
আমি নথিতে প্রতিটি শব্দের জন্য ভেক্টরটি গণনা করতে পারি এবং সেগুলির সবককে গড় করতে পারি। তবে মনে হচ্ছে এটি অনেক তথ্য হারাতে পারে। উদাহরণস্বরূপ, ব্যাগ-অফ-শব্দের উপস্থাপনের সাথে, যদি এমন কয়েকটি শব্দ থাকে যা শ্রেণিবদ্ধকরণ কার্যের সাথে অত্যন্ত প্রাসঙ্গিক এবং বেশিরভাগ শব্দ অপ্রাসঙ্গিক হয়, শ্রেণিবদ্ধকারী সহজেই তা শিখতে পারে; যদি আমি নথির সমস্ত শব্দের জন্য ভেক্টরকে গড় করি তবে শ্রেণিবদ্ধার কোনও সুযোগ নেই।
সমস্ত শব্দের জন্য ভেক্টরকে সংযুক্ত করা কার্যকর হয় না, কারণ এটি কোনও স্থির আকারের বৈশিষ্ট্যযুক্ত ভেক্টরকে নেতৃত্ব দেয় না। এটি একটি খারাপ ধারণা বলে মনে হচ্ছে কারণ এটি একটি শব্দের নির্দিষ্ট স্থান নির্ধারণের জন্য অতিরিক্ত সংবেদনশীল হবে।
আমি সমস্ত শব্দের ভোকাবুলারি ক্লাস্টারগুলির একটি নির্দিষ্ট সেটে গুচ্ছ করতে এম্বেডিং শব্দটি ব্যবহার করতে পারি, বলুন, 1000 টি ক্লাস্টার যেখানে আমি শব্দের মিলের পরিমাপ হিসাবে ভেক্টরগুলিতে কোসাইন মিলকে ব্যবহার করি। তারপরে, ব্যাগ-অফ-শব্দের পরিবর্তে আমার কাছে একটি ব্যাগ-অফ-ক্লাস্টার থাকতে পারে: আমি ক্লাসিফারকে সরবরাহ করি এমন বৈশিষ্ট্য ভেক্টরটি 1000-ভেক্টর হতে পারে, যেখানে ম উপাদানটি নথিতে শব্দের সংখ্যা গণনা করে যে গুচ্ছ অংশ ।i
একটি শব্দ দেওয়া , এই শব্দ embeddings আমাকে শীর্ষ 20 সবচেয়ে অনুরূপ শব্দের একটি সেট গনা যাক এবং তাদের সাদৃশ্য স্কোর । আমি এটি ব্যবহার করে শব্দ-ব্যাগের মতো বৈশিষ্ট্য ভেক্টরটি খাপ খাইয়ে নিতে পারি। যখন আমি শব্দ দেখতে উপাদান শব্দ সংশ্লিষ্ট বৃদ্ধিশীল করতে, উপরন্তু দ্বারা আমিও উপাদান শব্দ সংশ্লিষ্ট বাড়ায় পারে দ্বারা উপাদান শব্দ সংশ্লিষ্ট বাড়ায় দ্বারা , ইত্যাদি।ডাব্লু 1 , … , ডাব্লু 20 এস 1 , … , এস 20 ডাব্লু ডাব্লু 1 ডব্লু 1 এস 1 ডব্লু 2 এস 2
ডকুমেন্ট শ্রেণিবদ্ধকরণের জন্য ভালভাবে কাজ করার কোনও নির্দিষ্ট পদ্ধতির রয়েছে কি?
আমি অনুচ্ছেদ 2vec বা ডক 2 ওয়েভ খুঁজছি না; এগুলির জন্য একটি বৃহত ডেটা কর্পাস সম্পর্কে প্রশিক্ষণ প্রয়োজন, এবং আমার কাছে একটি বড় ডেটা কর্পস নেই। পরিবর্তে, আমি একটি বিদ্যমান শব্দ এম্বেডিং ব্যবহার করতে চাই।