ওয়ার্ড টুভেকের শব্দ ভেক্টরগুলিকে ব্যবহার করার আগে আমি কি তাদের স্বাভাবিক করতে পারি?


38

ওয়ার্ড ভেক্টরগুলিকে ওয়ার্ড টু ওয়েভকে প্রশিক্ষণ দেওয়ার পরে, কিছু স্ট্রিম অ্যাপ্লিকেশনগুলির জন্য সেগুলি ব্যবহার করার আগে এগুলি স্বাভাবিক করা ভাল? অর্থাৎ এগুলি স্বাভাবিক করার পক্ষে কি কি?


সাদৃশ্যপূর্ণ কার্যে, স্বাভাবিকীকরণ আমার সিস্টেমের কার্যকারিতাটি কিছুটা উন্নত করেছে improved
কেরামত

উত্তর:


30

যখন ডাউন স্ট্রিম অ্যাপ্লিকেশনগুলি কেবল ভেক্টর শব্দের দিক সম্পর্কেই মনোযোগ দেয় (উদাহরণস্বরূপ তারা কেবল দুটি শব্দের কোসাইন মিলের দিকে মনোযোগ দেয়), তখন স্বাভাবিক করুন এবং দৈর্ঘ্যটি ভুলে যান।

তবে, যদি ডাউন স্ট্রিম অ্যাপ্লিকেশনগুলি আরও বুদ্ধিমান দিকগুলি যেমন শব্দের তাত্পর্য , বা শব্দের ব্যবহারে ধারাবাহিকতা (নীচে দেখুন) বিবেচনা করতে সক্ষম হয় , তবে সাধারণীকরণ সম্ভবত এ জাতীয় ধারণা নাও হতে পারে।


থেকে । লেভি এট, 2015 (এবং, আসলে, শব্দ embeddings উপর সাহিত্যের সবচেয়ে):

ভেক্টরগুলি মিলের গণনার জন্য ব্যবহার করার আগে ইউনিট দৈর্ঘ্যে স্বাভাবিক করা হয়, কোসাইন মিল এবং ডট-প্রোডাক্টকে সমতুল্য করে তোলে।

উইলসন এবং স্কেল, 2015 থেকেও :

শব্দের এম্বেডিংয়ের বেশিরভাগ অ্যাপ্লিকেশন শব্দের ভেক্টরকে নিজেরাই আবিষ্কার করে না, তবে সমাধান করার জন্য তাদের মধ্যে সম্পর্ক উদাহরণস্বরূপ, মিল এবং শব্দের সম্পর্ক সম্পর্কিত কাজগুলি। এই কাজের জন্য, এটি পাওয়া গেছে যে সাধারণ শব্দ ভেক্টর ব্যবহার করে কর্মক্ষমতা উন্নত করে। শব্দ ভেক্টরের দৈর্ঘ্য তাই সাধারণত উপেক্ষা করা হয়।

সাধারণকরণ দৈর্ঘ্যের ধারণা হারাতে সমান। এটি হ'ল একবার আপনি ভেক্টর শব্দটি স্বাভাবিক করুন, আপনি প্রশিক্ষণের পর্বের পরে তাদের যে দৈর্ঘ্য (আদর্শ, মডিউল) রেখেছিলেন তা ভুলে যান।

যাইহোক, কখনও কখনও এটি ভেক্টর শব্দের আসল দৈর্ঘ্যের বিষয়টি বিবেচনা করা মূল্যবান।

শ্যাচেল এবং উইলসন, 2015 শব্দের ভেক্টরগুলির দৈর্ঘ্য সম্পর্কিত কিছু আকর্ষণীয় তথ্য পর্যবেক্ষণ করেছে:

ধারাবাহিকভাবে অনুরূপ প্রসঙ্গে ব্যবহৃত একটি শব্দ একই প্রসঙ্গে ফ্রিকোয়েন্সি শব্দের চেয়ে লম্বা ভেক্টর দ্বারা প্রতিনিধিত্ব করা হবে যা বিভিন্ন প্রসঙ্গে ব্যবহৃত হয়।

কেবল দিক নয়, শব্দের ভেক্টরগুলির দৈর্ঘ্যও গুরুত্বপূর্ণ তথ্য বহন করে।

শব্দ ভ্যাক্টরের দৈর্ঘ্য পরিভাষার ফ্রিকোয়েন্সি এর সাথে মিলিয়ে শব্দের তাত্পর্যপূর্ণ একটি কার্যকর পরিমাপ।


আমরা কী বিশদটি দিতে পারি "এটি পাওয়া গেল যে সাধারণ শব্দ ভেক্টর ব্যবহার করে পারফরম্যান্সের উন্নতি হয়"? সাধারণীকরণে অতিরিক্ত গণনা জড়িত না?
নিউরাইট

4
@ নিউরাইট, এটি প্রসঙ্গে, একটি ভাল কর্মক্ষমতা মূল্যায়ন কার্যগুলিতে আরও ভাল স্কোরকে বোঝায় ।
টারডুস-মেরুলা
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.