ওয়ার্ড 2vec কত প্রশিক্ষণের ডেটা প্রয়োজন?


10

আমি বিভিন্ন উত্সে উল্লিখিত একই শব্দের মধ্যে পার্থক্যটি তুলনা করতে চাই। এটি হ'ল লেখকরা কীভাবে তাদের "গণতন্ত্র" এর মতো সংজ্ঞায়িত শব্দের ব্যবহারের ক্ষেত্রে পৃথক হন fer

একটি সংক্ষিপ্ত পরিকল্পনা ছিল

  1. "গণতন্ত্র" শব্দের উল্লেখ করা বইগুলি সরল পাঠ হিসাবে বিবেচনা করুন
  2. প্রতিটি বইয়ের democracyসাথে প্রতিস্থাপন করুনdemocracy_%AuthorName%
  3. word2vecএই বইগুলিতে একটি মডেল প্রশিক্ষণ দিন
  4. মধ্যে দূরত্ব গণনা democracy_AuthorA, democracy_AuthorBএবং অন্যান্য relabeled "গণতন্ত্রের" উল্লেখ

সুতরাং প্রতিটি লেখকের "গণতন্ত্র" তার নিজস্ব ভেক্টর পায় যা তুলনার জন্য ব্যবহৃত হয়।

তবে এটি মনে word2vecহয় নির্ভরযোগ্য ভেক্টরদের প্রশিক্ষণের জন্য একাধিক বইয়ের (প্রতিটি সম্পর্কিত শব্দ কেবল বইয়ের একটি উপসেটে ঘটে) in সরকারী পৃষ্ঠা শব্দের বিলিয়ান সহ ডেটাসেট পরামর্শ দেওয়া হচ্ছে।

আমি কেবল জিজ্ঞাসা করতে চেয়েছিলাম যে কোনও লেখকের বইয়ের উপসেটটি word2vecযদি পাওয়া যায় তবে বিকল্প সরঞ্জামগুলির সাথে এই জাতীয় অনুভূতি তৈরি করার জন্য কত বড় হওয়া উচিত ?


1
আপনি যে বইগুলি কেবল গণতন্ত্রের বিষয়গুলিতে ব্যবহার করছেন তা যদি না হয় তবে আপনার দূরত্বের মেট্রিক বইয়ের সামগ্রীর মধ্যে বৃহত্তর পার্থক্যের কারণে স্রোতধারা হয়ে উঠবে না? এটি আপনার সমস্যার খুব উচ্চ মাত্রিক স্থানে থাকা এবং মাত্রিকতার অভিশাপের হাত দিয়ে স্পর্শ হওয়া এর একটি পার্শ্ব প্রতিক্রিয়া। সম্ভবত আগ্রহের শব্দটির চারপাশে কেবলমাত্র একটি ছোট্ট অঞ্চল নেওয়া সাহায্য করবে, তবে এটি এখনও তাত্পর্যপূর্ণ মাত্রা সহ একটি সমস্যা।
ইমেজ_ডোক্টর

1
হ্যাঁ এটির মূল কথা। এখানে সম্ভবত একটি অসুস্থ চিন্তাভাবক রূপক নিয়ে যায়। রঙগুলির দ্বারা উপস্থাপিত বইগুলির অধ্যায়গুলি কল্পনা করুন। এবং একটি বই পুরো অধ্যায়গুলির সমস্ত রঙের মিশ্রণ হিসাবে উপস্থাপিত। পশ্চিমা ইউরোপে গণতন্ত্র সম্পর্কিত একটি বই সম্ভবত এর অধ্যায়গুলির সমষ্টি হিসাবে সামগ্রিক লালচে বর্ণের সাথে শেষ হবে। আমরা যদি নীল দ্বারা পর্যটনকে প্রতিনিধিত্ব করি, কিউবার পর্যটন বিষয়ক একটি বই, যেখানে গণতন্ত্রের একক অধ্যায় রয়েছে এবং এর অর্থনৈতিক বিকাশের উপর প্রভাব রয়েছে, তার দৃ .় নীল বর্ণ থাকবে। সামগ্রিকভাবে দেখা গেলে দুটি বই খুব আলাদা দেখাবে।
ইমেজ_ডোক্টর

1
এটি উভয় বইয়ের ভেক্টর হিসাবে ডেটা বিজ্ঞানী যে বাক্যটি উচ্চারণের জায়গার চেয়ে অনেক দূরে দূরে থাকবেন এবং কীভাবে একে অপরূপ প্রদর্শিত হবে তা বলার আরও সহজ উপায়। ডেটা না খেলে আপনার কতগুলি উদাহরণের প্রয়োজন তা আগেই প্রমাণ করা সত্যিই শক্ত, তবে ভাষাটি সূক্ষ্ম এবং স্তরযুক্ত যাতে আপনি সম্ভবত যতগুলি পেতে পারেন তা চাইবেন .... এবং সম্ভবত আরও কিছু। আপনি চেষ্টা না করা পর্যন্ত শেষ পর্যন্ত আপনি জানতে পারবেন না। এটি কোনও দৃ answer় উত্তর নয়, তবে কেউ যদি একই রকম কাজ করার প্রত্যক্ষ অভিজ্ঞতা না পান তবে এটি সম্ভবত আপনি সবচেয়ে ভাল পাবেন।
ইমেজ_ডোক্টর

1
word2vec ইতিমধ্যে কেবল "আগ্রহের শব্দটির চারপাশে একটি ছোট্ট পাঠ্য" ব্যবহার করে। windowপ্যারামিটার সেট কিভাবে প্রেক্ষাপটে অনেক শব্দ আপনার শব্দ জন্য মডেল প্রশিক্ষণের ব্যবহার করা হয় W
jamesmf

1
@ রাজনীতিবিদ আমি এই প্রকল্পটি শেষ করিনি।
আন্তন তারাসেনকো

উত্তর:


1

দেখে মনে হচ্ছে ডক্টুভেক (বা অনুচ্ছেদ / প্রসঙ্গ ভেক্টর) এই সমস্যার জন্য উপযুক্ত হতে পারে।

সংক্ষেপে, ভেক্টর শব্দের পাশাপাশি, আপনি একটি "প্রসঙ্গ ভেক্টর" যুক্ত করুন (আপনার ক্ষেত্রে, লেখকের জন্য একটি এম্বেডিং) যা কেন্দ্র বা প্রসঙ্গ শব্দগুলির পূর্বাভাস দেওয়ার জন্য ব্যবহৃত হয়।

এর অর্থ হ'ল আপনি "গণতন্ত্র" সম্পর্কিত সমস্ত ডেটা থেকে উপকৃত হবেন তবে সেই লেখকের জন্য একটি এম্বেডিংও বের করতে পারবেন, যা সম্মিলিতভাবে আপনাকে প্রতিটি লেখকের সীমিত ডেটা সহ প্রতিটি লেখকের পক্ষপাত বিশ্লেষণ করতে দেয়।

আপনি জিনসিমের প্রয়োগটি ব্যবহার করতে পারেন । দস্তাবেজের উত্সের কাগজগুলির লিঙ্ক অন্তর্ভুক্ত।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.