পাঠ্য-শ্রেণিবদ্ধকরণ-সমস্যা: ওয়ার্ড 2ভেক / এনএন কি সেরা পদ্ধতির?


10

আমি এমন একটি সিস্টেম ডিজাইন করতে চাই যা পাঠ্যের অনুচ্ছেদে দেওয়া হয়েছে এটি শ্রেণীবদ্ধ করতে এবং প্রসঙ্গটি সনাক্ত করতে সক্ষম হবে:

  1. ব্যবহারকারী উত্পন্ন পাঠ্য অনুচ্ছেদ (মতামত / প্রশ্ন / উত্তর মত) দিয়ে প্রশিক্ষিত
  2. প্রশিক্ষণ সেটের প্রতিটি আইটেম ট্যাগ করা হবে। যেমন উদাহরণস্বরূপ ("বিভাগ 1", "পাঠ্য অনুচ্ছেদ")
  3. শত শত বিভাগ থাকবে

এই জাতীয় ব্যবস্থা তৈরির জন্য সর্বোত্তম পদ্ধতির কী হবে? আমি কয়েকটি ভিন্ন বিকল্পের দিকে চেয়েছি এবং নীচে সম্ভাব্য সমাধানগুলির একটি তালিকা রয়েছে। ওয়ার্ড টুভেক / এনএন কি এই মুহুর্তের সেরা সমাধান?

  1. রিকার্সিভ নিউরাল টেনসর নেটওয়ার্ককে গড় ওয়ার্ড 2ভেক ডেটা দিয়ে খাওয়ানো হয়েছে
  2. আরএনটিএন এবং দ্য প্যারাগ্রাফ ভেক্টর ( https://cs.stanford.edu/~quocle/paragraph_vector.pdf )?
  3. একটি গভীর বিশ্বাস নেটওয়ার্কে ব্যবহৃত টিএফ-আইডিএফ
  4. টিএফ-আইডিএফ এবং লজিস্টিক রিগ্রেশন
  5. ব্যাগ অফ ওয়ার্ডস এবং নাইভ বেয়েস শ্রেণিবদ্ধকরণ

আপনি কি ধরণের বিভাগ ব্যাখ্যা করতে পারেন? এটি কি নতুন বিভাগ এবং / বা অদেখা শব্দগুলি পরিচালনা করতে সক্ষম হবে? অবিশ্বাস্য শর্তাদি এবং অদেখা বিভাগগুলি সম্পর্কিত প্রয়োজনীয়তা সিস্টেমের নকশা তৈরিতে সহায়তা করবে।
এনবার্টলি

ধন্যবাদ @ এনবার্টলি। অদেখা শব্দগুলি একটি উচ্চ সম্ভাবনাও হবে। ইনপুট প্যারাগুলি ব্যবহারকারী উত্পাদিত সামগ্রী হবে, সুতরাং নতুন অদেখা শব্দের সম্ভাবনা খুব বেশি। বিভাগগুলি সংজ্ঞায়িত করা হবে তবে সময়ের সাথে সাথে আমাদের বিভাগের তালিকাটি প্রসারিত করতে হবে। ধন্যবাদ
শঙ্কর

আপনার জ্ঞান 2vec খুব arxiv.org/abs/1511.06388 পরীক্ষা করা উচিত । সংক্ষেপে এটি শব্দ এম্বেডিংগুলি পার্ট-অফ-স্পিচ ট্যাগিংয়ের সাথে মিলিত। এটি প্রতিবেদিত হয়েছে যে এটি শব্দের এম্বেডিংগুলিকে আরও স্বতঃস্ফূর্ত করে তোলে হোমোমোনামগুলি ছড়িয়ে দিয়ে। এটি শ্রেণিবদ্ধকরণ কার্যগুলিতে কর্মক্ষমতাও উন্নত করে কিনা তা দেখতে আকর্ষণীয় হবে।
ওয়্যাক্যাক্স

উত্তর:


5

1) টিএফআইডিএফ ভেক্টরগুলিতে ম্যাক্স-এন্ট্রপি (লজিস্টিক রিগ্রেশন) অনেক এনএলপি শ্রেণিবদ্ধকরণ কার্যের জন্য একটি ভাল সূচনা পয়েন্ট।

2) ওয়ার্ড 2vec মডেল 1 এর সাথে তুলনা করার চেষ্টা করা অবশ্যই উপযুক্ত 1. আমি বাক্য / অনুচ্ছেদগুলি দেখার জন্য ডক 2ভেক স্বাদ ব্যবহার করার পরামর্শ দেব।

কোক লে এবং টমাস মিকোলভ। বাক্য এবং নথির উপস্থাপন বিতরণ।http://arxiv.org/pdf/1405.4053v2.pdf

জেনসিম (পাইথন) এর একটি দস্তাবেজ 2 সুন্দর মডেল রয়েছে।


ধন্যবাদ @ রুশিমগ। বিভাগগুলি যদি নিবিড়ভাবে সম্পর্কিত হয়, অর্থাত পাঠ্য অনুচ্ছেদের যেগুলি ইনপুট হিসাবে ব্যবহৃত হয় তাতে প্রচুর পরিমাণে প্রচলিত শব্দ থাকে, তবে দুটি পদ্ধতির মধ্যে কোনটি প্রসঙ্গটি বুঝতে এবং উভয়ের মধ্যে পার্থক্য বোঝায় ভাল?
শঙ্কর

আমি সর্বাধিক এনট মডেলের ব্যাগ-অফ-শব্দের অনুমান সরিয়ে দেওয়ার কারণে ডক 2ভেক মডেলটি ব্যবহার করব। যদি টিএফ-আইডিএফ সর্বাধিক এনট মডেলটিতে বৈশিষ্ট্য হিসাবে ব্যবহৃত হয় তবে এটি সাধারণ শব্দের প্রভাবকেও হ্রাস করবে। আমি মনে করি উভয় পদ্ধতি ব্যবহার করে দেখার চেষ্টা করা এবং তাদেরকে টুইট করা সর্বোত্তম ক্রিয়া হবে।
রাশিমেগ
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.