আমি এমন একটি সিস্টেম ডিজাইন করতে চাই যা পাঠ্যের অনুচ্ছেদে দেওয়া হয়েছে এটি শ্রেণীবদ্ধ করতে এবং প্রসঙ্গটি সনাক্ত করতে সক্ষম হবে:
- ব্যবহারকারী উত্পন্ন পাঠ্য অনুচ্ছেদ (মতামত / প্রশ্ন / উত্তর মত) দিয়ে প্রশিক্ষিত
- প্রশিক্ষণ সেটের প্রতিটি আইটেম ট্যাগ করা হবে। যেমন উদাহরণস্বরূপ ("বিভাগ 1", "পাঠ্য অনুচ্ছেদ")
- শত শত বিভাগ থাকবে
এই জাতীয় ব্যবস্থা তৈরির জন্য সর্বোত্তম পদ্ধতির কী হবে? আমি কয়েকটি ভিন্ন বিকল্পের দিকে চেয়েছি এবং নীচে সম্ভাব্য সমাধানগুলির একটি তালিকা রয়েছে। ওয়ার্ড টুভেক / এনএন কি এই মুহুর্তের সেরা সমাধান?
- রিকার্সিভ নিউরাল টেনসর নেটওয়ার্ককে গড় ওয়ার্ড 2ভেক ডেটা দিয়ে খাওয়ানো হয়েছে
- আরএনটিএন এবং দ্য প্যারাগ্রাফ ভেক্টর ( https://cs.stanford.edu/~quocle/paragraph_vector.pdf )?
- একটি গভীর বিশ্বাস নেটওয়ার্কে ব্যবহৃত টিএফ-আইডিএফ
- টিএফ-আইডিএফ এবং লজিস্টিক রিগ্রেশন
- ব্যাগ অফ ওয়ার্ডস এবং নাইভ বেয়েস শ্রেণিবদ্ধকরণ
আপনি কি ধরণের বিভাগ ব্যাখ্যা করতে পারেন? এটি কি নতুন বিভাগ এবং / বা অদেখা শব্দগুলি পরিচালনা করতে সক্ষম হবে? অবিশ্বাস্য শর্তাদি এবং অদেখা বিভাগগুলি সম্পর্কিত প্রয়োজনীয়তা সিস্টেমের নকশা তৈরিতে সহায়তা করবে।
—
এনবার্টলি
ধন্যবাদ @ এনবার্টলি। অদেখা শব্দগুলি একটি উচ্চ সম্ভাবনাও হবে। ইনপুট প্যারাগুলি ব্যবহারকারী উত্পাদিত সামগ্রী হবে, সুতরাং নতুন অদেখা শব্দের সম্ভাবনা খুব বেশি। বিভাগগুলি সংজ্ঞায়িত করা হবে তবে সময়ের সাথে সাথে আমাদের বিভাগের তালিকাটি প্রসারিত করতে হবে। ধন্যবাদ
—
শঙ্কর
আপনার জ্ঞান 2vec খুব arxiv.org/abs/1511.06388 পরীক্ষা করা উচিত । সংক্ষেপে এটি শব্দ এম্বেডিংগুলি পার্ট-অফ-স্পিচ ট্যাগিংয়ের সাথে মিলিত। এটি প্রতিবেদিত হয়েছে যে এটি শব্দের এম্বেডিংগুলিকে আরও স্বতঃস্ফূর্ত করে তোলে হোমোমোনামগুলি ছড়িয়ে দিয়ে। এটি শ্রেণিবদ্ধকরণ কার্যগুলিতে কর্মক্ষমতাও উন্নত করে কিনা তা দেখতে আকর্ষণীয় হবে।
—
ওয়্যাক্যাক্স