সংক্ষিপ্ত নথিগুলির জন্য বিষয়গুলির মডেল


14

এই প্রশ্নের দ্বারা অনুপ্রাণিত হয়ে আমি ভাবছি যে খুব ছোট সংক্ষিপ্ত পাঠগুলির বৃহত সংগ্রহের জন্য টপিক মডেলগুলিতে কোনও কাজ করা হয়েছে কিনা। আমার স্বজ্ঞাততা হ'ল এই জাতীয় মডেলগুলির জন্য টুইটারের একটি প্রাকৃতিক অনুপ্রেরণা হওয়া উচিত। তবে কিছু সীমিত পরীক্ষা-নিরীক্ষার থেকে দেখে মনে হচ্ছে স্ট্যান্ডার্ড টপিক মডেলগুলি (এলডিএ ইত্যাদি) এই জাতীয় ডেটাতে বেশ খারাপভাবে পারফর্ম করে।

এই অঞ্চলে যে কাজ করা হয়েছে সেখানকার কেউ কি জানেন? এই কাগজটি টুইটারে এলডিএ প্রয়োগের বিষয়ে কথা বলেছে, তবে সংক্ষিপ্ত-দস্তাবেজের প্রসঙ্গে আরও ভাল সম্পাদন করা এমন অন্যান্য অ্যালগরিদম রয়েছে কিনা তা সম্পর্কে আমি সত্যিই আগ্রহী।


2
টুইটারটি কেবলমাত্র 'নথিগুলির' আকারের কারণে নয়, তবে পাঠ্যের ধরণের কারণেও টপিক মডেলিংয়ের জন্য একটি বিশেষভাবে কঠিন ডেটাসেট। লোকেরা বিভিন্ন টেক্সটিং শর্টহ্যান্ডগুলি ব্যবহার করে যা সহ-উপস্থিতিগুলি সনাক্তকরণ আরও জটিল করে তোলে।
নিক

: এ টুইট ভাল কাগজপত্র তালিকা এবং বিষয় মডেলিং জন্য সংশ্লিষ্ট সোর্স কোড দেখুন quora.com/...
NQD

উত্তর:


7

এটি একটি দেরীতে উত্তর, তবে অন্যান্য সমস্যার জন্য সম্পর্কিত গবেষণা এবং সরঞ্জামগুলি অনুসন্ধান করার ক্ষেত্রে এটি কার্যকর হতে পারে:

  1. কলম্বিয়া থেকে আসা ওয়েইওয়ে গুও সংক্ষিপ্ত-পাঠ্য বিষয় মডেলিংয়ের কোড প্রয়োগ করেছে। তিনি "লেটেন্ট স্পেসে মডেলিং সেন্টেন্টস" ( http://aclweb.org/anological-new/P/P12/P12-1091v2.pdf ) পত্রিকায় প্রয়োগটির বর্ণনা দিয়েছেন এবং কোডটি এখানে পাওয়া যায়: http: // www .cs.columbia.edu / ~ Weiwei / code.html

  2. যদিও এটি টপিক মডেলিং নয়, আপনার যদি পাঠ্যগুলির সংক্ষিপ্ত অংশগুলির সাথে জড়িত কোনও শ্রেণিবিন্যাসের কাজ থাকে তবে আপনি LibShortText ব্যবহার করতে পারেন। তাদের ওয়েব সাইটের বর্ণনা থেকে

"লিবিশোর্টটেক্সট হ'ল সংক্ষিপ্ত-পাঠ্য শ্রেণীবদ্ধকরণ এবং বিশ্লেষণের জন্য একটি মুক্ত উত্স সরঞ্জাম It এটি উদাহরণস্বরূপ, শিরোনাম, প্রশ্ন, বাক্য এবং সংক্ষিপ্ত বার্তাগুলির শ্রেণিবিন্যাস পরিচালনা করতে পারে ..."

http://www.csie.ntu.edu.tw/~cjlin/libshorttext/


6

যদিও আমি তার কাজের সাথে খুব পরিচিত নই, আমি জানি যে জ্যাকব আইজেনস্টাইন টুইটারের ডেটাতে টেক্সট বিশ্লেষণ এবং গ্রাফিক্যাল মডেলগুলিতে কাজ করেছেন। বিশেষত, এই কাগজটি টুইটার ডেটা এবং মাইক্রোব্লাগগুলিতে টপিক মডেলিংয়ের একটি অ্যাপ্লিকেশন বর্ণনা করে।

সম্পাদনা করুন: কাগজটি আরও কিছুটা পড়ার পরে তারা জানায়:

তবে, টুইটারে গড় বার্তাটি কেবলমাত্র ষোল শব্দ টোকেন, যা প্রচলিত বিষয় মডেলিংয়ের পক্ষে খুব কম স্পষ্ট; পরিবর্তে, আমরা প্রদত্ত ব্যবহারকারীর সমস্ত বার্তাগুলি একক নথিতে একত্রিত করেছি।

সুতরাং সম্ভবত যে খুব কাগজ খুব সাহায্য নাও হতে পারে, এখনও অন্যান্য আইজেনস্টাইন প্রকাশনা আপনাকে সঠিক দিকে নিয়ে যেতে পারে।


6

" সংক্ষিপ্ত পাঠ্যের জন্য একটি বিটরম টপিক মডেল " (ডাব্লুডাব্লুডাব্লু 13) নামে একটি সাম্প্রতিক কাগজ এই বিষয়ে কিছুটা অগ্রগতি করেছে এবং তার কোড এখানে দেওয়া হয়েছে


2
আমি নিশ্চিত করি যে বাইটার্ম এলডিএ সংক্ষিপ্ত পাঠ্য উচ্চারণ (3-8 শব্দ) বিষয়ের মডেলিং এবং পরবর্তী শ্রেণিবিন্যাসের জন্য বেশ ভাল কাজ করেছে।
ভ্লাদিস্লাভস ডভগ্লেলেকস
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.