সংক্ষিপ্ত নথিগুলির জন্য বিষয়গুলির মডেল

14

এই প্রশ্নের দ্বারা অনুপ্রাণিত হয়ে আমি ভাবছি যে খুব ছোট সংক্ষিপ্ত পাঠগুলির বৃহত সংগ্রহের জন্য টপিক মডেলগুলিতে কোনও কাজ করা হয়েছে কিনা। আমার স্বজ্ঞাততা হ'ল এই জাতীয় মডেলগুলির জন্য টুইটারের একটি প্রাকৃতিক অনুপ্রেরণা হওয়া উচিত। তবে কিছু সীমিত পরীক্ষা-নিরীক্ষার থেকে দেখে মনে হচ্ছে স্ট্যান্ডার্ড টপিক মডেলগুলি (এলডিএ ইত্যাদি) এই জাতীয় ডেটাতে বেশ খারাপভাবে পারফর্ম করে।

এই অঞ্চলে যে কাজ করা হয়েছে সেখানকার কেউ কি জানেন? এই কাগজটি টুইটারে এলডিএ প্রয়োগের বিষয়ে কথা বলেছে, তবে সংক্ষিপ্ত-দস্তাবেজের প্রসঙ্গে আরও ভাল সম্পাদন করা এমন অন্যান্য অ্যালগরিদম রয়েছে কিনা তা সম্পর্কে আমি সত্যিই আগ্রহী।

— মার্টিন ও'লিয়ারি
সূত্র

2

টুইটারটি কেবলমাত্র 'নথিগুলির' আকারের কারণে নয়, তবে পাঠ্যের ধরণের কারণেও টপিক মডেলিংয়ের জন্য একটি বিশেষভাবে কঠিন ডেটাসেট। লোকেরা বিভিন্ন টেক্সটিং শর্টহ্যান্ডগুলি ব্যবহার করে যা সহ-উপস্থিতিগুলি সনাক্তকরণ আরও জটিল করে তোলে।

— নিক

: এ টুইট ভাল কাগজপত্র তালিকা এবং বিষয় মডেলিং জন্য সংশ্লিষ্ট সোর্স কোড দেখুন quora.com/...

— NQD

7

এটি একটি দেরীতে উত্তর, তবে অন্যান্য সমস্যার জন্য সম্পর্কিত গবেষণা এবং সরঞ্জামগুলি অনুসন্ধান করার ক্ষেত্রে এটি কার্যকর হতে পারে:

কলম্বিয়া থেকে আসা ওয়েইওয়ে গুও সংক্ষিপ্ত-পাঠ্য বিষয় মডেলিংয়ের কোড প্রয়োগ করেছে। তিনি "লেটেন্ট স্পেসে মডেলিং সেন্টেন্টস" ( http://aclweb.org/anological-new/P/P12/P12-1091v2.pdf ) পত্রিকায় প্রয়োগটির বর্ণনা দিয়েছেন এবং কোডটি এখানে পাওয়া যায়: http: // www .cs.columbia.edu / ~ Weiwei / code.html
যদিও এটি টপিক মডেলিং নয়, আপনার যদি পাঠ্যগুলির সংক্ষিপ্ত অংশগুলির সাথে জড়িত কোনও শ্রেণিবিন্যাসের কাজ থাকে তবে আপনি LibShortText ব্যবহার করতে পারেন। তাদের ওয়েব সাইটের বর্ণনা থেকে

"লিবিশোর্টটেক্সট হ'ল সংক্ষিপ্ত-পাঠ্য শ্রেণীবদ্ধকরণ এবং বিশ্লেষণের জন্য একটি মুক্ত উত্স সরঞ্জাম It এটি উদাহরণস্বরূপ, শিরোনাম, প্রশ্ন, বাক্য এবং সংক্ষিপ্ত বার্তাগুলির শ্রেণিবিন্যাস পরিচালনা করতে পারে ..."

http://www.csie.ntu.edu.tw/~cjlin/libshorttext/

— ডিপিএস
সূত্র

6

যদিও আমি তার কাজের সাথে খুব পরিচিত নই, আমি জানি যে জ্যাকব আইজেনস্টাইন টুইটারের ডেটাতে টেক্সট বিশ্লেষণ এবং গ্রাফিক্যাল মডেলগুলিতে কাজ করেছেন। বিশেষত, এই কাগজটি টুইটার ডেটা এবং মাইক্রোব্লাগগুলিতে টপিক মডেলিংয়ের একটি অ্যাপ্লিকেশন বর্ণনা করে।

সম্পাদনা করুন: কাগজটি আরও কিছুটা পড়ার পরে তারা জানায়:

তবে, টুইটারে গড় বার্তাটি কেবলমাত্র ষোল শব্দ টোকেন, যা প্রচলিত বিষয় মডেলিংয়ের পক্ষে খুব কম স্পষ্ট; পরিবর্তে, আমরা প্রদত্ত ব্যবহারকারীর সমস্ত বার্তাগুলি একক নথিতে একত্রিত করেছি।

সুতরাং সম্ভবত যে খুব কাগজ খুব সাহায্য নাও হতে পারে, এখনও অন্যান্য আইজেনস্টাইন প্রকাশনা আপনাকে সঠিক দিকে নিয়ে যেতে পারে।

— Junier
সূত্র

6

" সংক্ষিপ্ত পাঠ্যের জন্য একটি বিটরম টপিক মডেল " (ডাব্লুডাব্লুডাব্লু 13) নামে একটি সাম্প্রতিক কাগজ এই বিষয়ে কিছুটা অগ্রগতি করেছে এবং তার কোড এখানে দেওয়া হয়েছে

— জিয়াওহুই ইয়ান
সূত্র

2

আমি নিশ্চিত করি যে বাইটার্ম এলডিএ সংক্ষিপ্ত পাঠ্য উচ্চারণ (3-8 শব্দ) বিষয়ের মডেলিং এবং পরবর্তী শ্রেণিবিন্যাসের জন্য বেশ ভাল কাজ করেছে।

— ভ্লাদিস্লাভস ডভগ্লেলেকস