সংক্ষিপ্ত পাঠ্য ক্লাস্টারিংয়ের জন্য একটি ভাল পদ্ধতি কী?

15

আমি একটি পাঠ্য ক্লাস্টারিং সমস্যা নিয়ে কাজ করছি। তথ্যটিতে কয়েকটি বাক্য রয়েছে। একটি ভাল অ্যালগরিদম যা সংক্ষিপ্ত পাঠ্যে উচ্চ নির্ভুলতায় পৌঁছেছে?

আপনি ভাল রেফারেন্স প্রদান করতে পারেন?

কেমিনস, বর্ণালী ক্লাস্টারিংয়ের মতো অ্যালগরিদম এই সমস্যার জন্য ভাল কাজ করে না।

machine-learning clustering text-mining

— user3108764
সূত্র

10

এটি বেশিরভাগ নির্ভর করে আপনি কতটা "অত্যাধুনিক" (SOTA) বনাম আপনি কতটা গভীরভাবে যেতে চান তার উপর নির্ভর করে (পাং উদ্দেশ্যে ...)।

আপনি যদি ওয়ার্ড টুভেক, গ্লোভ বা ফাস্টটেক্সট দ্বারা প্রদত্ত কেবল অগভীর শব্দ এম্বেডিংয়ের সাথে বেঁচে থাকতে পারেন তবে আমার মনে হয় ওয়ার্ড মোভার দূরত্ব (ডাব্লুএমডি [হ্যাঁ, সত্যই ...]) (সংক্ষিপ্ত) নথিটি দূরত্ব পরিমাপ করার জন্য একটি দুর্দান্ত ফাংশন [1] । এমনকি আমি অতীতে বেশ কয়েকটি পাইথন নোটবুকও দেখেছি যা এই দূরত্ব পরিমাপের জন্য "টিউটোরিয়াল" সরবরাহ করে, তাই এটি চালিয়ে যাওয়া সত্যিই সহজ।

যাইহোক, আপনি যদি SOTA এর প্রতি বেশি আগ্রহী হন তবে আপনাকে গভীর (ক্রম উপস্থাপনা) শেখার দিকে নজর রাখতে হবে, আপনার বাক্যগুলি থেকে একধরণের পুনরাবৃত্তি নেটওয়ার্ক ব্যবহার করে যা একটি বিষয় মডেল শিখবে। শব্দের সংমিশ্রণের (শব্দার্থক) সংযোজন ছাড়াও, নির্ভরতাগুলি ব্যবহার করে বিষয়গুলির উপস্থাপনাগুলি শিখিয়ে এই পদ্ধতিগুলি [ভাল, পুরানো] "ব্যাগ-অফ-শব্দের" পদ্ধতির বাইরে চলে যায়বাক্যে শব্দের [গুলি]। উদাহরণস্বরূপ, সেনটেনশন লেভেল রিকারেন্ট টপিক মডেল (এসএলআরটিএম) একটি আরও আকর্ষণীয় গভীর, পুনরাবৃত্তি মডেল যা আরও বেশি etতিহ্যবাহী এলডিএ (ব্লাই এট আল।) বা এলএসএ (ল্যান্ডাওর এট আল।) এর ধারণার উপর ভিত্তি করে, তবে এটি কেবল একটি আরএক্সিভি কাগজ (তাই সমস্ত ডিফল্ট "পিষে-পর্যালোচিত গবেষণা সম্পর্কে" লবনের সাবধানতা অবলম্বন করুন "প্রয়োগ করা উচিত ...) [2]। কোনওটিই কম নয়, কাগজটির কাছে অনেকগুলি চমৎকার পয়েন্টার এবং রেফারেন্স রয়েছে আপনার গবেষণা শুরু করার জন্য যদি আপনি এই খরগোশের গর্তটি নীচে যেতে চান তবে।

পরিশেষে, এটি স্পষ্ট করে বলা উচিত যে আমি দাবি করি না যে এগুলি যথাক্রমে ব্যাগ-অফ-শব্দের এবং সিকোয়েন্স মডেলগুলির জন্য সেরা-সম্পাদনার পদ্ধতিগুলির উপর সম্মত। তবে তাদের "সেরা" সোটা যাই হোক না কেন আপনার কাছে খুব কাছাকাছি হওয়া উচিত এবং কমপক্ষে একটি দুর্দান্ত সূচনা পয়েন্ট হিসাবে পরিবেশন করা উচিত।

[1] ম্যাট জে কুশনার এট আল। ওয়ার্ড এম্বেডিং থেকে ডকুমেন্টের দূরত্ব জেএমএলআর, 2015, মেশিন লার্নিংয়ের 32 তম আন্তর্জাতিক সম্মেলনের কার্যক্রম।

[2] ফি তিয়ান এবং অন্যান্য। এসএলআরটিএম: নিজের জন্য কথা বলার বিষয়গুলি। arXiv 1604.02038, 2016।

— fnl
সূত্র

আমি word2vec চেষ্টা করেছি এবং এটি সংক্ষিপ্ত পাঠ্যের জন্য ভাল করে না।

— উত্সাহ

কেবলমাত্র নিশ্চিত হতে: উপরের আমার উত্তরটি সংক্ষিপ্ত পাঠ্য ক্লাস্টারিংয়ের জন্য word2vec (একা) ব্যবহার করার পরামর্শ দেয় না। বরং এটি ডাব্লুএমডি (এমবেডেড ভেক্টরগুলির ওপরে) এবং / অথবা ডিপ লার্নিং পদ্ধতিগুলি ব্যবহার করার পরামর্শ দেয়। (তবুও, যদি আপনি নিজের ভেক্টরকে প্রশিক্ষণ দিতে পারেন তবে কমপক্ষে একটি "

— কার্যক্ষম

-1

https://github.com/RandyPen/TextCluster
এটি একটি ক্লাস্টার পদ্ধতি যা সংক্ষিপ্ত পাঠ্যের জন্য নির্দিষ্ট, যা কে মিয়েনকে ছাড়িয়ে যায় ইত্যাদি সুপ্ত পরিবর্তনশীল সংখ্যা নির্ধারণ করার প্রয়োজন নেই।
মূল ধারণাটি বাক্যটিকে কথায় টোকানাইজ করা। তারপরে পাঠ্য উপাদান অনুসারে বিভিন্ন বালতিতে সরাসরি। প্রতিটি বালতিতে বাক্য এবং বালতির মধ্যে মিল খুঁজে বের করুন। যদি মিলের স্কোর নির্দিষ্ট মানের চেয়ে বেশি হয় তবে এই বাক্যটি সেই বালতিতে যুক্ত করুন, অন্যথায় পরবর্তী বালতিটি অনুসন্ধান করুন।

মৌলিক

— র্যান্ডি পেন
সূত্র

আপনার উত্তরটি আপনাকে বিস্তারিতভাবে জানাতে হবে। শুধু একটি লিঙ্ক উদ্ধৃত করবেন না।

— মাইকেল আর চেরনিক