পাঠ্য প্রক্রিয়াকরণে ক্লাস্টারিং ব্যবহার করা

11

হাই, ডেটা সায়েন্স স্ট্যাকের মধ্যে এটি আমার প্রথম প্রশ্ন। আমি পাঠ্য শ্রেণিবিন্যাসের জন্য একটি অ্যালগরিদম তৈরি করতে চাই। ধরুন আমার কাছে টেক্সট এবং নিবন্ধগুলির একটি বিশাল সেট রয়েছে। প্রায় 5000 টি সরল পাঠ্য বলি। চারটি এবং উপরের অক্ষরের শব্দের ফ্রিকোয়েন্সি নির্ধারণ করতে আমি প্রথমে একটি সাধারণ ফাংশন ব্যবহার করি। আমি তখন প্রতিটি প্রশিক্ষণের নমুনার বৈশিষ্ট্য হিসাবে এটি ব্যবহার করি। এখন আমি চাই আমার অ্যালগরিদম তাদের বৈশিষ্ট্য অনুসারে প্রশিক্ষণ সেটগুলিকে ক্লাস্টার করতে সক্ষম হবে যা এখানে নিবন্ধের প্রতিটি শব্দের ফ্রিকোয়েন্সি is (নোট করুন যে এই উদাহরণে, প্রতিটি নিবন্ধের নিজস্ব অনন্য বৈশিষ্ট্য থাকবে কারণ প্রতিটি নিবন্ধের আলাদা বৈশিষ্ট্য রয়েছে, উদাহরণস্বরূপ একটি নিবন্ধে 10 "জল এবং 23" খাঁটি "এবং অন্যটিতে 8" রাজনীতি "এবং 14" লিভারেজ "রয়েছে)। আপনি কি এই উদাহরণের জন্য সেরা সম্ভাব্য ক্লাস্টারিং অ্যালগোরিদমকে পরামর্শ দিতে পারেন?

text-mining clustering

— রশিদ
সূত্র

5

আপনি কখনও টেড পেডারসন দ্বারা সেন্সাসক্লাস্টার পড়েছেন কিনা আমি জানি না: http://senseclusters.sourceforge.net/ । সেন্স ক্লাস্টারিংয়ের জন্য খুব ভাল কাগজ।

এছাড়াও, যখন আপনি শব্দের বিশ্লেষণ করেন, তখন মনে করুন যে "কম্পিউটার", "কম্পিউটার", "কম্পিউটারিং", ... একটি ধারণা উপস্থাপন করে, তাই কেবল একটি বৈশিষ্ট্য। সঠিক বিশ্লেষণের জন্য খুব গুরুত্বপূর্ণ।

ক্লাস্টারিং অ্যালগরিদম সম্পর্কে কথা বলতে, আপনি একটি শ্রেণিবিন্যাস ক্লাস্টারিং ব্যবহার করতে পারেন । আলগো প্রতিটি পদক্ষেপে, আপনি তাদের বৈশিষ্ট্য অনুসারে 2 সর্বাধিক অনুরূপ পাঠ্যগুলিকে একত্রিত করেন (উদাহরণস্বরূপ ইউক্যালিডিয়ান দূরত্ব ব্যবহার করে)। ভিন্নতার এই পরিমাপের সাথে আপনি সেরা ক্লাস্টারগুলি খুঁজে পেতে সক্ষম হবেন এবং তাই আপনার পাঠ এবং নিবন্ধগুলির জন্য সেরা ক্লাস্টারিং।

শুভকামনা :)

— জেসি আর
সূত্র

6

আপনি যদি আপনার বিদ্যমান পথে অগ্রসর হতে চান তবে আমি প্রতিটি পদটির ফ্রিকোয়েন্সিটিকে পুরো কর্পাসে জনপ্রিয়তার দ্বারা স্বাভাবিক করার পরামর্শ দিচ্ছি, তাই বিরল এবং তাই ভবিষ্যদ্বাণীমূলক শব্দ প্রচার করা হয় are তারপরে এগুলি খুব দীর্ঘ ভেক্টরের মাত্রিকতা হ্রাস করতে এলোমেলো অনুমানগুলি ব্যবহার করুন যাতে আপনার ক্লাস্টারিং অ্যালগোরিদম আরও ভাল কাজ করতে পারে (আপনি উচ্চ মাত্রিক জায়গাগুলিতে গুচ্ছ করতে চান না)।

তবে টপিক মডেলিংয়ের অন্যান্য উপায় রয়েছে। আরও জানতে এই টিউটোরিয়ালটি পড়ুন ।

— Emre
সূত্র

2

এটি সেরা হিসাবে বলতে পারি না তবে ল্যাটেন্ট সিমেটিক বিশ্লেষণ একটি বিকল্প হতে পারে। মূলত এটি সহ-ঘটনার উপর ভিত্তি করে, আপনাকে প্রথমে এটি ওজন করা দরকার।

http://en.wikipedia.org/wiki/Latent_semantic_analysis

http://lsa.colorado.edu/papers/dp1.LSAintro.pdf

সমস্যাটি হ'ল এলএসএর দৃ stat় পরিসংখ্যান সমর্থন নেই।

আনন্দ কর

— চেন গুও
সূত্র

0

পাঠ্যকে শ্রেণিবদ্ধ করার একটি উপায় হচ্ছে টার্ম ফ্রিকোয়েন্সি এবং বিপরীত নথি ফ্রিকোয়েন্সি গণনা করা। আপনি এই কাগজটি উল্লেখ করতে পারেন: http://www.oracle.com/technetwork/testcontent/feature-preparation-130942.pdf

— রাজন কুমার খারেল
সূত্র