আমার হাতে নিচের সমস্যাটি রয়েছে: আমার কাছে শব্দের একটি খুব দীর্ঘ তালিকা রয়েছে, সম্ভবত নাম, উপাধি ইত্যাদি রয়েছে আমার এই শব্দ তালিকার ক্লাস্টার করা দরকার, অনুরূপ শব্দগুলি উদাহরণস্বরূপ অনুরূপ সম্পাদনা (লেভেনস্টাইন) দূরত্বযুক্ত শব্দগুলির মধ্যে প্রদর্শিত হয় একই ক্লাস্টার উদাহরণস্বরূপ "অ্যালগরিদম" এবং "অ্যালগরিদম" একই ক্লাস্টারে উপস্থিত হওয়ার উচ্চ সম্ভাবনা থাকা উচিত।
আমি প্যাটার্ন রিকগনিশন সাহিত্যে ক্লাসিকাল আন-সার্ভিস ক্লাস্টারিং পদ্ধতিগুলি যেমন কে-মানে ক্লাস্টারিং, ইএম ক্লাস্টারিংয়ের বিষয়ে ভালভাবে অবগত। এখানে সমস্যা হ'ল এই পদ্ধতিগুলি পয়েন্টগুলিতে কাজ করে যা কোনও ভেক্টর স্পেসে থাকে। আমার হাতে এখানে স্ট্রিংয়ের শব্দ রয়েছে। আমার জরিপের প্রয়াস অনুসারে, এখনও মনে হচ্ছে যে কীভাবে একটি সংখ্যক ভেক্টর স্পেসে স্ট্রিংগুলি উপস্থাপন করতে হবে এবং স্ট্রিং ক্লাস্টারের "অর্থ" গণনা করা হবে তার প্রশ্নের যথেষ্ট উত্তর দেওয়া যায় না। এই সমস্যাটিকে আক্রমণ করার জন্য একটি নির্বোধ দৃষ্টিভঙ্গি লেভেনস্টাইন দূরত্বের সাথে ক্লাস্টারিং কে-মিনসকে একত্রিত করা হবে, তবে এখনও প্রশ্নটি "স্ট্রিংগুলির" মানে "কীভাবে উপস্থাপন করবেন?"। টিএফ-আইডিএফ ওজন হিসাবে পরিচিত একটি ওজন রয়েছে, তবে মনে হয় এটি বেশিরভাগ ক্ষেত্রে "টেক্সট ডকুমেন্ট" ক্লাস্টারিংয়ের সাথে সম্পর্কিত, একক শব্দের গুচ্ছায় নয়। http://pike.psu.edu/cleandb06/papers/CameraReady_120.pdf
এই অঞ্চলে আমার অনুসন্ধান এখনও চলছে, তবে আমি এখান থেকেও ধারণা পেতে চাই। এই ক্ষেত্রে আপনি কি সুপারিশ করবেন, কেউ কি এই জাতীয় সমস্যার জন্য কোনও পদ্ধতি সম্পর্কে অবগত আছেন?
It seems that there are some special string clustering algorithms
। আপনি যদি পরিসংখ্যান / ডেটা বিশ্লেষণ নয়, নির্দিষ্টভাবে পাঠ্য-খনির ক্ষেত্র থেকে এসে থাকেন তবে এই বিবৃতিটি নিশ্চিত করা হয়েছে। তবে, আপনি যদি ক্লাস্টারিং শাখাটি শিখেন তবে এটি দেখতে পাবেন যে স্ট্রিং ডেটার জন্য কোনও "বিশেষ" অ্যালগরিদম নেই। "বিশেষ" হ'ল আপনি কোনও ক্লাস্টার বিশ্লেষণে ইনপুট করার আগে আপনি কীভাবে এই জাতীয় ডেটা প্রাক-প্রক্রিয়াজাত করেন।