পরীক্ষা করে দেখুন স্ট্যানফোর্ড NLP গ্রুপ এর ওপেন সোর্স সফটওয়্যার ( http://www-nlp.stanford.edu/software ,) বিশেষ করে, স্ট্যানফোর্ড ক্লাসিফায়ার ( http://www-nlp.stanford.edu/software/classifier.shtml ) । সফ্টওয়্যারটিতে লিখিত রয়েছে Java
, যা সম্ভবত আপনাকে আনন্দিত করবে, তবে অন্য কয়েকটি ভাষার জন্য বাইন্ডিং রয়েছে। দ্রষ্টব্য, লাইসেন্সিং - যদি আপনি বাণিজ্যিক কোডগুলিতে তাদের কোড ব্যবহার করার পরিকল্পনা করেন তবে আপনাকে বাণিজ্যিক লাইসেন্স নিতে হবে।
ওপেন সোর্স লাইব্রেরির আর একটি আকর্ষণীয় সেট, এই কাজের জন্য উপযুক্ত আইএমএইচও এবং আরও অনেক কিছু, মেশিন লার্নিংয়ের জন্য সমান্তরাল কাঠামো গ্রাফল্যাব ( http://select.cs.cmu.edu/code/ographiclab ), যেখানে বিভিন্ন ক্লাস্টারিং প্রয়োগ করে ক্লাস্টারিং লাইব্রেরি অন্তর্ভুক্ত রয়েছে includes অ্যালগরিদম ( http://select.cs.cmu.edu/code/ographiclab/clustering.html )। এটি বিশেষত খুব বড় আকারের ডেটা (যেমন আপনার কাছে রয়েছে) জন্য উপযুক্ত, কারণ এটি MapReduce
মডেল প্রয়োগ করে এবং এইভাবে, মাল্টিকোর এবং মাল্টিপ্রসেসর সমান্তরাল প্রক্রিয়াকরণকে সমর্থন করে ।
আপনি নিম্নলিখিতগুলি সম্পর্কে সম্ভবত অবগত আছেন তবে আমি কেবল এটির ক্ষেত্রে উল্লেখ করব। ( Http://www.nltk.org ) এর জন্য প্রাকৃতিক ভাষা টুলকিট (এনএলটিকে) ক্লাস্টারিং / শ্রেণিবদ্ধকরণ / শ্রেণিবদ্ধ পাঠ্যের মডিউল ধারণ করে ules সম্পর্কিত অধ্যায়ে পরীক্ষা করুন : http://www.nltk.org/book/ch06.html ।Python
NLTK Book
হালনাগাদ:
অ্যালগরিদমের কথা বললে , মনে হয় আপনি বেশিরভাগের থেকে চেষ্টা করেছেন scikit-learn
, যেমন এই বিষয়ের প্রত্যয় উদাহরণে চিত্রিত: http://scikit-learn.org/stable/auto_exferences/applications/topics_extration_with_nmf.html । তবে, আপনি দরকারী অন্যান্য গ্রন্থাগার সন্ধান করতে পারেন যা নন-নেগেটিভ ম্যাট্রিক্স ফ্যাক্টরাইজেশন (এনএমএফ) সহ বিভিন্ন ধরণের ক্লাস্টারিং অ্যালগোরিদমগুলি প্রয়োগ করে । এর মধ্যে একটি লাইব্রেরি হ'ল পাইথন ম্যাট্রিক্স ফ্যাক্টরাইজেশন (পাইএমএফ) হোম পেজ সহ https://code.google.com/p/pymf এবং সোর্স কোড https://github.com/nils-werner/pymf এ । আর একটি, আরও আকর্ষণীয়, পাঠাগার, পাইথন ভিত্তিক, নিমফা, যা বিভিন্ন এনএমএফ অ্যালগরিদমগুলি প্রয়োগ করে : http://nimfa.biolab.si । এখানে একটি গবেষণা পত্র রয়েছে যা বর্ণনা করছে NIMFA
: http://jmlr.org/papers/volume13/zitnik12a/zitnik12a.pdf । এখানে এর ডকুমেন্টেশন থেকে একটি উদাহরণ দেওয়া হয়েছে, যা বিষয় ক্লাস্টারিংয়ের খুব অনুরূপ পাঠ্য প্রক্রিয়াজাতকরণ সমস্যার সমাধান উপস্থাপন করে : http://nimfa.biolab.si/nimfa.exferences.documents.html ।