পাঠ্য ক্লাস্টারিংয়ের জন্য অ্যালগরিদম


17

আমি তাদের অর্থ দ্বারা গ্রুপে বিরাট পরিমাণে ক্লাস্টার করার একটি সমস্যা আছে। এটি আপনার সমস্যার মতো যখন আপনার প্রচুর বাক্য থাকে এবং তার অর্থ অনুসারে সেগুলি ভাগ করে নিতে চান।

কোন অ্যালগরিদম এটি করার পরামর্শ দেওয়া হয়? আমি আগাম ক্লাস্টারের সংখ্যা জানি না (এবং আরও ডেটা আসার সাথে সাথে ক্লাস্টারগুলিও বদলাতে পারে), প্রতিটি বাক্যকে প্রতিনিধিত্ব করতে সাধারণত কোন বৈশিষ্ট্য ব্যবহার করা হয়?

শব্দের তালিকা এবং বাক্যগুলির মধ্যে দূরত্ব হিসাবে সংজ্ঞায়িত করার সাথে আমি এখন সর্বাধিক বৈশিষ্ট্যগুলি চেষ্টা করছি:

এখানে চিত্র বর্ণনা লিখুন

(A এবং B বাক্যটি A এবং B এর সাথে একই শব্দের সংকলন)

এটা কি আদৌ বোঝায়?

আমি স্কিকিট লাইব্রেরি থেকে এই দূরত্বে মিডস -শিফট অ্যালগরিদম প্রয়োগ করার চেষ্টা করছি , কারণ এটির জন্য আগে থেকে ক্লাস্টারের সংখ্যা প্রয়োজন হয় না।

যদি কেউ সমস্যার জন্য আরও ভাল পদ্ধতি / পদ্ধতির পরামর্শ দেন - তবে আমি বিষয়টিতে এখনও নতুন থাকায় এটি খুব প্রশংসিত হবে।

উত্তর:


13

পরীক্ষা করে দেখুন স্ট্যানফোর্ড NLP গ্রুপ এর ওপেন সোর্স সফটওয়্যার ( http://www-nlp.stanford.edu/software ,) বিশেষ করে, স্ট্যানফোর্ড ক্লাসিফায়ার ( http://www-nlp.stanford.edu/software/classifier.shtml ) । সফ্টওয়্যারটিতে লিখিত রয়েছে Java, যা সম্ভবত আপনাকে আনন্দিত করবে, তবে অন্য কয়েকটি ভাষার জন্য বাইন্ডিং রয়েছে। দ্রষ্টব্য, লাইসেন্সিং - যদি আপনি বাণিজ্যিক কোডগুলিতে তাদের কোড ব্যবহার করার পরিকল্পনা করেন তবে আপনাকে বাণিজ্যিক লাইসেন্স নিতে হবে।

ওপেন সোর্স লাইব্রেরির আর একটি আকর্ষণীয় সেট, এই কাজের জন্য উপযুক্ত আইএমএইচও এবং আরও অনেক কিছু, মেশিন লার্নিংয়ের জন্য সমান্তরাল কাঠামো গ্রাফল্যাব ( http://select.cs.cmu.edu/code/ographiclab ), যেখানে বিভিন্ন ক্লাস্টারিং প্রয়োগ করে ক্লাস্টারিং লাইব্রেরি অন্তর্ভুক্ত রয়েছে includes অ্যালগরিদম ( http://select.cs.cmu.edu/code/ographiclab/clustering.html )। এটি বিশেষত খুব বড় আকারের ডেটা (যেমন আপনার কাছে রয়েছে) জন্য উপযুক্ত, কারণ এটি MapReduceমডেল প্রয়োগ করে এবং এইভাবে, মাল্টিকোর এবং মাল্টিপ্রসেসর সমান্তরাল প্রক্রিয়াকরণকে সমর্থন করে ।

আপনি নিম্নলিখিতগুলি সম্পর্কে সম্ভবত অবগত আছেন তবে আমি কেবল এটির ক্ষেত্রে উল্লেখ করব। ( Http://www.nltk.org ) এর জন্য প্রাকৃতিক ভাষা টুলকিট (এনএলটিকে) ক্লাস্টারিং / শ্রেণিবদ্ধকরণ / শ্রেণিবদ্ধ পাঠ্যের মডিউল ধারণ করে ules সম্পর্কিত অধ্যায়ে পরীক্ষা করুন : http://www.nltk.org/book/ch06.htmlPythonNLTK Book

হালনাগাদ:

অ্যালগরিদমের কথা বললে , মনে হয় আপনি বেশিরভাগের থেকে চেষ্টা করেছেন scikit-learn, যেমন এই বিষয়ের প্রত্যয় উদাহরণে চিত্রিত: http://scikit-learn.org/stable/auto_exferences/applications/topics_extration_with_nmf.html । তবে, আপনি দরকারী অন্যান্য গ্রন্থাগার সন্ধান করতে পারেন যা নন-নেগেটিভ ম্যাট্রিক্স ফ্যাক্টরাইজেশন (এনএমএফ) সহ বিভিন্ন ধরণের ক্লাস্টারিং অ্যালগোরিদমগুলি প্রয়োগ করে । এর মধ্যে একটি লাইব্রেরি হ'ল পাইথন ম্যাট্রিক্স ফ্যাক্টরাইজেশন (পাইএমএফ) হোম পেজ সহ https://code.google.com/p/pymf এবং সোর্স কোড https://github.com/nils-werner/pymf এ । আর একটি, আরও আকর্ষণীয়, পাঠাগার, পাইথন ভিত্তিক, নিমফা, যা বিভিন্ন এনএমএফ অ্যালগরিদমগুলি প্রয়োগ করে : http://nimfa.biolab.si । এখানে একটি গবেষণা পত্র রয়েছে যা বর্ণনা করছে NIMFA: http://jmlr.org/papers/volume13/zitnik12a/zitnik12a.pdf । এখানে এর ডকুমেন্টেশন থেকে একটি উদাহরণ দেওয়া হয়েছে, যা বিষয় ক্লাস্টারিংয়ের খুব অনুরূপ পাঠ্য প্রক্রিয়াজাতকরণ সমস্যার সমাধান উপস্থাপন করে : http://nimfa.biolab.si/nimfa.exferences.documents.html


1
এই জাতীয় প্রতিক্রিয়ার জন্য অনেক ধন্যবাদ। আমি আপনার সমস্ত পরামর্শ দিয়ে যাব, চেষ্টা এবং পরীক্ষার জন্য অনেক কাজ! এছাড়াও আমি দেখতে পেয়েছি যে ক্যারোট 2 সরঞ্জামটি পাঠ্যগত ডেটা অপ্রচলিত ক্লাস্টারিংয়ে সত্যিই দুর্দান্ত কাজ করছে। ভবিষ্যতের রেফারেন্সের জন্য লিঙ্ক পোস্ট করা http://project.carrot2.org/
ম্যাক্সিম গালুশকা

@ ম্যাক্সিম গালুশকা: আপনাকে স্বাগতম! আমি আপনার অনুসন্ধান এবং আপনি শেষ পর্যন্ত অর্জন করবে যে অগ্রগতি সম্পর্কে জানতে আগ্রহী। এখানে পোস্ট করতে নির্দ্বিধায় বা আমার সাথে সরাসরি সংযোগ করুন।
আলেকসান্দ্র ব্লেক
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.