টপিক মডেলিং / এলডিএ সম্পাদনের জন্য আর প্যাকেজ: কেবলমাত্র টপিক মডেলস এবং `এলডিএ [বন্ধ]


29

আমার কাছে মনে হয় যে কেবল দুটি আর প্যাকেজই প্রচ্ছন্ন ডিরিচলেট বরাদ্দ সম্পাদন করতে সক্ষম :

একটি lda, জোনাথন চ্যাং রচিত; এবং অন্যটি topicmodelsলিখেছেন বেতিনা গ্রান এবং কার্ট হর্নিক।

কর্মক্ষমতা, প্রয়োগের বিবরণ এবং এক্সটেনসিবিলিটির দিক থেকে এই দুটি প্যাকেজের মধ্যে পার্থক্য কী?

উত্তর:


26

বাস্তবায়ন: টপিকমোডেলস প্যাকেজটি ব্লি এট আল দ্বারা টপিক মডেলগুলির জন্য জিএসএল সি এবং সি ++ কোডকে একটি ইন্টারফেস সরবরাহ করে। এবং ফান ইত্যাদি। আগেরটির জন্য এটি ভেরিয়েশনাল ইএম ব্যবহার করে, পরের গিবস স্যাম্পলিংয়ের জন্য। Http://www.jstatsoft.org/v40/i13/paper দেখুন । প্যাকেজটি টিএম প্যাকেজ থেকে ইউটিলিটিগুলির সাথে ভালভাবে কাজ করে।

এলডিএ প্যাকেজটি জিএসএল লাইব্রেরির অনুরূপ বেশ কয়েকটি মডেলের জন্য একটি ধসে পড়া গীবস স্যাম্পলার ব্যবহার করে। তবে এটি প্যাকেজ লেখকরা নিজেই প্রয়োগ করেছেন, ব্লি এট আল দ্বারা নয়। এই বাস্তবায়ন তাই এই মডেল রূপগুলি প্রবর্তন করে মূল কাগজপত্রগুলিতে প্রস্তাবিত অনুমানের কৌশল থেকে সাধারণভাবে পৃথক হয় যেখানে ভিইএম অ্যালগরিদম সাধারণত প্রয়োগ করা হয়। অন্যদিকে, প্যাকেজটি অন্য প্যাকেজের পরে আরও কার্যকারিতা সরবরাহ করে। প্যাকেজটি পাঠ্য খনির কার্যকারিতাও সরবরাহ করে।

এক্সটেনসিবিলিটি: এক্সটেনসিবিলিটি সম্পর্কে, টপমোডেল কোডটি তার প্রকৃতিগতভাবে সি এবং সি ++ তে লিখিত অন্য বিষয় মডেল কোডটিকে ইন্টারফেসে বাড়ানো যেতে পারে। এলডিএ প্যাকেজটি লেখকদের দ্বারা প্রদত্ত নির্দিষ্ট প্রয়োগের উপর বেশি নির্ভর করছে বলে মনে হয়, তবে সেখানে গীবস স্যাম্পলার আপনার নিজস্ব বিষয় মডেল নির্দিষ্ট করার অনুমতি দিতে পারে। এক্সটেনসিবিলিটি ইস্যুগুলির পক্ষে, প্রাক্তনটি জিপিএল -২ এবং পরবর্তী এলজিপিএল এর অধীনে লাইসেন্স পেয়েছে, সুতরাং এটি আপনার প্রসারিত করার জন্য তার উপর নির্ভর করে (জিপিএল -২ উন্মুক্ত উত্সের দিকটি সম্পর্কে কঠোরতর, অর্থাত আপনি এটি ব্যবহার করতে পারবেন না) মালিকানা সফ্টওয়্যার মধ্যে)।

পারফরম্যান্স: আমি আপনাকে এখানে সহায়তা করতে পারি না, আমি এখন পর্যন্ত কেবলমাত্র টপিক মডেলগুলি ব্যবহার করেছি।

উপসংহার:
ব্যক্তিগতভাবে আমি এটি ব্যবহার করি topicmodels, কারণ এটি যথাযথভাবে নথিভুক্ত হয়েছে (উপরের জেএসএস কাগজটি দেখুন) এবং আমি লেখকদের বিশ্বাস করি (গ্রানও ফ্লেক্সমিক্স প্রয়োগ করেছেন এবং হর্নিক আর মূল সদস্য)।


7
প্রথমত, আমি নিশ্চিত যে টপিকমোডেলগুলি একটি দুর্দান্ত প্যাকেজ, এবং আমি সম্মত হই যে এটি খুব ভাল নথিভুক্ত। এলডিএ প্যাকেজের লেখকদের "বিশ্বাস" করার বিষয়ে, জোনাথন চ্যাং আমার পিএইচডি শিক্ষার্থী, এবং আমি তার কোডকে পুরোপুরি বিশ্বাস করি। তিনি উভয়ই একজন দুর্দান্ত সফটওয়্যার ইঞ্জিনিয়ার এবং পণ্ডিত। তার প্যাকেজটি সহজ, মোটামুটি বড় সংগ্রহের পক্ষে ভাল পরিমাণে স্কেল করে এবং আর এর ফলাফলগুলি অন্বেষণ করে খুব ভাল লাগে I বিষয়গুলির মডেলগুলি, তদারকি করা এলডিএ (জিএলএম সহ), এবং মিশ্র-সদস্যতার স্টোকাস্টিক ব্লক মডেল

ওজন করার জন্য ধন্যবাদ। আমি নিশ্চিত যে ldaপ্যাকেজটি দুর্দান্ত ldaimp আমি আমার ব্যক্তিগত ধারণাটি প্রকাশ করেছিলাম (ডকুমেন্টেশনটি কিছুটা opড়ুড়িভাবে হাজির হয়েছিল)। যেহেতু এটি ছিল> 2 বছর আগে আমি উত্তরটি সামান্য সম্পাদনা করেছি (CRAN পৃষ্ঠায় টাইপসগুলি এখনও রয়েছে, আমি মনে করি তাদের পক্ষে এটি ঠিক করা ভাল তবে এটি ইমেলটি হারিয়ে গেছে বলে মনে হয়)।
মোমো

আমার ধারণা, উভয় প্যাকেজ নিয়ে আপনার প্রচুর অভিজ্ঞতা আছে এবং সাধারণ বিষয় সম্পর্কে আপনি বেশিরভাগই জানেন, উভয় প্যাকেজের কিছু উপকারিতা এবং উত্তর তালিকাভুক্ত উত্তর সরবরাহ সম্পর্কে কীভাবে? আমি ব্যবহার করিনি lda, তাই আমি এটির অভিজ্ঞতাগত মূল্যায়ন দিতে পারি না। এটি সরবরাহ করা অবশ্যই ওপি এবং অন্য সকলকে সহায়তা করবে পাশাপাশি সম্ভাব্য যেকোন অনাচারকে সংশোধন করবে (যা উদ্দেশ্য ছিল না)। ধন্যবাদ!
মোমো

1
আমি উভয়ই চেষ্টা করে দেখেছি এবং ldaআরও বিকল্প থাকতে প্যাকেজটি পেয়েছি । যাইহোক, আপনার ডেটা মডেলটির সাথে ফিট করার জন্য এটি কীভাবে ফর্ম্যাট করবেন তা বোঝা মুশকিল। topicmodelsপ্যাকেজের সাথে ভাল কাজ tmপ্যাকেজ, যখন ldaপ্যাকেজ একটি তালিকা যা স্পষ্ট নয় তৈরি করতে কিভাবে অনুরোধ করেছে।
Omri374

12

টপিক মডেলগুলির জন্য +1 । @ মোমোর উত্তরটি খুব ব্যাপক। আমি কেবল যুক্ত করব যা topicmodelsডকুমেন্ট টার্ম ম্যাট্রিক্স হিসাবে ইনপুট নেয়, যা সহজেই tmপ্যাকেজটির সাথে তৈরি হয় বা পাইথন ব্যবহার করে। ldaপ্যাকেজ আরো একটি গূঢ় ইনপুটের ফর্ম (Blei এর Lda বিভাগ-সি উপর ভিত্তি করে) ব্যবহার করে এবং আমি ব্যবহার কোন ভাগ্য ছিল বিল্ট-ইন রূপান্তর DTM ফাংশন ldaপ্যাকেজ ফরম্যাট (LDA ডকুমেন্টেশন মম নোট হিসাবে, খুব দরিদ্র)।

আমার কিছু কোড রয়েছে যা কাঁচা পাঠ্য দিয়ে শুরু হয়, এটি প্রাক-প্রসেস করে tmএবং এটি রেখে দেয় topicmodels(অগ্রিমের ক্ষেত্রে সর্বোত্তম সংখ্যার সন্ধান এবং আউটপুট নিয়ে কাজ করা সহ) এখানেtopicmodelsপ্রথমবারের মতো আসা কারও পক্ষে দরকারী হতে পারে ।


3
ঐ ইতিমধ্যে ব্যবহার না করার জন্য TM , এবং সাথে খেলতে অনুপস্থিত LDA , JFreq এছাড়াও Lda বিভাগ-সি পছন্দের ফরম্যাটে প্লেইন গ্রন্থে রাখে।
কনজুগেটপায়ার

জেফ্রেক সম্পর্কে জানা ভাল, আমি এটি আগে দেখিনি। ভকভগক!
বেন

1
আমি কেবল প্যাকেজে read_dtm_Blei_et_alফাংশনটি স্পষ্ট করেছি tmযা একই জিনিসটি করে।
বেন

3

মলি রবার্টস, ব্র্যান্ডন স্টুয়ার্ট এবং ডাস্টিন টিংলেয়ের আর স্ট্রাকচারাল টপিক মডেল (এসটিএম) প্যাকেজটিও দুর্দান্ত পছন্দ। টিএম প্যাকেজের শীর্ষে নির্মিত এটি ডকুমেন্ট-স্তরীয় কোভারিয়েট তথ্য সহ টপ মডেলিংয়ের জন্য একটি সাধারণ কাঠামো।

http://structuraltopicmodel.com/

এসটিএম প্যাকেজটিতে বিষয়ের সংখ্যা নির্ধারণের জন্য পদ্ধতিগুলির একটি সিরিজ (গ্রিড অনুসন্ধান) এবং পদক্ষেপগুলি (শব্দার্থক সংহতি, অবশিষ্টাংশ এবং এক্সক্লুসিভিটি) অন্তর্ভুক্ত রয়েছে। টপিকের সংখ্যা 0-এ সেট করা মডেলকে বিষয়গুলির সর্বোত্তম সংখ্যা নির্ধারণ করতে দেয়।

বিষয়গুলিতে বাহ্যিক ভেরিয়েবলের প্রভাব কল্পনা করার জন্য স্টেমব্রোজার প্যাকেজটি একটি দুর্দান্ত ডেটা ভিজ্যুয়ালাইজেশন পরিপূরক। ২০১ presidential সালের রাষ্ট্রপতি বিতর্ক সম্পর্কিত এই উদাহরণটি দেখুন: http://alexperrier.github.io/stm-visualization/index.html


0

আমি তিনটি লাইব্রেরি ব্যবহার করেছিলাম, যেমন 3 টি, টপমোডালস, এলডিএ, এসটিএম; সবাই এন গ্রাম দিয়ে কাজ করে না। টপিক মডেলস লাইব্রেরিটি এটির অনুমানের সাথে ভাল এবং এটি এন গ্রাম দিয়েও কাজ করে। তবে যদি কেউ ইউনি ইউনিট নিয়ে কাজ করে থাকে তবে স্ট্রাকচার্ড আউটপুট দেয় বলে অনুশীলনকারী স্টেম পছন্দ করতে পারেন।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.