প্রশ্ন: একটি ডিরিচলেট প্রক্রিয়া ব্যবহার করে ক্লাস্টার ডেটার মানক উপায় কী?
গিবস ব্যবহার করার সময় নমুনা দেওয়ার সময় ক্লাস্টার উপস্থিত হয় এবং স্যাম্পলিংয়ের সময় অদৃশ্য হয়ে যায়। তদুপরি, উত্তরোত্তর বিতরণ ক্লাস্টার রিলেবিলিংয়ের জন্য অচলতর হওয়ায় আমাদের একটি সনাক্তকরণের সমস্যা রয়েছে। সুতরাং, আমরা বলতে পারি না যে কোন ব্যবহারকারীর ক্লাস্টার আসলে এটির পরিবর্তে দুটি ব্যবহারকারী একই ক্লাস্টারে রয়েছে (এটি )।
আমরা কি ক্লাস অ্যাসাইনমেন্টগুলি সংক্ষিপ্ত করতে পারি যাতে, যদি পয়েন্ট এর ক্লাস্টার অ্যাসাইনমেন্ট হয় তবে আমরা এখন কেবল সেই নই যে ?
এই বিকল্পগুলি আমি খুঁজে পেয়েছি এবং কেন আমি মনে করি সেগুলি অসম্পূর্ণ বা বিপথগামী।
(1) ডিপি-জিএমএম + গীবস নমুনা + জোড়া-ভিত্তিক কনফিউশন ম্যাট্রিক্স
একটি ক্লাস্টারিংয়ের জন্য একটি ডিরিচলেট প্রক্রিয়া গাউসিয়ান মিশ্রণ মডেল (ডিপি-জিএমএম) ব্যবহার করার জন্য আমি এই কাগজটি প্রয়োগ করেছি যেখানে লেখকরা গীবস স্যাম্পলিং ব্যবহার করে ঘনত্বের অনুমানের জন্য কোনও ডিপি-জিএমএমের প্রস্তাব দেন ।
ক্লাস্টারিং কার্য সম্পাদন করতে, তারা বলে:
যেহেতু উপাদানগুলির সংখ্যা [এমসিএমসি] শৃঙ্খলার উপর পরিবর্তিত হয়, তাই একটির জন্য একটি বিভ্রান্তির ম্যাট্রিক্স তৈরি করা উচিত যা প্রতিটি ডেটা জোড়াকে পুরো চেইনের জন্য একই উপাদান হিসাবে নির্ধারিত করা হত, চিত্র 6 দেখুন।
কনস : এটি সত্যিকারের "সম্পূর্ণ" ক্লাস্টারিং নয় বরং জুটি-ভিত্তিক ক্লাস্টারিং। চিত্রটি দেখতে দুর্দান্ত দেখাচ্ছে কারণ আমরা প্রকৃত গুচ্ছগুলি জানি এবং সেই অনুযায়ী ম্যাট্রিক্সটি সাজাই।
(২) ডিপি-জিএমএম + গীবস স্যাম্পলিং + নমুনা যতক্ষণ না পরিবর্তন হয়
আমি অনুসন্ধান করে যাচ্ছিলাম এবং আমি কিছু লোককে গিবস স্যাম্পেলার ব্যবহার করে ডিরিচলেট প্রক্রিয়া ভিত্তিক ক্লাস্টারিংয়ের দাবি করতে দেখলাম। উদাহরণস্বরূপ, এই পোস্টটি বিবেচনা করে যে যখন ক্লাস্টারের সংখ্যা বা উপায়ে কোনও পরিবর্তন হয় না তখন চেইনটি রূপান্তরিত হয় এবং সেখান থেকে সংক্ষিপ্তসারগুলি পেয়ে যায়।
কনস : আমি নিশ্চিত না যে এর পরে এটি অনুমোদিত, আমি যদি ভুল না হই:
(ক) এমসিমিসির সময় লেবেল পরিবর্তন হতে পারে।
(খ) এমনকি স্থিতিশীল বিতরণেও নমুনা সময়ে সময়ে কিছু ক্লাস্টার তৈরি করতে পারে।
(3) ডিপি-জিএমএম + গীবস স্যাম্পলিং + সম্ভবত সম্ভাব্য পার্টিশন সহ নমুনা চয়ন করুন
এই কাগজে লেখকরা বলেছেন:
"বার্ন-ইন" পিরিয়ডের পরে, আইজিএমএম-এর উত্তরোত্তর বিতরণ থেকে নিরপেক্ষ নমুনাগুলি গীবস নমুনা থেকে নেওয়া যেতে পারে। শ্রেণি সূচক ভেরিয়েবলের সর্বাধিক যৌথ সম্ভাবনা সহ নমুনা ব্যবহার করে একটি হার্ড ক্লাস্টারিং পাওয়া যায় such আমরা এম ম্যান্ডেল দ্বারা লিখিত একটি সংশোধিত আইজিএমএম বাস্তবায়ন ব্যবহার করি ।
কনস : যদি না এটি সঙ্কুচিত গিবস স্যাম্পলার না হয় যেখানে আমরা কেবলমাত্র কার্যনির্বাহের নমুনা করি, আমরা গণনা করতে পারি তবে প্রান্তিক p ( c ) না । (সর্বাধিক পি ( সি , θ ) দিয়ে রাষ্ট্র পাওয়ার পরিবর্তে কি এটি একটি ভাল অনুশীলন হবে ?)
(৪) ডিপি-জিএমএম ভেরিয়োনোনাল ইনফারেন্স সহ :
আমি দেখেছি যে কিছু লাইব্রেরি ভেরিয়েন্টাল ইনফারেন্স ব্যবহার করে। আমি ভেরিয়েন্টাল ইনফারেন্সটি খুব বেশি জানি না তবে আমি অনুমান করি যে সেখানে আপনার শনাক্তকরণের সমস্যা নেই। তবে আমি এমসিএমসি পদ্ধতিতে (যদি সম্ভব হয়) আটকে থাকতে চাই।
কোন রেফারেন্স সহায়ক হবে।