ক্লাস্টারিংয়ের জন্য ডিরিচলেট প্রক্রিয়াগুলি: কীভাবে লেবেলগুলি ব্যবহার করবেন?


14

প্রশ্ন: একটি ডিরিচলেট প্রক্রিয়া ব্যবহার করে ক্লাস্টার ডেটার মানক উপায় কী?

গিবস ব্যবহার করার সময় নমুনা দেওয়ার সময় ক্লাস্টার উপস্থিত হয় এবং স্যাম্পলিংয়ের সময় অদৃশ্য হয়ে যায়। তদুপরি, উত্তরোত্তর বিতরণ ক্লাস্টার রিলেবিলিংয়ের জন্য অচলতর হওয়ায় আমাদের একটি সনাক্তকরণের সমস্যা রয়েছে। সুতরাং, আমরা বলতে পারি না যে কোন ব্যবহারকারীর ক্লাস্টার আসলে এটির পরিবর্তে দুটি ব্যবহারকারী একই ক্লাস্টারে রয়েছে (এটি p(ci=cj) )।

আমরা কি ক্লাস অ্যাসাইনমেন্টগুলি সংক্ষিপ্ত করতে পারি যাতে, ci যদি পয়েন্ট এর ক্লাস্টার অ্যাসাইনমেন্ট হয় তবে iআমরা এখন কেবল সেই নই ci=cjযে ci=cj=cj=...=cz ?

এই বিকল্পগুলি আমি খুঁজে পেয়েছি এবং কেন আমি মনে করি সেগুলি অসম্পূর্ণ বা বিপথগামী।

(1) ডিপি-জিএমএম + গীবস নমুনা + জোড়া-ভিত্তিক কনফিউশন ম্যাট্রিক্স

একটি ক্লাস্টারিংয়ের জন্য একটি ডিরিচলেট প্রক্রিয়া গাউসিয়ান মিশ্রণ মডেল (ডিপি-জিএমএম) ব্যবহার করার জন্য আমি এই কাগজটি প্রয়োগ করেছি যেখানে লেখকরা গীবস স্যাম্পলিং ব্যবহার করে ঘনত্বের অনুমানের জন্য কোনও ডিপি-জিএমএমের প্রস্তাব দেন ।

ক্লাস্টারিং কার্য সম্পাদন করতে, তারা বলে:

যেহেতু উপাদানগুলির সংখ্যা [এমসিএমসি] শৃঙ্খলার উপর পরিবর্তিত হয়, তাই একটির জন্য একটি বিভ্রান্তির ম্যাট্রিক্স তৈরি করা উচিত যা প্রতিটি ডেটা জোড়াকে পুরো চেইনের জন্য একই উপাদান হিসাবে নির্ধারিত করা হত, চিত্র 6 দেখুন। এখানে চিত্র বর্ণনা লিখুন

কনস : এটি সত্যিকারের "সম্পূর্ণ" ক্লাস্টারিং নয় বরং জুটি-ভিত্তিক ক্লাস্টারিং। চিত্রটি দেখতে দুর্দান্ত দেখাচ্ছে কারণ আমরা প্রকৃত গুচ্ছগুলি জানি এবং সেই অনুযায়ী ম্যাট্রিক্সটি সাজাই।

(২) ডিপি-জিএমএম + গীবস স্যাম্পলিং + নমুনা যতক্ষণ না পরিবর্তন হয়

আমি অনুসন্ধান করে যাচ্ছিলাম এবং আমি কিছু লোককে গিবস স্যাম্পেলার ব্যবহার করে ডিরিচলেট প্রক্রিয়া ভিত্তিক ক্লাস্টারিংয়ের দাবি করতে দেখলাম। উদাহরণস্বরূপ, এই পোস্টটি বিবেচনা করে যে যখন ক্লাস্টারের সংখ্যা বা উপায়ে কোনও পরিবর্তন হয় না তখন চেইনটি রূপান্তরিত হয় এবং সেখান থেকে সংক্ষিপ্তসারগুলি পেয়ে যায়।

কনস : আমি নিশ্চিত না যে এর পরে এটি অনুমোদিত, আমি যদি ভুল না হই:

  • (ক) এমসিমিসির সময় লেবেল পরিবর্তন হতে পারে।

  • (খ) এমনকি স্থিতিশীল বিতরণেও নমুনা সময়ে সময়ে কিছু ক্লাস্টার তৈরি করতে পারে।

(3) ডিপি-জিএমএম + গীবস স্যাম্পলিং + সম্ভবত সম্ভাব্য পার্টিশন সহ নমুনা চয়ন করুন

এই কাগজে লেখকরা বলেছেন:

"বার্ন-ইন" পিরিয়ডের পরে, আইজিএমএম-এর উত্তরোত্তর বিতরণ থেকে নিরপেক্ষ নমুনাগুলি গীবস নমুনা থেকে নেওয়া যেতে পারে। শ্রেণি সূচক ভেরিয়েবলের সর্বাধিক যৌথ সম্ভাবনা সহ নমুনা ব্যবহার করে একটি হার্ড ক্লাস্টারিং পাওয়া যায় such আমরা এম ম্যান্ডেল দ্বারা লিখিত একটি সংশোধিত আইজিএমএম বাস্তবায়ন ব্যবহার করি ।

কনস : যদি না এটি সঙ্কুচিত গিবস স্যাম্পলার না হয় যেখানে আমরা কেবলমাত্র কার্যনির্বাহের নমুনা করি, আমরা গণনা করতে পারি তবে প্রান্তিক p ( c ) না । (সর্বাধিক পি ( সি , θ ) দিয়ে রাষ্ট্র পাওয়ার পরিবর্তে কি এটি একটি ভাল অনুশীলন হবে ?)p(c|θ)p(c)p(c,θ)

(৪) ডিপি-জিএমএম ভেরিয়োনোনাল ইনফারেন্স সহ :

আমি দেখেছি যে কিছু লাইব্রেরি ভেরিয়েন্টাল ইনফারেন্স ব্যবহার করে। আমি ভেরিয়েন্টাল ইনফারেন্সটি খুব বেশি জানি না তবে আমি অনুমান করি যে সেখানে আপনার শনাক্তকরণের সমস্যা নেই। তবে আমি এমসিএমসি পদ্ধতিতে (যদি সম্ভব হয়) আটকে থাকতে চাই।

কোন রেফারেন্স সহায়ক হবে।


3 (উত্তরোত্তর মোড) এর কাছে, অনুপলব্ধ হওয়া সম্পর্কে আপনার অভিযোগ আমার কাছে খুব একটা বোঝায় না। এই বিশেষ সমস্যাটির চেয়ে সাধারণভাবে এমসিসিএম সম্পর্কে অভিযোগের মতো বলে মনে হয়। p(c)
শ্যাডট্যালকার

হ্যাঁ, ঠিক, আমার অর্থ এমসিএমসি আমাদের অ্যাক্সেস দেয় না এবং তাই আমরা ভান করতে পারি না যে আমরা এটি শৃঙ্খলে একটি নির্দিষ্ট অবস্থা থেকে তুলতে পারি। p(c)
আলবার্তো

যে নকশা দ্বারা । প্রকৃতপক্ষে, এটি এমসিমিসি ছাড়িয়ে গেছে: এটি কোনও বায়েশিয়ান মডেলের অন্তর্নির্মিত বৈশিষ্ট্য। যদি কিছু হয় তবে আপনি সমস্যার মুখোমুখি
হচ্ছেন

প্রথমে এ জাতীয় কিছু না করতে চাওয়ার কারণ রয়েছে - বিভিন্ন ইন্দ্রিয় রয়েছে যার মধ্যে ডিরিচলেট প্রক্রিয়া মিশ্রণের মডেলটি ক্লাস্টারের সংখ্যা ধারাবাহিকভাবে অনুমান করতে পারে না (এবং তাই "পুনরুদ্ধার করার জন্য ভাল কাজ করতে পারে না" সত্য "ডেটা ক্লাস্টারিং"। এই বিষয়ে এনআইপিএসে সাম্প্রতিক একটি কাগজ ছিল was
লোক

1
এখানে দেখুন । আমি মনে করি তারা পরিবর্তে উপাদানগুলির সংখ্যার আগে পোইসন রাখার প্রস্তাব দিয়েছেন (এবং এটি বাস্তবায়নের জন্য রেস্তোঁরা প্রক্রিয়াটি একরকমভাবে উত্পন্ন করেছেন) তবে আমি নিশ্চিত নই যে তারা এই কাগজটি এটি করেন কিনা।
লোক

উত্তর:


1

আমার পরীক্ষামূলক উত্তর খাওয়াতে হবে যাতে প্যারামিটার হিসাবে পি ( , θ ) কেবল অবর মোড। আমার সন্দেহ হয় নাইকুম এবং বার্তো এটি করেছিলেন (কাগজটি reference নং বিকল্পটিতে উল্লেখ করা হয়েছে)। কারণে তারা কিনা তারা ব্যবহৃত সম্পর্কে অস্পষ্ট ছিল পি ( , θ ) বা পি ( | θ ) যে অন্য একটি সমানুপাতিক হয়।cp(c,θ)p(c,θ)p(c|θ)

আমি এই উত্তরটিকে "অস্থায়ী" বলার কারণটি হ'ল আমি নিশ্চিত নই যে "প্যারামিটার" হিসাবে কোনও মান নির্ধারণ করা কেবল শব্দার্থবিজ্ঞানের বিষয়, বা যদি পিএইচডি হোল্ডিং ব্যবহারকারীদের মধ্যে আরও একটি প্রযুক্তিগত / তাত্ত্বিক সংজ্ঞা থাকে এখানে বর্ণনা করতে সক্ষম হবে।


p(c,θ)=p(c|θ)p(θ)p(c)

@ আলবার্তো আবার বলেছেন, এর এই মডেলটির সাথে বায়েশিয়ান পরিসংখ্যানের সাথে কিছুই করার নেই। এখানে দেখুন: groups.google.com/forum/m/#!topic/stan-users/qH-2Mq219gs । এবং যদি আপনি একাধিক মোড সম্পর্কে উদ্বিগ্ন হন তবে এখানে দেখুন: গ্রুপ. google.com/forum/m/#topic/stan-users/RsVo9NUn0yM এবং এখানে: stats.stackexchange.com/q/3328/36229
শ্যাডটলকার

1

আমি কেবল এই বিষয়ের উপর কিছু সংস্থান ভাগ করে নিতে চেয়েছিলাম, আশা করি যে তাদের কেউ কেউ এই প্রশ্নের উত্তর দিতে সহায়ক হতে পারে। সেখানে অনেক টিউটোরিয়াল Dirichlet প্রসেস (ডিপি) , জন্য ডিপি ব্যবহার করে কিছু সহ ক্লাস্টারিং । তারা, "মৃদু" থেকে পরিসীমা মত এই উপস্থাপনাটি টিউটোরিয়াল , আরো উন্নত, মত এই উপস্থাপনাটি টিউটোরিয়াল । পরবর্তীটি একই টিউটোরিয়ালটির একটি আপডেট সংস্করণ, এমএলএসএস'07 এ ইয়ে হো হোয়ে উপস্থাপন করেছেন। আপনি এখানে সিঙ্ক্রোনাইজ করা স্লাইডগুলির সাথে সেই আলাপের ভিডিও দেখতে পারেন । ভিডিওগুলি সম্পর্কে কথা বলতে বলতে, আপনি এখানে টম গ্রিফিথের স্লাইডগুলির সাথে আরও একটি আকর্ষণীয় এবং প্রাসঙ্গিক আলোচনা দেখতে পারেন । কাগজ-বিন্যাসিত টিউটোরিয়ালগুলির ক্ষেত্রে, এই টিউটোরিয়াল একটি সুন্দর এবং বেশ জনপ্রিয়।

অবশেষে, আমি সম্পর্কিত কয়েকটি কাগজ ভাগ করতে চাই। শ্রেণিবিন্যাসিক ডিপি সম্পর্কিত এই কাগজটি গুরুত্বপূর্ণ এবং প্রাসঙ্গিক বলে মনে হচ্ছে। রেডফোর্ড নীলের এই কাগজের ক্ষেত্রেও এটি একই প্রযোজ্য । আপনি যদি টপিক মডেলিংয়ে আগ্রহী হন , সুপ্ত ডিরিচলেট বরাদ্দ (এলডিএ) সম্ভবত আপনার রাডারেও হওয়া উচিত। সেক্ষেত্রে, খুব সাম্প্রতিক এই কাগজটি একটি উপন্যাস এবং অনেক উন্নত এলডিএ পদ্ধতির উপস্থাপন করে। টপিক মডেলিং ডোমেনের বিষয়ে, আমি ডেভিড ব্লেই এবং তার সহযোগীদের গবেষণা পত্রগুলি পড়ার পরামর্শ দেব recommend এই কাগজটি একটি প্রবর্তক, বাকি আপনি তার গবেষণা প্রকাশনা পৃষ্ঠায় খুঁজে পেতে পারেন। আমি বুঝতে পারি যে আমি প্রস্তাবিত কিছু সামগ্রী আপনার জন্য খুব মৌলিক হতে পারে তবে আমি ভেবেছিলাম যে আমি এই বিষয়টিতে যে সমস্ত জিনিস ছড়িয়ে দিয়েছি তা অন্তর্ভুক্ত করে আমি আপনার উত্তর খুঁজে পাওয়ার সম্ভাবনা বাড়িয়ে দেব ।


আপনি এখানে যা করার চেষ্টা করছেন তা আমি বুঝতে পেরেছি, তবে এটি সত্যই প্রশ্নের সমাধান করে না।
শ্যাডটলকার

1
@ এসএসডেকট্রোল: আপনি যদি বুঝতে পারেন যে আমি এখানে কী করার চেষ্টা করছি (যা উত্তরটিকে অনুসন্ধান করতে এবং একটি বা দুটি জিনিস শিখতে ওপিকে সহায়তা করছে), তবে আপনার মন্তব্যের মূল বক্তব্য কী? আমি দাবি করেছেন কখনো যে আমার উত্তর হল উত্তর, কিন্তু আশা প্রকাশ করেন যে এটা সহায়ক , যা পরিণামে আপ সিদ্ধান্ত নিতে ওপি হয়। আপনার যদি আরও ভাল উত্তর থাকে তবে আমি নিশ্চিত যে এটি ওপি এবং সম্প্রদায় প্রশংসা করবে।
আলেকসান্দ্র ব্লেক

1
হ্যাঁ, আমি সম্পূর্ণ বুঝতে পারি। এখানে আমি পাশাপাশি যা করি তা অনেকটাই। তবে প্রশ্নটি MCMC ফলাফলগুলি থেকে ক্লাস্টার লেবেলগুলি তোলার সঠিক উপায় সম্পর্কে জিজ্ঞাসা করছে এবং আমি মনে করি না যে এই প্রশ্নটি এই প্রশ্নের কোনও ঠিকানা নয়।
শ্যাডট্যালকার

@ আলেকসান্দরলেখ আমি এসএসডিকন্ট্রোলের সাথে একমত হব যেহেতু ওপি "বেসিকগুলি" জানে এবং একটি নির্দিষ্ট প্রশ্ন জিজ্ঞাসা করছে বলে মনে হচ্ছে এটি কিছুটা অফ-টপিক।
টিম

1
@ আলেকসান্দরলেখ আমি আপনার পোস্টের প্রশংসা করি, কমপক্ষে এটি ডিপির সাথে পরিচিতির জন্য একটি ভাল সংক্ষিপ্তসার তৈরি করে। আমি বেসিকগুলি জানি (মধ্যবর্তী স্তর, আসুন বলি) তবে কমপক্ষে আপনার উল্লেখগুলি আমাকে এলডিএতে ফিরে যেতে এবং বুঝতে পেরেছিল যে তারা ইস্যুটি সম্পর্কে প্রায়শই লিপিবদ্ধ করেছে যেহেতু তাদের লেবেল প্রায়শই স্যুইচ করে না।
আলবার্তো
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.