Mclust মডেল নির্বাচন

আর প্যাকেজটি mclustবিআইসিকে ক্লাস্টার মডেল নির্বাচনের মানদণ্ড হিসাবে ব্যবহার করে। আমার বোধগম্যতা থেকে, সর্বনিম্ন বিআইসি সহ একটি মডেল অন্যান্য মডেলের চেয়ে বেশি নির্বাচন করা উচিত (যদি আপনি কেবলমাত্র বিআইসির প্রতি যত্নশীল হন)। যাইহোক, যখন বিআইসির মানগুলি সমস্ত নেতিবাচক হয়, তখন Mclustফাংশনটি সর্বাধিক বিআইসি মান সহ মডেলটির ডিফল্ট হয়। বিভিন্ন পরীক্ষার থেকে আমার সামগ্রিক বোঝার যে mclustশনাক্ত "শ্রেষ্ঠ" না থাকার মতো মডেলের । $max\{BIC_i\}$

লেখকরা কেন এই সিদ্ধান্ত নিয়েছিলেন তা আমি বোঝার চেষ্টা করছি। এটি CRAN সাইটে চিত্রিত: https://cran.r-project.org/web/packages/mclust/vignettes/mclust.html

এছাড়াও, mclustপ্যাকেজগুলির লেখকরা তাদের কাগজে এটির একটি নোট তৈরি করেছেন মডেল-ভিত্তিক শ্রেণিবদ্ধকরণের পদ্ধতি: 5 পৃষ্ঠায় কেমোমেট্রিক্সে এমক্লাস্ট সফটওয়্যার ব্যবহার করে ।

'সেরা' মডেলটিকে উপযুক্ত মডেলগুলির মধ্যে সর্বোচ্চ বিআইসির সাথে এক হিসাবে নেওয়া হয়।

কেউ কি এই ইস্যুতে আলোকপাত করতে পারেন? যদি একটি কম বিআইসি সর্বদা ভাল হয় তবে লেখকরা কেন সর্বনিম্ন বিআইসির সাথে মডেলটি বেছে নেবেন না বরং ক্ষুদ্রতম পরম বিআইসির সাথে মডেলটি কেন চয়ন করবেন? সম্ভব হলে রেফারেন্স সরবরাহ করুন।

— জন
সূত্র

সমাধান পাওয়া গেছে:

সুতরাং, প্রশ্নটি পুনঃস্থাপন করতে, কেন Mclust"সেরা" মডেল হিসাবে সর্বাধিক বিআইসির মান সহ মডেলটিতে ফাংশনটি ডিফল্ট হয়?

দুর্দান্ত প্রশ্ন! আমি আপনাকে এর একটি দীর্ঘ বায়ু উত্তর দিতে দিন।

টিএল; ডিআর : বিআইসি মানগুলি সংহত হওয়ার (সর্বাধিক নয়) সম্ভাবনার একটি অনুমান এবং আপনি সর্বাধিক সংহত সম্ভাবনার (বেইস ফ্যাক্টর) মডেলটি চান তাই আপনি বৃহত্তম বিআইসির সাথে মডেলটি বেছে নিন।

দীর্ঘ উত্তর : মডেল ভিত্তিক ক্লাস্টারিং কে হিউস্টিক ভিত্তিক ক্লাস্টারিং পদ্ধতির যেমন কে-ইন্স এবং হায়ারার্কিকাল (অ্যাগ্রোমারেটিভ) ক্লাস্টারিং ব্যবহারের উদ্দেশ্য আপনার ডেটার জন্য উপযুক্ত ক্লাস্টার মডেলটির তুলনা এবং নির্বাচন করার জন্য আরও আনুষ্ঠানিক এবং স্বজ্ঞাত পন্থা সরবরাহ করা।

এমক্লাস্ট সম্ভাব্যতা মডেল, গাউসিয়ান মিশ্রিত মডেলগুলির উপর ভিত্তি করে ক্লাস্টারিং কৌশল ব্যবহার করে। সম্ভাব্যতা মডেলগুলি ব্যবহার করে বিভিন্ন ক্লাস্টার মডেল এবং আকারগুলির তুলনা করতে মডেল-ভিত্তিক পদ্ধতির বিকাশের অনুমতি দেয়। শ্রেণিবিন্যাসের মডেল-ভিত্তিক পদ্ধতিগুলি দেখুন: কেমোমেট্রিক্সে এমক্লাস্ট সফটওয়্যার ব্যবহার করে * ( https://www.jstatsoft.org/article/view/v018i06 ) আরও তথ্যের জন্য।

উপরে উল্লিখিত হিসাবে, লেখকরা বলেছেন যে "সেরা" মডেলটি বৃহত্তম বিআইসি মান সহ একটি one বর্ধিত মডেল-ভিত্তিক ক্লাস্টারিং, ঘনত্ব অনুমান এবং বৈষম্য বিশ্লেষণ সফ্টওয়্যার থেকে এখানে আরও একটি উদাহরণ দেওয়া হয়েছে : এমসিএলইউএসটি ( https://www.stat.washington.edu/raftery/Research/PDF/fraley2003.pdf ):

বায়েসিয়ান ইনফরমেশন মাপদণ্ড বা বিআইসি (?) হ'ল মডেলের পরামিতিগুলির সংখ্যার উপর পেনাল্টি সহ সর্বাধিক লগলিস্টিভিলেন্সের মান এবং পৃথক পৃথক পরামিতি এবং / অথবা বিভিন্ন ক্লাস্টারের সংখ্যার সাথে মডেলের তুলনা করতে দেয়। সাধারণভাবে বিআইসির মান যত বেশি, ক্লাস্টারের মডেল এবং সংখ্যার প্রমাণ তত বেশি (দেখুন, উদাহরণস্বরূপ ফ্রেলে এবং রাফ্টারি 2002a)।

মডেল নির্বাচন : এখন ক্লাস্টারগুলির সাথে একটি সম্ভাব্যতা মডেল সংযুক্ত রয়েছে, আপনি বেয়েস ফ্যাক্টরগুলির মাধ্যমে বায়েসিয়ান মডেল নির্বাচন ব্যবহার করে একাধিক ক্লাস্টার মডেলগুলির তুলনা করতে আরও পরিশীলিত সরঞ্জাম ব্যবহার করতে পারেন।

তাদের কাগজে, কয়টি গুচ্ছ? কোন ক্লাস্টারিং পদ্ধতি? মডেল-ভিত্তিক ক্লাস্টার বিশ্লেষণের মাধ্যমে উত্তরগুলি ( http://www.stat.washington.edu/raftery/Research/PDF/fraley1998.pdf )

বায়েস ফ্যাক্টরটি অন্য মডেলটির পক্ষে পূর্ববর্তী প্রতিক্রিয়াটিকে ধরে রেখে অন্যটির পক্ষে অগ্রাধিকারের পক্ষে নয় বলে ধরে নেওয়া হয়। বনফিল্ড এবং রাফ্ট্রি [২] শ্রেণিবিন্যাসের সম্ভাবনার উপর ভিত্তি করে শ্রেণিবিন্যাসের ক্লাস্টারিংয়ের ক্লাস্টারের সংখ্যা নির্ধারণ করার জন্য 'AWE' নামক লগ বেইস ফ্যাক্টরের দ্বিগুণভাবে অনুমানযুক্ত ব্যবহার করেছিলেন। যখন EM সর্বাধিক মিশ্রণের সম্ভাবনা সন্ধান করতে ব্যবহৃত হয়, তখন বিআইসি (শোয়ার্জ [32]) নামক লগ বেইস ফ্যাক্টরের দ্বিগুণ নির্ভরযোগ্য প্রযোজ্য:

$2 \log(p(x | M)) + constant \approx 2 l_M (x, \hat{\theta}) - m_m log(n) \equiv BIC$

যেখানে মডেল এম, ডেটার (সংহত) সম্ভাবনা মডেলটির জন্য মাইক্র্মাইজড মিশ্রণ লগ-সম্ভাবনা এবং এম_এম হ'ল স্বাধীন প্যারামিটারের সংখ্যা মডেল অনুমান করা। বিআইসিকে গণনা করার উদ্দেশ্যে ক্লাস্টারগুলির সংখ্যা একটি স্বতন্ত্র প্যারামিটার হিসাবে বিবেচিত হয় না। যদি প্রতিটি মডেল সমানভাবে একই অগ্রবর্তী হয় তবে উত্তরোত্তর সম্ভাবনার সাথে সমানুপাতিক যে ডেটা মডেল সাথে সঙ্গতিপূর্ণ । তদনুসারে, বিআইসির মান যত বেশি, মডেলের পক্ষে প্রমাণ তত বেশি। $p(x |M)$ $l_M(x, \hat{\theta})$ $a \ priori$ $p(x|M)$ $M$

সুতরাং, সংক্ষেপে, বিআইসি হ্রাস করা উচিত নয়। এই মডেল-ভিত্তিক ক্লাস্টারিং এপ্রোচটি ব্যবহার করা ব্যক্তির সর্বাধিক সংহত সম্ভাবনার সাথে বেয়েস ফ্যাক্টরের সান্নিধ্যের সাথে বিআইসিকে সর্বাধিকতর করে এমন মডেলটি সন্ধান করা উচিত।

এই শেষ বিবৃতিতে একটি রেফারেন্সও রয়েছে:

ব্যানফিল্ড, জেডি এবং রাফটারি, এই (1993) মডেল ভিত্তিক গাউসিয়ান এবং অ-গাউশিয়ান ক্লাস্টারিং। বায়োমেট্রিকস, 49, 803– 821।

সম্পাদনা : একটি ইমেল এক্সচেঞ্জের উপর ভিত্তি করে,

পার্শ্ব নোট হিসাবে, সর্বদা বিআইসি সংজ্ঞায়িত হয় তা পরীক্ষা করে দেখুন check কখনও কখনও, উদাহরণস্বরূপ বেশিরভাগ রিগ্রেশন প্রসঙ্গে (যেখানে traditionতিহ্যগতভাবে পরিসংখ্যানগুলির অনুমানের জন্য একটি পরিসংখ্যানকে হ্রাস করা হয়, যেমন বর্গ, বিচ্যুতি ইত্যাদির অবশিষ্টাংশ যোগ) বিআইসিকে গণনা করা হয় -২ * লগলিক + এনপিআর * লগ (এন), অর্থাৎ এর বিপরীত কি mclust ব্যবহার করা হয়। স্পষ্টতই, সেক্ষেত্রে বিআইসিকে হ্রাস করা উচিত।

বিআইসির সাধারণ সংজ্ঞাটি হ'ল ; mclust নেতিবাচক উপাদান অন্তর্ভুক্ত করে না। $BIC = -2 \times ln(L(\theta | x)) + k \times ln(n)$

— জন
সূত্র

এই প্রতিক্রিয়াটির ইমেল চিঠিপত্রের সাথে ম্যালকাস্টের কোন সংস্করণ সম্পর্কিত ছিল তা নিশ্চিত নয়। এমক্লাস্টের 4 নম্বর সংস্করণটি বিআইসির নেতিবাচক উপাদান ব্যবহার করে এবং তাই এটি সর্বোচ্চ করা উচিত। আশা করা যায় যে ব্যক্তিরা সর্বোচ্চ বা ক্ষুদ্রায়ন করা উচিত কিনা তা নির্ধারণের চেষ্টা করার জন্য এটি কার্যকর হতে পারে trying

— রসিকা

এটি নির্দেশ করার জন্য ধন্যবাদ, আমি এই প্রশ্নটি আপডেট করব যাতে এটি উপলব্ধি হয়। আমি ডকুমেন্টেশনের পাশাপাশি

— জন