সমাধান পাওয়া গেছে:
সুতরাং, প্রশ্নটি পুনঃস্থাপন করতে, কেন Mclust
"সেরা" মডেল হিসাবে সর্বাধিক বিআইসির মান সহ মডেলটিতে ফাংশনটি ডিফল্ট হয়?
দুর্দান্ত প্রশ্ন! আমি আপনাকে এর একটি দীর্ঘ বায়ু উত্তর দিতে দিন।
টিএল; ডিআর : বিআইসি মানগুলি সংহত হওয়ার (সর্বাধিক নয়) সম্ভাবনার একটি অনুমান এবং আপনি সর্বাধিক সংহত সম্ভাবনার (বেইস ফ্যাক্টর) মডেলটি চান তাই আপনি বৃহত্তম বিআইসির সাথে মডেলটি বেছে নিন।
দীর্ঘ উত্তর : মডেল ভিত্তিক ক্লাস্টারিং কে হিউস্টিক ভিত্তিক ক্লাস্টারিং পদ্ধতির যেমন কে-ইন্স এবং হায়ারার্কিকাল (অ্যাগ্রোমারেটিভ) ক্লাস্টারিং ব্যবহারের উদ্দেশ্য আপনার ডেটার জন্য উপযুক্ত ক্লাস্টার মডেলটির তুলনা এবং নির্বাচন করার জন্য আরও আনুষ্ঠানিক এবং স্বজ্ঞাত পন্থা সরবরাহ করা।
এমক্লাস্ট সম্ভাব্যতা মডেল, গাউসিয়ান মিশ্রিত মডেলগুলির উপর ভিত্তি করে ক্লাস্টারিং কৌশল ব্যবহার করে। সম্ভাব্যতা মডেলগুলি ব্যবহার করে বিভিন্ন ক্লাস্টার মডেল এবং আকারগুলির তুলনা করতে মডেল-ভিত্তিক পদ্ধতির বিকাশের অনুমতি দেয়। শ্রেণিবিন্যাসের মডেল-ভিত্তিক পদ্ধতিগুলি দেখুন: কেমোমেট্রিক্সে এমক্লাস্ট সফটওয়্যার ব্যবহার করে * ( https://www.jstatsoft.org/article/view/v018i06 ) আরও তথ্যের জন্য।
উপরে উল্লিখিত হিসাবে, লেখকরা বলেছেন যে "সেরা" মডেলটি বৃহত্তম বিআইসি মান সহ একটি one বর্ধিত মডেল-ভিত্তিক ক্লাস্টারিং, ঘনত্ব অনুমান এবং বৈষম্য বিশ্লেষণ সফ্টওয়্যার থেকে এখানে আরও একটি উদাহরণ দেওয়া হয়েছে : এমসিএলইউএসটি ( https://www.stat.washington.edu/raftery/Research/PDF/fraley2003.pdf ):
বায়েসিয়ান ইনফরমেশন মাপদণ্ড বা বিআইসি (?) হ'ল মডেলের পরামিতিগুলির সংখ্যার উপর পেনাল্টি সহ সর্বাধিক লগলিস্টিভিলেন্সের মান এবং পৃথক পৃথক পরামিতি এবং / অথবা বিভিন্ন ক্লাস্টারের সংখ্যার সাথে মডেলের তুলনা করতে দেয়। সাধারণভাবে বিআইসির মান যত বেশি, ক্লাস্টারের মডেল এবং সংখ্যার প্রমাণ তত বেশি (দেখুন, উদাহরণস্বরূপ ফ্রেলে এবং রাফ্টারি 2002a)।
মডেল নির্বাচন : এখন ক্লাস্টারগুলির সাথে একটি সম্ভাব্যতা মডেল সংযুক্ত রয়েছে, আপনি বেয়েস ফ্যাক্টরগুলির মাধ্যমে বায়েসিয়ান মডেল নির্বাচন ব্যবহার করে একাধিক ক্লাস্টার মডেলগুলির তুলনা করতে আরও পরিশীলিত সরঞ্জাম ব্যবহার করতে পারেন।
তাদের কাগজে, কয়টি গুচ্ছ? কোন ক্লাস্টারিং পদ্ধতি? মডেল-ভিত্তিক ক্লাস্টার বিশ্লেষণের মাধ্যমে উত্তরগুলি ( http://www.stat.washington.edu/raftery/Research/PDF/fraley1998.pdf )
বায়েস ফ্যাক্টরটি অন্য মডেলটির পক্ষে পূর্ববর্তী প্রতিক্রিয়াটিকে ধরে রেখে অন্যটির পক্ষে অগ্রাধিকারের পক্ষে নয় বলে ধরে নেওয়া হয়। বনফিল্ড এবং রাফ্ট্রি [২] শ্রেণিবিন্যাসের সম্ভাবনার উপর ভিত্তি করে শ্রেণিবিন্যাসের ক্লাস্টারিংয়ের ক্লাস্টারের সংখ্যা নির্ধারণ করার জন্য 'AWE' নামক লগ বেইস ফ্যাক্টরের দ্বিগুণভাবে অনুমানযুক্ত ব্যবহার করেছিলেন। যখন EM সর্বাধিক মিশ্রণের সম্ভাবনা সন্ধান করতে ব্যবহৃত হয়, তখন বিআইসি (শোয়ার্জ [32]) নামক লগ বেইস ফ্যাক্টরের দ্বিগুণ নির্ভরযোগ্য প্রযোজ্য:
2 লগ( পি ( এক্স | এম)) ) + সি ও এন এস টি এ এন টি ≈ 2 এলএম( এক্স , θ)^) - মিমিl ও জি( এন ) ≡ বি আইসি
যেখানে মডেল এম, ডেটার (সংহত) সম্ভাবনা মডেলটির জন্য মাইক্র্মাইজড মিশ্রণ লগ-সম্ভাবনা এবং এম_এম হ'ল স্বাধীন প্যারামিটারের সংখ্যা মডেল অনুমান করা। বিআইসিকে গণনা করার উদ্দেশ্যে ক্লাস্টারগুলির সংখ্যা একটি স্বতন্ত্র প্যারামিটার হিসাবে বিবেচিত হয় না। যদি প্রতিটি মডেল সমানভাবে একই অগ্রবর্তী হয় তবে উত্তরোত্তর সম্ভাবনার সাথে সমানুপাতিক যে ডেটা মডেল সাথে সঙ্গতিপূর্ণ । তদনুসারে, বিআইসির মান যত বেশি, মডেলের পক্ষে প্রমাণ তত বেশি।পি ( এক্স | এম))ঠএম( এক্স , θ)^)a p r i o r i পি ( এক্স | এম))এম
সুতরাং, সংক্ষেপে, বিআইসি হ্রাস করা উচিত নয়। এই মডেল-ভিত্তিক ক্লাস্টারিং এপ্রোচটি ব্যবহার করা ব্যক্তির সর্বাধিক সংহত সম্ভাবনার সাথে বেয়েস ফ্যাক্টরের সান্নিধ্যের সাথে বিআইসিকে সর্বাধিকতর করে এমন মডেলটি সন্ধান করা উচিত।
এই শেষ বিবৃতিতে একটি রেফারেন্সও রয়েছে:
ব্যানফিল্ড, জেডি এবং রাফটারি, এই (1993) মডেল ভিত্তিক গাউসিয়ান এবং অ-গাউশিয়ান ক্লাস্টারিং। বায়োমেট্রিকস, 49, 803– 821।
সম্পাদনা : একটি ইমেল এক্সচেঞ্জের উপর ভিত্তি করে,
পার্শ্ব নোট হিসাবে, সর্বদা বিআইসি সংজ্ঞায়িত হয় তা পরীক্ষা করে দেখুন check কখনও কখনও, উদাহরণস্বরূপ বেশিরভাগ রিগ্রেশন প্রসঙ্গে (যেখানে traditionতিহ্যগতভাবে পরিসংখ্যানগুলির অনুমানের জন্য একটি পরিসংখ্যানকে হ্রাস করা হয়, যেমন বর্গ, বিচ্যুতি ইত্যাদির অবশিষ্টাংশ যোগ) বিআইসিকে গণনা করা হয় -২ * লগলিক + এনপিআর * লগ (এন), অর্থাৎ এর বিপরীত কি mclust ব্যবহার করা হয়। স্পষ্টতই, সেক্ষেত্রে বিআইসিকে হ্রাস করা উচিত।
বিআইসির সাধারণ সংজ্ঞাটি হ'ল
; mclust নেতিবাচক উপাদান অন্তর্ভুক্ত করে না।বি আইসি= - 2 × l এন ( এল ( θ | এক্স ) ) + কে × এল এন ( এন )