দেখে মনে হচ্ছে যে কে-মানে এবং অন্যান্য সম্পর্কিত অ্যালগরিদমগুলির জন্য, ক্লাস্টারিং পয়েন্টগুলির মধ্যে দূরত্ব গণনা করে based এমন কি আছে যে এটি ছাড়া কাজ করে?
দেখে মনে হচ্ছে যে কে-মানে এবং অন্যান্য সম্পর্কিত অ্যালগরিদমগুলির জন্য, ক্লাস্টারিং পয়েন্টগুলির মধ্যে দূরত্ব গণনা করে based এমন কি আছে যে এটি ছাড়া কাজ করে?
উত্তর:
এই জাতীয় পদ্ধতির একটি উদাহরণ হ'ল ক্লাস্টারিংয়ের জন্য ব্যবহৃত ফাইনাইট মিক্সচার মডেলগুলি (যেমন এখানে বা এখানে )। এফএমএম-তে আপনি আপনার পরিবর্তনশীল এর বিতরণ ( ) ডিস্ট্রিবিউশনগুলির মিশ্রণ হিসাবে বিবেচনা করেন ( ):এক্স কে চ 1 , । । । , চ কে
যেখানে প্যারামিটার একটি ভেক্টর হয় এবং অনুপাতে হয় 'মিশ্রণ ম বিতরণ এবং একটি প্যারামিটার আছে ( বা পরামিতি) এর বিতরণ।θ = ( π ' , θ ' 1 , । । । , θ ' ট ) ' π ট ট θ ট চ ট
বিযুক্ত ডেটা সম্পর্কিত একটি নির্দিষ্ট কেস হ'ল লেটেন্ট ক্লাস অ্যানালাইসিস (যেমন এখানে ) হিসাবে সংজ্ঞায়িত:
যেখানে প্রচ্ছন্ন বর্গ দেখে সম্ভাব্যতা (অর্থাত ), একটি দেখে সম্ভাব্যতা মান এবং সম্ভাব্যতা ক্লাসে না গিয়ে ।ট π ট পি ( এক্স ) এক্স পি ( এক্স | ট ) এক্স ট
সাধারণত এফএমএম এবং এলসিএ উভয়ের ক্ষেত্রে ইএম অ্যালগরিদম অনুমানের জন্য ব্যবহৃত হয়, তবে বয়েসিয়ান পদ্ধতিটিও সম্ভব, তবে মডেল সনাক্তকরণ এবং লেবেল স্যুইচিং (যেমন শিয়ানের ব্লগ ) এর মতো সমস্যার কারণে আরও কিছুটা দাবি করা ।
সুতরাং কোনও দূরত্ব পরিমাপ নয় বরং একটি ডেটাস্টিকাল মডেল যা আপনার উপাত্তের কাঠামো (বিতরণ) সংজ্ঞায়িত করে। কারণ এই পদ্ধতির অন্য নামটি হ'ল "মডেল-ভিত্তিক ক্লাস্টারিং"।
এফএমএম-তে দুটি বই পরীক্ষা করুন:
সবচেয়ে জনপ্রিয় ক্লাস্টারিং প্যাকেজ যা এফএমএম ব্যবহার করে তা হ'ল mclust
( এখানে বা এখানে দেখুন ) যা আর এ প্রয়োগ করা হয় । তবে আরও জটিল এফএমএমও সম্ভব, উদাহরণস্বরূপ flexmix
প্যাকেজটি পরীক্ষা করুন এবং এটি ডকুমেন্টেশন । এলসিএর জন্য একটি আর পোলসিএ প্যাকেজ রয়েছে ।
কে-মানে "সত্যই" দূরত্ব ভিত্তিক নয়। এটি বৈকল্পিকতা হ্রাস করে । (কিন্তু ভ্যারিয়েন্স স্কোয়ারড ইউক্লিডিয় দুরুত্ব; তাই বিন্দু হয় , খুব ইউক্লিডিয় দুরত্ব নিকটতম centroid নির্ধারিত)।
গ্রিড-ভিত্তিক ক্লাস্টারিং প্রচুর পদ্ধতি রয়েছে । তারা দূরত্বগুলি গণনা করে না কারণ এটি প্রায়শই চতুর্ভুজ রানটাইম উত্পন্ন করে। পরিবর্তে, তারা ডেটা বিভাজন করে গ্রিড কোষগুলিতে এটি একত্রিত করে। তবে এই ধরণের পদ্ধতির পিছনে অন্তর্দৃষ্টি সাধারণত খুব দূরত্বের সাথে সম্পর্কিত।
COOLCAT এবং STUCCO এর মতো শ্রেণিবদ্ধ ডেটার জন্য বেশ কয়েকটি ক্লাস্টারিং অ্যালগরিদম রয়েছে। এই জাতীয় ডেটা দিয়ে দূরত্বগুলি ব্যবহার করা সহজ নয় (ওয়ান-হট এনকোডিং হ্যাক এবং বিশেষত অর্থপূর্ণ দূরত্ব দেয় না)। তবে আমি কেউ এই অ্যালগোরিদমগুলি ব্যবহার করার কথা শুনিনি ...
গ্রাফগুলির জন্য ক্লাস্টারিং অ্যাপ্রোচ রয়েছে। তবে হয় তারা ক্লাসিক বা নিকট-চক্রের সন্ধান এবং গ্রাফের বর্ণের মতো ক্লাসিক গ্রাফ সমস্যাগুলিকে হ্রাস করে অথবা তারা দূরত্ব ভিত্তিক ক্লাস্টারিংয়ের সাথে ঘনিষ্ঠভাবে সংযুক্ত থাকে (যদি আপনার একটি ভার্টেড গ্রাফ থাকে)।
ডিবিএসসিএএন-এর মতো ঘনত্ব-ভিত্তিক ক্লাস্টারিংয়ের আলাদা নাম রয়েছে, এবং দূরত্ব হ্রাস করার দিকে মনোনিবেশ করেন না; তবে "ঘনত্ব" সাধারণত একটি দূরত্বের সাথে সুনির্দিষ্টভাবে নির্দিষ্ট করা হয়, তাই প্রযুক্তিগতভাবে এই অ্যালগরিদম হয় দূরত্ব ভিত্তিক বা গ্রিড ভিত্তিক।
আপনার প্রশ্নের যে অপরিহার্য অংশটি আপনি রেখে গেছেন তা হ'ল আপনার ডেটা কী?
পূর্ববর্তী সুন্দর উত্তরের পাশাপাশি, আমি ডিরিচলেট মিশ্রণ মডেলগুলি এবং বায়সিয়ান ভিত্তিক হাইয়ারারিকিকাল ডিরিচলেট প্রক্রিয়া মডেলগুলি বিবেচনা করার পরামর্শ দেব । সর্বোত্তম সংখ্যক ক্লাস্টার নির্ধারণের জন্য পদ্ধতির এবং পদ্ধতির পরিবর্তে বিস্তৃত ও সাধারণ পর্যালোচনার জন্য , দয়া করে স্ট্যাক ওভারফ্লোতে এই দুর্দান্ত উত্তরটি দেখুন : /programming//a/15376462/2872891 ।
নিখুঁতভাবে বৈষম্যমূলক দৃষ্টিভঙ্গি হ'ল গোমেস এট আল দ্বারা "নিয়মিত তথ্য সর্বাধিককরণ" । এর সাথে যা কিছু আছে তার সাথে মিল বা দূরত্বের ধারণা নেই।
ধারণাটি হল মডেলের মতো লজিস্টিক রিগ্রেশন থাকা যা পয়েন্টগুলিকে বিভক্ত করে। ক্লাস লেবেলগুলির কিছু প্রকারের লগ-সম্ভাবনা সর্বাধিক করে তোলার জন্য প্রশিক্ষণের পরিবর্তে, উদ্দেশ্যগত কাজটি এমন একটি যা বিভিন্ন ক্লাস্টারে পয়েন্ট রাখে।
মডেল দ্বারা ব্যবহৃত ক্লাস্টারের পরিমাণ নিয়ন্ত্রণ করতে হাইপার প্যারামিটার দ্বারা ওজনিত একটি অতিরিক্ত নিয়মিত শব্দ ব্যবহৃত হয়। এটি ওজনের আগে কোনও গাউসির বিপরীত বিপরীতে উত্থিত হয়।
লিনিয়ার ক্লাস্টারিংয়ের জন্য কার্নেল পদ্ধতি বা নিউরাল নেটওয়ার্কগুলিতে প্রসারিত হওয়া সহজ straight