সমতা স্কোরের ভিত্তিতে ক্লাস্টারিং


18

ধরে নিন যে আমাদের দুটি উপাদান Ei, ej ∈ E এর মধ্যে E উপাদান এবং একটি মিল ( দূরত্ব নয় ) ফাংশন সিম (ei, ej) রয়েছে ।

আমরা কীভাবে (দক্ষতার সাথে) সিম ব্যবহার করে উপাদানগুলি গুচ্ছ করতে পারি ?

k -means, উদাহরণস্বরূপ, প্রদত্ত কে প্রয়োজন, ক্যানোপি ক্লাস্টারিংয়ের জন্য দুটি প্রান্তিক মান প্রয়োজন। যদি আমরা এইরকম পূর্বনির্ধারিত পরামিতিগুলি না চান?

দ্রষ্টব্য, সেই সিমটি প্রয়োজনীয়ভাবে একটি মেট্রিক নয় (যেমন ত্রিভুজ বৈষম্য ধরে রাখতে পারে বা ধরে রাখতে পারে)। অধিকন্তু, ক্লাস্টারগুলি বিচ্ছিন্ন করা ( পার্টিশনগুলি ) তা বিবেচনা করে না ।


2
আমি ভাবছি কেন আপনি জোর দিয়ে বলেন যে আপনি কি না একটি দূরত্ব আছে। আমি এখানে বিশেষজ্ঞ নই, তবে আশ্চর্য হ'ল মূলত এর বিপরীত দিক বিবেচনা করে যদি প্রয়োজন হয় তবে এই জাতীয় মিলকে দূরত্বে রূপান্তর করা সম্ভব হবে না কিনা wonder তা নির্বিশেষে, আমি সন্দেহ করি যে এখানে ক্লাস্টারিং অ্যালগরিদমগুলি রয়েছে যা সম্পূর্ণ পরামিতিগুলি থেকে মুক্ত, তাই কিছু ক্ষেত্রে সম্ভবত কিছু ক্ষেত্রে সুর করা প্রয়োজন be আপনি যখন কে-মিনস হিসাবে বিবেচনা করেছেন, তখন কেউ কী ধরে নিতে পারে যে আপনার আসল মূল্যবান বৈশিষ্ট্য রয়েছে (বিশেষত, আপনি বেশ কয়েকটি উপাদানের "গড়" নিতে পারেন )?
মার্কো 13

4
K অর্থ সম্পাদন করতে আপনাকে k জানতে হবে না। আপনি সর্বোত্তম কে সহ ক্লাস্টার করতে পারেন এবং অনুকূলটি খুঁজে পেতে ক্লাস্টার বৈকল্পিকটি পরীক্ষা করতে পারেন। বিকল্পভাবে আপনি গুউসির মিশ্রণ মডেল বা অন্যান্য পুনরায় প্রক্রিয়া প্রক্রিয়াগুলির মতো যা আপনাকে ক্লাস্টারে সহায়তা করার বিষয়ে ভাবতে পারে।
cwharland

2
আমি একটি নির্দিষ্ট কারণের জন্য প্রশ্নগুলি জিজ্ঞাসা করেছি: আপনি যদি কে-মিন প্রয়োগ করতে পারতেন তবে প্রাথমিক সমস্যাটি কেবল "কে" সন্ধান করছিল, তবে আপনি বিকল্প হিসাবে এন.ইউইকিপিডিয়া . org / উইকি / সেল্ফ-অর্গানাইজিং_ম্যাপটিকে বিবেচনা করতে পারেন । এটিতে কিছু দুর্দান্ত বৈশিষ্ট্য রয়েছে এবং মূলত কে-মিনের সাথে "অনুরূপ" আচরণ করে তবে প্রাথমিক "কে" সেট করার দরকার নেই। এটি সম্ভবত কোনও বাক্সের বাইরে সমাধান নয়, কারণ এটির অতিরিক্ত টিউনিং প্যারামিটার রয়েছে (এবং প্রশিক্ষণটি কম্পিউটারের তুলনায় ব্যয়বহুল হতে পারে) তবে তবুও এটি একটি মূল্যবান worth
মার্কো 13

2
কে এর প্রাথমিক পছন্দটি ক্লাস্টারিংয়ের ফলাফলগুলিকে প্রভাবিত করে তবে আপনি একটি ক্ষতির ক্রিয়া বা সম্ভবত একটি নির্ভুলতা ফাংশন সংজ্ঞায়িত করতে পারেন যা আপনাকে ক্লাস্টারে ব্যবহৃত প্রতিটি কে, যে ক্লাস্টারের সমস্ত বিষয়ের তুলনামূলক মিল বলে বলে। আপনি সেই কে বেছে নিন যা সেই মিলের মধ্যে বৈকল্পিকতা হ্রাস করে। জিএমএম এবং অন্যান্য ডাইরিচলেট প্রক্রিয়াগুলি না-জানা-কে সমস্যাটি বেশ ভালভাবে যত্ন করে। আমি এটি দেখেছি সেরা উত্সগুলির মধ্যে একটি হ'ল এডউইন চেনের টিউটোরিয়াল
cwharland

4
শুধু একটি চিন্তা: আপনার আদল স্কোর স্বাভাবিক হয় তাহলে 1 তুলনায় 1-sim(ei, ej) = Distance। দূরত্বের মেট্রিকের সাথে আপনি উদাহরণস্বরূপ শ্রেণিবিন্যাসের জন্য আবেদন করতে পারেন। মূল থেকে নীচে নেমে গেলে আপনি দেখতে পাবেন কোন নির্দিষ্ট স্তরের গ্রানুলারিটি ক্লাস্টারগুলি আপনার বিশেষ সমস্যার জন্য বোঝায়।
অলেক্সান্দ্র ইসায়াইভ

উত্তর:


9
  1. আমি মনে করি যে বেশিরভাগ ক্লাস্টারিং অ্যালগরিদমগুলি সাধারণত একটি মেট্রিক ব্যবহার করে, তারা আসলে মেট্রিক বৈশিষ্ট্যের উপর নির্ভর করে না (পরিবহন ব্যতীত অন্যথায়, তবে আমার মনে হয় আপনি এখানে এটি পেয়েছেন)। উদাহরণস্বরূপ, ডিবিএসসিএএন একটি পয়েন্টের চারপাশে অ্যাপসিলন-পাড়া ব্যবহার করে; সেখানে কিছুই নেই যা বিশেষত ত্রিভুজ বৈষম্যের বিষয়টি বলে there সুতরাং আপনি সম্ভবত ডিবিএসসিএন ব্যবহার করতে পারেন, যদিও আপনার ক্ষেত্রে দক্ষ অনুসন্ধানের জন্য আপনাকে কিছু ধরণের নন-স্ট্যান্ডার্ড স্পেসিয়াল ইনডেক্স করতে হতে পারে। আপনার অ্যাপসিলন-পাড়ার সংস্করণটি সম্ভবত অন্য দিকের চেয়ে সিম> 1 / এপসিলন হবে। কে-মানে এবং সম্পর্কিত অ্যালগরিদমের সাথে একই গল্প।

  2. আপনি কি নিজের মিল থেকে কোনও মেট্রিক তৈরি করতে পারেন? একটি সম্ভাবনা: দূর (ei, ej) = মিনিট (সিম (ei, ek) + সিম (এক, এজে)) সমস্ত কে জন্য ... পর্যায়ক্রমে, আপনি একটি উচ্চতর বাউন্ড যেমন সিম (ei, ej) <সিম সরবরাহ করতে পারেন (ei, ek) + সিম (এক, এজে) + ডি, সমস্ত কে এবং কিছু ধনাত্মক ধ্রুবক ডি জন্য? স্বজ্ঞাতভাবে, বড় সিম মানগুলি এক সাথে কাছাকাছি অর্থাত: 1 / সিম মেট্রিকের মতো? 1 / (সিম + ধ্রুবক) সম্পর্কে কী? সমস্ত কে জন্য মিনিট (1 / সিম (ei, এক) + 1 / সিম (এক, এজে)) সম্পর্কে কী? (এটি সর্বশেষে মেট্রিক, বিটিডব্লিউর গ্যারান্টিযুক্ত)

  3. কোনও মেট্রিকের বিকল্প নির্মাণ একটি এম্বেডিং করা। প্রথম পদক্ষেপ হিসাবে, আপনি আপনার পয়েন্টগুলি ম্যাপ করার চেষ্টা করতে পারেন ei -> xi, যেমন xi ন্যূনতম যোগফল (অ্যাবস (সিম (ইআই, ইজি) - এফ (ডিএস (এক্সআই, এক্সজে))), কিছু উপযুক্ত ফাংশন এবং মেট্রিকের জন্য ডি। ফাংশন এফ এম্বেডিংয়ের মধ্যে দূরত্বকে একটি সাদৃশ্যের মতো মানের রূপান্তরিত করে; আপনাকে কিছুটা পরীক্ষা করতে হবে তবে 1 / ডিসট বা এক্সপ্রেস ist -ডিসিটি ভাল সূচনা পয়েন্ট। আপনাকে সেরাটিও পরীক্ষা করতে হবে xi এর জন্য মাত্রা। সেখান থেকে আপনি Xi এ প্রচলিত ক্লাস্টারিং ব্যবহার করতে পারেন idea এখানে ধারণাটি হ'ল আপনি প্রায় (সেরা উপযুক্ত অর্থে) আপনার দূরত্বগুলিকে মিলের মানগুলিতে এম্বেড করার ক্ষেত্রে রূপান্তর করতে পারেন, তাই তারা সঠিকভাবে ক্লাস্টার হবে would

  4. পূর্বনির্ধারিত পরামিতিগুলির ব্যবহারের ক্ষেত্রে, সমস্ত অ্যালগরিদমে কিছু টিউনিং থাকে। ডিবিএসসিএন ক্লাস্টারের সংখ্যা খুঁজে পেতে পারে, তবে আপনাকে এটি এখনও কিছু পরামিতি দিতে হবে। সাধারনত, টিউনিংয়ের জন্য সুর্য প্যারামিটারগুলির জন্য বিভিন্ন মান সহ অ্যালগরিদমের একাধিক রান প্রয়োজন হয়, একসাথে এমন কিছু ফাংশন যা ধার্মিকতা-ক্লাস্টারিংয়ের মূল্যায়ন করে (হয় আলাদাভাবে গণনা করা হয়, নিজেই ক্লাস্টারিং অ্যালগরিদম দ্বারা সরবরাহ করা হয়, বা কেবল চোখের দলা :) যদি চরিত্রটি থাকে আপনার ডেটা পরিবর্তন হয় না, আপনি একবার টিউন করতে পারেন এবং তারপরে এই নির্দিষ্ট পরামিতিগুলি ব্যবহার করতে পারেন; যদি এটি পরিবর্তন হয় তবে আপনাকে প্রতিটি রানের জন্য টিউন করতে হবে। প্রতিটি রানের জন্য টিউন করে এবং তারপরে নির্দিষ্টভাবে তৈরি হওয়া প্যারামিটারগুলির তুলনায় এক রান থেকে অন্য পরামিতিগুলি কতটা ভাল কাজ করে তা তুলনা করে আপনি এটি খুঁজে পেতে পারেন।


8

অ্যালেক্স বেশ কয়েকটি ভাল পয়েন্ট তৈরি করেছে, যদিও তার এই প্রসঙ্গে আমাকে কিছুটা পিছনে ফেলে দিতে হতে পারে যে এখানে ব্যবহারের জন্য ডিবিএসসিএনই সেরা ক্লাস্টারিং অ্যালগরিদম m আপনার বাস্তবায়নের উপর নির্ভর করে এবং আপনি ত্বরণ সূচকগুলি ব্যবহার করছেন কিনা (অনেকগুলি বাস্তবায়ন হয় না), আপনার সময় এবং স্থান জটিলতা উভয়ই হবে O(n2), যা আদর্শের থেকে অনেক দূরে।

ব্যক্তিগতভাবে, আমার গো-ক্লাস্টারিং অ্যালগরিদমগুলি উইনার-টেক-অল ক্লাস্টারিংয়ের জন্য ওপেনআর্ড এবং ফাজি ক্লাস্টারিংয়ের জন্য ফ্ল্যামেড। উভয় পদ্ধতিই ব্যবহার করা মেট্রিকগুলি মিল বা দূরত্ব (বিশেষত FLAME উভয় নির্মাণে প্রায় একই রকম) কিনা তা সম্পর্কে উদাসীন। গিফিতে ওপেনঅর্ডের বাস্তবায়ন গিফি O(nlogn)প্যাকেজে উপস্থিত অন্যান্য ক্লাস্টারিং অ্যালগরিদমগুলির তুলনায় আরও স্কেলযোগ্য এবং পরিচিত।

অন্যদিকে ফ্লায়ম দুর্দান্ত হয় যদি আপনি কোনও अस्पष्ट ক্লাস্টারিং পদ্ধতিটি সন্ধান করেন। যদিও এফএলএমএর জটিলতা এটি একটি পুনরাবৃত্ত প্রক্রিয়া হ'ল নির্ধারণ করা একটু কঠিন, তবে এটি উপ-চতুষ্কোণ এবং একই সাথে বদ্ধ গতিতেও দেখা গেছে।


5

ডিবিএসসান (এটিও দেখুন: জেনারেলাইজড ডিবিএসসিএএন) দূরত্বের প্রয়োজন হয় না। এটির জন্য কেবল একটি বাইনারি সিদ্ধান্ত । সাধারণত, কেউ "দূরত্ব <অ্যাপসিলন" ব্যবহার করবে তবে কিছুই বলে না যে আপনি "অনুরূপতা> অ্যাপসিলন" এর পরিবর্তে ব্যবহার করতে পারবেন না। ত্রিভুজ বৈষম্য ইত্যাদি প্রয়োজন হয় না।

নাম হিসাবে বলা যায় যে অ্যাফিনিটির প্রচার, মিলগুলি ব্যবহার করে।

হায়ারারিকিকাল ক্লাস্টারিং, সম্ভবত ওয়ার্ডের যোগসূত্রটি ব্যতীত কোনও অনুমান করে না। অনেকগুলি প্রয়োগে আপনি যখন সাদৃশ্য পান তখন কেবল নেতিবাচক দূরত্ব ব্যবহার করতে পারেন এবং এটি ঠিক কাজ করবে। কারণ যা প্রয়োজন তা হ'ল ন্যূনতম, সর্বোচ্চ এবং <।

কার্নেল কে-মানে কাজ করতে পারে যদি আপনার মিলটি একটি ভাল কার্নেল ফাংশন হয়। এটিকে আলাদা ভেক্টর স্পেসে কে-মাইটিং গণনা হিসাবে ভাবেন, যেখানে ইউক্লিডিয়ান দূরত্বটি আপনার মিলের ফাংশনের সাথে মিলে যায়। তবে আপনার কে জানতে হবে know

প্যাম (কে-মেডোইডস) কাজ করা উচিত। প্রতিটি বস্তুকে সর্বাধিক সাদৃশ্য মিডিয়ায় নির্ধারণ করুন, তারপরে নতুন মেডোড হিসাবে সর্বোচ্চ গড় মিলের সাথে অবজেক্টটি চয়ন করুন ... ত্রিভুজ অসমতার প্রয়োজন নেই।

... এবং সম্ভবত আরও অনেক। আক্ষরিক অর্থে শত শত ক্লাস্টারিং অ্যালগরিদম রয়েছে।বেশিরভাগ আইএমএইচও কাজ করা উচিত । খুব কম লোককে আসলে মেট্রিক বৈশিষ্ট্যের প্রয়োজন বলে মনে হয়। কে-মানেগুলির সম্ভবত সবচেয়ে শক্তিশালী প্রয়োজনীয়তা রয়েছে: এটি বৈকল্পিকতা হ্রাস করে (দূরত্ব বা সাদৃশ্য নয়), এবং আপনাকে অবশ্যই গণনা করতে সক্ষম হতে হবে।


4

টপোলজিকাল ডেটা অ্যানালাইসিস হ'ল এমন একটি পদ্ধতি যা আপনার বিবরণটি নির্ধারণের জন্য স্পষ্টভাবে তৈরি করা হয়েছে। বৈশ্বিক দূরত্বের মেট্রিকের পরিবর্তে, এটি কেবলমাত্র স্থানীয় মেট্রিকের সান্নিধ্য বা আশেপাশের উপর নির্ভর করে। দেখুন: টপোলজি এবং ডেটা এবং টপোলজি ব্যবহার করে জটিল ডেটার আকার থেকে অন্তর্দৃষ্টি প্রত্যাহার । আপনি আয়াসদীর জন্য অতিরিক্ত সংস্থানগুলি ওয়েবসাইটে খুঁজে পেতে পারেন।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.