ক্লাস্টারিং - ক্লিনবার্গের অসম্পূর্ণতা উপপাদনের পিছনে অন্তর্দৃষ্টি


17

আমি ক্লিনবার্গের এই আকর্ষণীয় বিশ্লেষণের উপর একটি ব্লগ পোস্ট লেখার বিষয়ে ভাবছিলাম (2002) যা ক্লাস্টারিংয়ের অসুবিধাটি আবিষ্কার করে। ক্লিনবার্গ একটি ক্লাস্টারিং ফাংশনটির জন্য তিনটি আপাতদৃষ্টিতে স্বজ্ঞাত ডেসিডিটারের রূপরেখা তৈরি করেছিলেন এবং তারপরে প্রমাণ করেন যে এই জাতীয় কোনও কার্য নেই। অনেক ক্লাস্টারিং অ্যালগরিদম রয়েছে যা তিনটি মানদণ্ডের মধ্যে দুটিকে সন্তুষ্ট করে; তবে কোনও ফাংশন একই সাথে তিনটিকেই সন্তুষ্ট করতে পারে না।

সংক্ষেপে এবং অনানুষ্ঠানিকভাবে, তিনি যে তিনটি দেশরেখার রূপরেখা দিয়েছেন তা হ'ল:

  • স্কেল-ইনভেরিয়েন্স : আমরা যদি ডেটাটিকে এমনভাবে রূপান্তর করি যাতে সমস্ত দিক থেকে সমানভাবে প্রসারিত হয়, তবে ক্লাস্টারিংয়ের ফলাফলটি পরিবর্তন করা উচিত নয়।
  • ধারাবাহিকতা : আমরা যদি ডেটা প্রসারিত করি যাতে ক্লাস্টারগুলির মধ্যে দূরত্ব বৃদ্ধি পায় এবং / অথবা ক্লাস্টারের মধ্যে দূরত্ব হ্রাস পায়, তবে ক্লাস্টারিংয়ের ফলাফলটি পরিবর্তন করা উচিত নয়।
  • ধনীতা : ক্লাস্টারিং ফাংশনটি তাত্ত্বিকভাবে ডেটাপয়েন্টগুলির যে কোনও স্বেচ্ছাসেবী পার্টিশন / ক্লাস্টারিং উত্পাদন করতে সক্ষম হওয়া উচিত (কোনও দুটি পয়েন্টের মধ্যে যুগলতর দূরত্ব জানার অভাবে)

প্রশ্নাবলী:

(1) একটি ভাল অন্তর্নিহিত, জ্যামিতিক ছবি এই তিনটি মানদণ্ডের মধ্যে অসঙ্গতি দেখাতে পারে?

(২) এটি কাগজে প্রযুক্তিগত বিবরণ বোঝায়। প্রশ্নের এই অংশটি বুঝতে আপনাকে উপরের লিঙ্কটি পড়তে হবে।

কাগজটিতে, উপপাদ্য 3.1 এর প্রমাণটি আমার পক্ষে পয়েন্টগুলিতে অনুসরণ করা কিছুটা কঠিন। আমি আটকে আছি: "যাক f । একটি ক্লাস্টারিং ফাংশন হবে মাফিক সমন্নয় আমরা দাবী করে যে কোন পার্টিশনের জন্য ΓRange(f) , সেখানে ইতিবাচক বাস্তব সংখ্যার অস্তিত্ব a<b যেমন যে যুগল (a,b) হয় Γ - অত্যাচার। "

আমি দেখতে পাচ্ছি না কিভাবে এই ক্ষেত্রে হতে পারেন ... একটি পাল্টা উদাহরণ যেখানে নিচে পার্টিশন নয় a>b (অর্থাত ন্যূনতম ক্লাস্টার মধ্যে দূরত্ব ক্লাস্টার মধ্যে সর্বাধিক দূরত্ব চেয়ে বেশী)?

counterexample?

সম্পাদনা করুন: এটি স্পষ্টভাবে একটি পাল্টা নমুনা নয়, আমি নিজেকে বিভ্রান্ত করছি (উত্তর দেখুন)।


অন্যান্য কাগজপত্র:


"ধারাবাহিকতা" সম্পর্কিত: ক্লাস্টারগুলি ইতিমধ্যে ভালভাবে পৃথকীকৃত হলেই এই বৈশিষ্ট্যটি স্বজ্ঞাতভাবে পছন্দ হয়। তারা যখন না থাকে, তখন বিশ্লেষণের জন্য ডেটাগুলিতে গুচ্ছের সংখ্যা নিয়ে একটি সমস্যা রয়েছে, যেহেতু এটি নিরীক্ষণযোগ্য, তাই এটি একটি প্রশ্ন। তারপরে এটি আশা করা একেবারেই স্বাভাবিক যে আপনি ধীরে ধীরে ক্লাস্টারগুলির মধ্যে দূরত্ব যুক্ত করার সাথে (যেমন তারা আপনার দ্বারা উত্পাদিত হয়েছিল) বিশ্লেষণ ক্লাস্টারিং প্রক্রিয়া চলাকালীন এটির কার্যাদি পরিবর্তন করে।
ttnphns

"Nessশ্বর্য" সম্পর্কে: আমি দুঃখিত আমি এর অর্থ কী বুঝতে পারিনি (কমপক্ষে আপনি এটি রেখেছেন)। ক্লাস্টারিং অ্যালগরিদমগুলি অনেকগুলি, কীভাবে আপনি আশা করতে পারেন যে তারা সকলেই কিছু নির্দিষ্ট অভিনব প্রয়োজন মেনে চলে?
ttnphns

আপনার চিত্রের ক্ষেত্রে: এই জাতীয় নিদর্শনটি সনাক্ত করতে বিশেষ ক্লাস্টারিং পদ্ধতিগুলির প্রয়োজন। Ditionতিহ্যবাহী / আসল ক্লাস্টারিং পদ্ধতিগুলি জীববিজ্ঞান এবং সমাজবিজ্ঞান থেকে উদ্ভূত, যেখানে ক্লাস্টারগুলি কমপক্ষে গোলাকার ঘন "দ্বীপপুঞ্জ" থাকে, আটল রিং নয়। এই পদ্ধতিগুলি ছবির ডেটা সামাল দেওয়ার দাবি করতে পারে না।
ttnphns

আপনার আগ্রহীও হতে পারে: এস্টিভিল-কাস্ত্রো, ভ্লাদিমির। "এত ক্লাস্টারিং অ্যালগরিদম কেন: একটি অবস্থানের কাগজ" " ACM SIGKDD এক্সপ্লোরেশন নিউজলেটার 4.1 (2002): 65-75।
অ্যানি-মাউসে -মেনিকা

আমি কাগজ পড়িনি। তবে অনেকগুলি ক্লাস্টারিং অ্যালগরিদমগুলিতে আপনার কিছু দূরত্বের প্রান্তিকতা থাকে (যেমন DBSCAN, শ্রেণিবদ্ধ ক্লাস্টারিং)। আপনি যদি মাউসের দূরত্বগুলি পরিমাপ করেন তবে সেই অনুযায়ী আপনার প্রান্তিকতাও স্কেল করতে হবে। সুতরাং, আমি তার স্কেল-চালানের প্রয়োজনীয়তার সাথে একমত নই। আমিও nessশ্বর্যের সাথে একমত নই। প্রতিটি বিভাজন অবশ্যই প্রতিটি অ্যালগরিদমের বৈধ সমাধান হতে পারে না। লক্ষ লক্ষ এলোমেলো পার্টিশন রয়েছে।
অ্যানি-মাউসে -মেনিকা

উত্তর:


11

এক বা অন্য উপায়, প্রতিটি ক্লাস্টারিং অ্যালগরিদম পয়েন্টগুলির "সান্নিধ্য" এর কিছু ধারণার উপর নির্ভর করে। এটি স্বজ্ঞাতভাবে পরিষ্কার বলে মনে হচ্ছে যে আপনি হয় আপেক্ষিক (স্কেল-ইনগ্রেন্ট) ধারণা বা নৈকট্যের একটি নিখুঁত (ধারাবাহিক) ধারণাটি ব্যবহার করতে পারেন, তবে উভয়ই নয়

আমি প্রথমে এটি একটি উদাহরণ দিয়ে ব্যাখ্যা করার চেষ্টা করব, এবং তারপরে এই বুদ্ধিটি ক্লিনবার্গের উপপাদ্যের সাথে কীভাবে খাপ খায় তা বলব।

একটি উদাহরণস্বরূপ উদাহরণ

ধরা যাক, আমাদের সমুদ্রের 270 পয়েন্টের দুটি সেট এবং এস 2 রয়েছে , বিমানটিতে এভাবে সাজানো:S1S2270

two sets of 270 points

আপনি এই ছবিগুলির কোনও পয়েন্ট দেখতে পাবেন না , তবে এটি কেবল কারণ পয়েন্টগুলির অনেকগুলি খুব কাছাকাছি রয়েছে। আমরা জুম বাড়ানোর সময় আমরা আরও পয়েন্টগুলি দেখতে পাই:270

set 1 with zoom

আপনি সম্ভবত স্বতঃসংশ্লিষ্ট হবেন যে উভয় ডেটা সেটে পয়েন্টগুলি তিনটি ক্লাস্টারে সাজানো হয়েছে। যাইহোক, দেখা যাচ্ছে যে আপনি এর তিনটি ক্লাস্টারের যেকোনটিতে জুম বাড়ালে আপনি নীচের দেখতে পাবেন:S2

set 2 with zoom

আপনি যদি সান্নিধ্যের একটি নিখুঁত ধারণা, বা ধারাবাহিকতায় বিশ্বাসী হন তবে আপনি এখনও তা বজায় রাখতে পারবেন, আপনি কেবল মাইক্রোস্কোপের নীচে যা দেখেছিলেন তা নির্বিশেষে, এর মধ্যে কেবল তিনটি গুচ্ছ রয়েছে। প্রকৃতপক্ষে, এস 1 এবং এস 2 এর মধ্যে একমাত্র পার্থক্য হ'ল, প্রতিটি ক্লাস্টারের মধ্যে কিছু পয়েন্ট এখন এক সাথে কাছাকাছি রয়েছে। তাহলে, অপরপক্ষে, আপনি নৈকট্য একটি আপেক্ষিক ধারণা বিশ্বাস করি, বা স্কেল invariance, আপনি যুক্তি দিতে চাই যে আকৃষ্ট হয়ে পড়ব করব এস 2 না গঠিত 3 কিন্তু 3 × 3 = 9 ক্লাস্টার। এই দৃষ্টিকোণগুলির কোনওটিই ভুল নয়, তবে আপনাকে এক উপায় বা অন্য কোনও উপায়ে বেছে নিতে হবে।S2S1S2S233×3=9

আইসোমেট্রি ইনভেরিয়েন্সের ক্ষেত্রে একটি মামলা

আপনি যদি ক্লিনবার্গের উপপাদ্যটির সাথে উপরের স্বীকৃতিটির তুলনা করেন, তবে আপনি দেখতে পাবেন যে এগুলি কিছুটা দ্বন্দ্বের মধ্যে রয়েছে। প্রকৃতপক্ষে, ক্লেইনবার্গের উপপাদ্যটি বলে মনে হচ্ছে আপনি যতক্ষণ না calledশ্বর্য নামে পরিচিত তৃতীয় সম্পত্তির যত্ন না রাখেন ততক্ষণ আপনি একই সাথে স্কেল ইনভেরিয়েন্স এবং ধারাবাহিকতা অর্জন করতে পারবেন । তবে, যদি আপনি একই সাথে স্কেল অদলবদল এবং ধারাবাহিকতার জন্য জোর দেন তবে nessশ্বর্যই কেবলমাত্র আপনার সম্পত্তি হারাবে না। আপনি আরেকটি, আরও মৌলিক সম্পত্তি হারাবেন: আইসোমেট্রি-ইনভেরিয়েন্স। এটি এমন সম্পত্তি যা আমি উত্সর্গ করতে রাজি নই। যেহেতু এটি ক্লেইনবার্গের কাগজে প্রকাশিত হয়নি, আমি এক মুহুর্তের জন্য এটিতে থাকব।

সংক্ষেপে, একটি ক্লাস্টারিং অ্যালগোরিদমটি isometry invariant হয় যদি এর আউটপুট কেবলমাত্র পয়েন্টগুলির মধ্যে দূরত্বের উপর নির্ভর করে, এবং আপনার পয়েন্টগুলির সাথে সংযুক্ত লেবেলের মতো কিছু অতিরিক্ত তথ্যের উপর নয় বা আপনি আপনার পয়েন্টগুলির উপর চাপিয়ে দেওয়ার আদেশে। আমি আশা করি এটি খুব হালকা এবং খুব প্রাকৃতিক অবস্থার মতো শোনাচ্ছে। ক্লিনবার্গের গবেষণাপত্রে আলোচিত সমস্ত অ্যালগরিদম হ'ল আইসোমেট্রি ইনগ্রানেন্ট , ক্লসটার স্টপিং শর্তের সাথে একক সংযোগ অ্যালগরিদম ব্যতীত । ক্লেইনবার্গের বর্ণনা অনুসারে, এই অ্যালগরিদমটি পয়েন্টগুলির একটি অভিধানিক ক্রম ব্যবহার করে, সুতরাং এর আউটপুটটি কীভাবে আপনি তাদের লেবেল করেছেন তার উপর নির্ভর করে। উদাহরণস্বরূপ, তিনটি সামঞ্জস্যপূর্ণ পয়েন্টের একটি সেটের জন্য, 2 এর সাথে একক লিঙ্কেজ অ্যালগরিদমের আউটপুটk2-ক্লাস্টার স্টপিং শর্ত আপনি আপনার তিনটি পয়েন্টকে "বিড়াল", "কুকুর", "মাউস" (সি <ডি <মি) হিসাবে বা "টম", "স্পাইক", "জেরি" (জে) হিসাবে লেবেল করুন কিনা সে অনুযায়ী বিভিন্ন উত্তর দেবে <এস <টি):

clustering of {cat, dog, mouse} versus {Tom, Spike, Jerry}

এই অপ্রাকৃত আচরণ অবশ্যই খুব সহজেই ক্লসটার স্টপিং শর্তটিকে একটি " ( কে ) -ক্লাস্টার স্টপিং শর্ত" দিয়ে প্রতিস্থাপনের মাধ্যমে সহজেই মেরামত করা যায় । ধারণাটি কেবল সামঞ্জস্যপূর্ণ পয়েন্টগুলির মধ্যে সম্পর্ক ছিন্ন করা নয় , এবং বেশিরভাগ কে ক্লাস্টারে পৌঁছানোর সাথে সাথে ক্লাস্টারগুলিকে মার্জ করা বন্ধ করা নয় । এই মেরামত করা অ্যালগরিদম এখনও বেশিরভাগ সময় কে ক্লাস্টার উত্পাদন করে এবং এটি আইসোমেট্রি ইনগ্রান্ট এবং স্কেল ইনগ্রায়েন্ট হবে। উপরে বর্ণিত অন্তর্দৃষ্টিগুলির সাথে একমত হয়ে তবে এটি আর সুসংগত হবে না।k(k) kk

Isometry invariance এর একটি সুনির্দিষ্ট সংজ্ঞা জন্য, রিকল Kleinberg একটি সংজ্ঞায়িত যে ক্লাস্টারিং অ্যালগরিদম একটি নির্দিষ্ট সেট একটি মানচিত্র হিসাবে প্রতিটি মেট্রিক নির্ধারণ এস একটি পার্টিশন এস : Γ : { উপর ছন্দোবিজ্ঞান  এস } { এর পার্টিশন  এস }SSS একটিisometry আমি মধ্যে দুই বৈশিষ্ট্যের মান এবং' তে এস একটি বিন্যাস হল আমি : এস S যেমন যে' ( আমি ( এক্স ) , আমি ( Y ) ) = D ( এক্স , Y ) জন্য সব পয়েন্ট x এবং Y মধ্যে এস

Γ:{metrics on S}{partitions of S}dΓ(d)
iddSi:SSd(i(x),i(y))=d(x,y)xyS

সংজ্ঞা: একটি ক্লাস্টারিং অ্যালগরিদম হয় isometry পরিবর্তিত হলে সন্তুষ্ট নিম্নলিখিত শর্ত: কোনো বৈশিষ্ট্যের মান জন্য এবং ' , এবং যে কোনো isometry আমি তাদের মধ্যে, পয়েন্ট আমি ( এক্স ) এবং আমি ( Y ) একই ক্লাস্টারের মধ্যে মিথ্যা Γ ( d ) যদি এবং কেবলমাত্র মূল পয়েন্ট x এবং y একই ক্লাস্টারে Γ ( d ) থাকেΓddii(x)i(y)Γ(d)xyΓ(d)

আমরা যখন আলগোরিদিম ক্লাস্টারিং সম্পর্কে চিন্তা, আমরা প্রায়ই বিমূর্ত সেট চিহ্নিত সমতলে পয়েন্ট একটি কংক্রিটের সেট দিয়ে, অথবা অন্য পরিবেষ্টনকারী স্থান, এবং মেট্রিক নানারকম কল্পনা এস পয়েন্ট চলন্ত হিসাবে এস প্রায়। প্রকৃতপক্ষে, আমরা উপরে বর্ণিত উদাহরণস্বরূপ উদাহরণটিতে এটি দেখলাম। এই প্রসঙ্গে, আইসোমেট্রি ইনভেরিয়েন্স মানে আমাদের ক্লাস্টারিং অ্যালগরিদম ঘূর্ণন, প্রতিবিম্ব এবং অনুবাদগুলির প্রতি সংবেদনশীল নয়।SSS

a set of points in the plane, and two rotations of it

ক্লিনবার্গের উপপাদ্যের একটি রূপ var

উপরে বর্ণিত স্বজ্ঞাতগুলি ক্লেইনবার্গের উপপাদ্যটির নীচের রূপটি দ্বারা ধরা পড়ে।

উপপাদ্য: কোনও অ-তুচ্ছ আইসোমেট্রি-ইনভেরিয়েন্ট ক্লাস্টারিং অ্যালগরিদম নেই যা একই সাথে সামঞ্জস্যপূর্ণ এবং স্কেল-ইনগ্রেন্টেট t

এখানে, একটি তুচ্ছ ক্লাস্টারিং অ্যালগরিদম দ্বারা, আমি নিম্নলিখিত দুটি অ্যালগরিদমের একটি বোঝাতে চাইছি:

  1. পৃথক পার্টিশনের প্রতিটি মেট্রিককে যে অ্যালগরিদম বরাদ্দ করে , যেখানে প্রতিটি ক্লাস্টারে একটি বিন্দু থাকে,S

  2. অ্যালগরিদম যা লম্প পার্টিশনের প্রতিটি মেট্রিককে একক ক্লাস্টার সমন্বয়ে নির্ধারিত করে।S

দাবিটি হ'ল এই মূর্খ আলগোরিদিমগুলি কেবলমাত্র দুটি আইসমেট্রি ইনগ্রানেট অ্যালগরিদম যা উভয়ই সামঞ্জস্যপূর্ণ এবং স্কেল-ইনগ্রেন্টেট are

প্রমাণ: আসুন সসীম সেট যার উপর আমাদের এলগরিদম হতে Γ চালনা অনুমিত হয়। যাক উপর মেট্রিক হতে এস স্বতন্ত্র পয়েন্ট কোন যুগল ইউনিট দূরত্ব (অর্থাত হয়েছে যা ( এক্স , Y ) = 1 সকলের জন্য এক্স Y মধ্যে এস )। হিসাবে Γ isometry পরিবর্তিত হয়, শুধু দুটি সম্ভাবনা আছে Γ ( ) : হয় Γ ( ) বিযুক্ত পার্টিশন, অথবাSΓdSd(x,y)=1xySΓΓ(d)Γ(d) হ'ল গলিত বিভাজন। আসুন প্রথমে কেসটি দেখুন যখন Γ ( d ) বিচ্ছিন্ন পার্টিশন হয়। প্রদত্ত কোন মেট্রিক উপর এস , আমরা তাই পয়েন্ট সবকিছুর যুগল দূরত্ব আছে rescale করতে1 অধীনে । তারপরে, ধারাবাহিকতার সাথে আমরা দেখতে পাই যে Γ ( d ) = Γ ( d ) । সুতরাং এই ক্ষেত্রে Γ হ'ল তুচ্ছ আলগোরিদিম যা প্রতিটি মেট্রিকের জন্য পৃথক বিভাজনকে বরাদ্দ করে। দ্বিতীয়ত, আসুন বিবেচনা করা যাক যে Γ (Γ(d)Γ(d)dS1dΓ(d)=Γ(d)Γ হ'ল গলিত বিভাজন। আমরা এস- তেযেকোনও মেট্রিক ডি পুনরুদ্ধার করতে পারিযাতে সমস্ত জোড়া পয়েন্টের দূরত্ব1 থাকে , সুতরাং আবার ধারাবাহিকতা থেকেই বোঝা যায় যে Γ ( d ) = Γ ( d ) । সুতরাং Γ এছাড়াও এই ক্ষেত্রে তুচ্ছ হয়। ∎Γ(d)dS1Γ(d)=Γ(d)Γ

অ্যালেক্স উইলিয়ামসের উত্তরে আলোচিত, ক্লেইনবার্গের মূল উপপাদ্য সম্পর্কে মার্গারেটা অ্যাকারম্যানের প্রমাণের খুব কাছাকাছি এই প্রমাণটি।


7

এটি অন্তর্নিহিততা নিয়ে এসেছি ( আমার ব্লগ পোস্টের একটি স্নিপেট এখানে )।

enter image description here

d1d2d3d2d3d1d1d3d2d3


আপনি কি ডি 2 এর নীচে বাম মানে? আপনার ডায়াগ্রাম সম্পর্কে একটি দুর্দান্ত বিষয় এটি দেখায় যে কীভাবে ধারাবাহিকতা একটি সাধারণ পছন্দসই সম্পত্তি নয় (বা এটি খুব শিথিলভাবে তৈরি করা হয়)।
xan

হ্যাঁ নীচে বাম, সেই অনুযায়ী উত্তর সম্পাদনা করুন। ধন্যবাদ!
অ্যালেক্স উইলিয়ামস 21

আপনার উত্তরটি পুরোপুরি বোঝার আগে আমি যুক্তি নিয়ে এসেছি যা আপনার দ্বৈত হতে পারে: একটি ক্লাস্টার দিয়ে শুরু করুন যেখানে সমস্ত পয়েন্ট একই ক্লাস্টারে রয়েছে। এটিকে অন্য কোনও ব্যবস্থার ক্ষুদ্র সংস্করণে সঙ্কুচিত করে এবং এটিকে অন্য ব্যবস্থার পূর্ণ আকারের আকারে স্কেল করে এটিকে অন্য যে কোনও ব্যবস্থায় রূপান্তর করুন।
xan
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.