এক বা অন্য উপায়, প্রতিটি ক্লাস্টারিং অ্যালগরিদম পয়েন্টগুলির "সান্নিধ্য" এর কিছু ধারণার উপর নির্ভর করে। এটি স্বজ্ঞাতভাবে পরিষ্কার বলে মনে হচ্ছে যে আপনি হয় আপেক্ষিক (স্কেল-ইনগ্রেন্ট) ধারণা বা নৈকট্যের একটি নিখুঁত (ধারাবাহিক) ধারণাটি ব্যবহার করতে পারেন, তবে উভয়ই নয় ।
আমি প্রথমে এটি একটি উদাহরণ দিয়ে ব্যাখ্যা করার চেষ্টা করব, এবং তারপরে এই বুদ্ধিটি ক্লিনবার্গের উপপাদ্যের সাথে কীভাবে খাপ খায় তা বলব।
একটি উদাহরণস্বরূপ উদাহরণ
ধরা যাক, আমাদের সমুদ্রের 270 পয়েন্টের দুটি সেট এবং এস 2 রয়েছে , বিমানটিতে এভাবে সাজানো:S1S2270
আপনি এই ছবিগুলির কোনও পয়েন্ট দেখতে পাবেন না , তবে এটি কেবল কারণ পয়েন্টগুলির অনেকগুলি খুব কাছাকাছি রয়েছে। আমরা জুম বাড়ানোর সময় আমরা আরও পয়েন্টগুলি দেখতে পাই:270
আপনি সম্ভবত স্বতঃসংশ্লিষ্ট হবেন যে উভয় ডেটা সেটে পয়েন্টগুলি তিনটি ক্লাস্টারে সাজানো হয়েছে। যাইহোক, দেখা যাচ্ছে যে আপনি এর তিনটি ক্লাস্টারের যেকোনটিতে জুম বাড়ালে আপনি নীচের দেখতে পাবেন:S2
আপনি যদি সান্নিধ্যের একটি নিখুঁত ধারণা, বা ধারাবাহিকতায় বিশ্বাসী হন তবে আপনি এখনও তা বজায় রাখতে পারবেন, আপনি কেবল মাইক্রোস্কোপের নীচে যা দেখেছিলেন তা নির্বিশেষে, এর মধ্যে কেবল তিনটি গুচ্ছ রয়েছে। প্রকৃতপক্ষে, এস 1 এবং এস 2 এর মধ্যে একমাত্র পার্থক্য হ'ল, প্রতিটি ক্লাস্টারের মধ্যে কিছু পয়েন্ট এখন এক সাথে কাছাকাছি রয়েছে। তাহলে, অপরপক্ষে, আপনি নৈকট্য একটি আপেক্ষিক ধারণা বিশ্বাস করি, বা স্কেল invariance, আপনি যুক্তি দিতে চাই যে আকৃষ্ট হয়ে পড়ব করব এস 2 না গঠিত 3 কিন্তু 3 × 3 = 9 ক্লাস্টার। এই দৃষ্টিকোণগুলির কোনওটিই ভুল নয়, তবে আপনাকে এক উপায় বা অন্য কোনও উপায়ে বেছে নিতে হবে।S2S1S2S233×3=9
আইসোমেট্রি ইনভেরিয়েন্সের ক্ষেত্রে একটি মামলা
আপনি যদি ক্লিনবার্গের উপপাদ্যটির সাথে উপরের স্বীকৃতিটির তুলনা করেন, তবে আপনি দেখতে পাবেন যে এগুলি কিছুটা দ্বন্দ্বের মধ্যে রয়েছে। প্রকৃতপক্ষে, ক্লেইনবার্গের উপপাদ্যটি বলে মনে হচ্ছে আপনি যতক্ষণ না calledশ্বর্য নামে পরিচিত তৃতীয় সম্পত্তির যত্ন না রাখেন ততক্ষণ আপনি একই সাথে স্কেল ইনভেরিয়েন্স এবং ধারাবাহিকতা অর্জন করতে পারবেন । তবে, যদি আপনি একই সাথে স্কেল অদলবদল এবং ধারাবাহিকতার জন্য জোর দেন তবে nessশ্বর্যই কেবলমাত্র আপনার সম্পত্তি হারাবে না। আপনি আরেকটি, আরও মৌলিক সম্পত্তি হারাবেন: আইসোমেট্রি-ইনভেরিয়েন্স। এটি এমন সম্পত্তি যা আমি উত্সর্গ করতে রাজি নই। যেহেতু এটি ক্লেইনবার্গের কাগজে প্রকাশিত হয়নি, আমি এক মুহুর্তের জন্য এটিতে থাকব।
সংক্ষেপে, একটি ক্লাস্টারিং অ্যালগোরিদমটি isometry invariant হয় যদি এর আউটপুট কেবলমাত্র পয়েন্টগুলির মধ্যে দূরত্বের উপর নির্ভর করে, এবং আপনার পয়েন্টগুলির সাথে সংযুক্ত লেবেলের মতো কিছু অতিরিক্ত তথ্যের উপর নয় বা আপনি আপনার পয়েন্টগুলির উপর চাপিয়ে দেওয়ার আদেশে। আমি আশা করি এটি খুব হালকা এবং খুব প্রাকৃতিক অবস্থার মতো শোনাচ্ছে। ক্লিনবার্গের গবেষণাপত্রে আলোচিত সমস্ত অ্যালগরিদম হ'ল আইসোমেট্রি ইনগ্রানেন্ট , ক্লসটার স্টপিং শর্তের সাথে একক সংযোগ অ্যালগরিদম ব্যতীত । ক্লেইনবার্গের বর্ণনা অনুসারে, এই অ্যালগরিদমটি পয়েন্টগুলির একটি অভিধানিক ক্রম ব্যবহার করে, সুতরাং এর আউটপুটটি কীভাবে আপনি তাদের লেবেল করেছেন তার উপর নির্ভর করে। উদাহরণস্বরূপ, তিনটি সামঞ্জস্যপূর্ণ পয়েন্টের একটি সেটের জন্য, 2 এর সাথে একক লিঙ্কেজ অ্যালগরিদমের আউটপুটk2-ক্লাস্টার স্টপিং শর্ত আপনি আপনার তিনটি পয়েন্টকে "বিড়াল", "কুকুর", "মাউস" (সি <ডি <মি) হিসাবে বা "টম", "স্পাইক", "জেরি" (জে) হিসাবে লেবেল করুন কিনা সে অনুযায়ী বিভিন্ন উত্তর দেবে <এস <টি):
এই অপ্রাকৃত আচরণ অবশ্যই খুব সহজেই ক্লসটার স্টপিং শর্তটিকে একটি " ( ≤ কে ) -ক্লাস্টার স্টপিং শর্ত" দিয়ে প্রতিস্থাপনের মাধ্যমে সহজেই মেরামত করা যায় । ধারণাটি কেবল সামঞ্জস্যপূর্ণ পয়েন্টগুলির মধ্যে সম্পর্ক ছিন্ন করা নয় , এবং বেশিরভাগ কে ক্লাস্টারে পৌঁছানোর সাথে সাথে ক্লাস্টারগুলিকে মার্জ করা বন্ধ করা নয় । এই মেরামত করা অ্যালগরিদম এখনও বেশিরভাগ সময় কে ক্লাস্টার উত্পাদন করে এবং এটি আইসোমেট্রি ইনগ্রান্ট এবং স্কেল ইনগ্রায়েন্ট হবে। উপরে বর্ণিত অন্তর্দৃষ্টিগুলির সাথে একমত হয়ে তবে এটি আর সুসংগত হবে না।k(≤k) kk
Isometry invariance এর একটি সুনির্দিষ্ট সংজ্ঞা জন্য, রিকল Kleinberg একটি সংজ্ঞায়িত যে ক্লাস্টারিং অ্যালগরিদম একটি নির্দিষ্ট সেট একটি মানচিত্র হিসাবে প্রতিটি মেট্রিক নির্ধারণ এস একটি পার্টিশন এস :
Γ : { উপর ছন্দোবিজ্ঞান এস } → { এর পার্টিশন এস }SSS
একটিisometry আমি মধ্যে দুই বৈশিষ্ট্যের মান ঘ এবং ঘ ' তে এস একটি বিন্যাস হল আমি : এস → S যেমন যে ঘ ' ( আমি ( এক্স ) , আমি ( Y ) ) = D ( এক্স , Y ) জন্য সব পয়েন্ট x এবং Y মধ্যে এস ।
Γ:{metrics on S}→{partitions of S}d↦Γ(d)
idd′Si:S→Sd′(i(x),i(y))=d(x,y)xyS
সংজ্ঞা: একটি ক্লাস্টারিং অ্যালগরিদম হয় isometry পরিবর্তিত হলে সন্তুষ্ট নিম্নলিখিত শর্ত: কোনো বৈশিষ্ট্যের মান জন্য ঘ এবং ঘ ' , এবং যে কোনো isometry আমি তাদের মধ্যে, পয়েন্ট আমি ( এক্স ) এবং আমি ( Y ) একই ক্লাস্টারের মধ্যে মিথ্যা Γ ( d ′ ) যদি এবং কেবলমাত্র মূল পয়েন্ট x এবং y একই ক্লাস্টারে Γ ( d ) থাকে ।Γdd′ii(x)i(y)Γ(d′)xyΓ(d)
আমরা যখন আলগোরিদিম ক্লাস্টারিং সম্পর্কে চিন্তা, আমরা প্রায়ই বিমূর্ত সেট চিহ্নিত সমতলে পয়েন্ট একটি কংক্রিটের সেট দিয়ে, অথবা অন্য পরিবেষ্টনকারী স্থান, এবং মেট্রিক নানারকম কল্পনা এস পয়েন্ট চলন্ত হিসাবে এস প্রায়। প্রকৃতপক্ষে, আমরা উপরে বর্ণিত উদাহরণস্বরূপ উদাহরণটিতে এটি দেখলাম। এই প্রসঙ্গে, আইসোমেট্রি ইনভেরিয়েন্স মানে আমাদের ক্লাস্টারিং অ্যালগরিদম ঘূর্ণন, প্রতিবিম্ব এবং অনুবাদগুলির প্রতি সংবেদনশীল নয়।SSS
ক্লিনবার্গের উপপাদ্যের একটি রূপ var
উপরে বর্ণিত স্বজ্ঞাতগুলি ক্লেইনবার্গের উপপাদ্যটির নীচের রূপটি দ্বারা ধরা পড়ে।
উপপাদ্য: কোনও অ-তুচ্ছ আইসোমেট্রি-ইনভেরিয়েন্ট ক্লাস্টারিং অ্যালগরিদম নেই যা একই সাথে সামঞ্জস্যপূর্ণ এবং স্কেল-ইনগ্রেন্টেট t
এখানে, একটি তুচ্ছ ক্লাস্টারিং অ্যালগরিদম দ্বারা, আমি নিম্নলিখিত দুটি অ্যালগরিদমের একটি বোঝাতে চাইছি:
পৃথক পার্টিশনের প্রতিটি মেট্রিককে যে অ্যালগরিদম বরাদ্দ করে , যেখানে প্রতিটি ক্লাস্টারে একটি বিন্দু থাকে,S
অ্যালগরিদম যা লম্প পার্টিশনের প্রতিটি মেট্রিককে একক ক্লাস্টার সমন্বয়ে নির্ধারিত করে।S
দাবিটি হ'ল এই মূর্খ আলগোরিদিমগুলি কেবলমাত্র দুটি আইসমেট্রি ইনগ্রানেট অ্যালগরিদম যা উভয়ই সামঞ্জস্যপূর্ণ এবং স্কেল-ইনগ্রেন্টেট are
প্রমাণ:
আসুন সসীম সেট যার উপর আমাদের এলগরিদম হতে Γ চালনা অনুমিত হয়। যাক ঘ ₁ উপর মেট্রিক হতে এস স্বতন্ত্র পয়েন্ট কোন যুগল ইউনিট দূরত্ব (অর্থাত হয়েছে যা ঘ ₁ ( এক্স , Y ) = 1 সকলের জন্য এক্স ≠ Y মধ্যে এস )। হিসাবে Γ isometry পরিবর্তিত হয়, শুধু দুটি সম্ভাবনা আছে Γ ( ঘ ₁ ) : হয় Γ ( ঘ ₁ ) বিযুক্ত পার্টিশন, অথবাSΓd₁Sd₁(x,y)=1x≠ySΓΓ(d₁)Γ(d₁) হ'ল গলিত বিভাজন। আসুন প্রথমে কেসটি দেখুন যখন Γ ( d ₁ ) বিচ্ছিন্ন পার্টিশন হয়। প্রদত্ত কোন মেট্রিক ঘ উপর এস , আমরা তাই পয়েন্ট সবকিছুর যুগল দূরত্ব আছে rescale করতে ≥ 1 অধীনে ঘ । তারপরে, ধারাবাহিকতার সাথে আমরা দেখতে পাই যে Γ ( d ) = Γ ( d ₁ ) । সুতরাং এই ক্ষেত্রে Γ হ'ল তুচ্ছ আলগোরিদিম যা প্রতিটি মেট্রিকের জন্য পৃথক বিভাজনকে বরাদ্দ করে। দ্বিতীয়ত, আসুন বিবেচনা করা যাক যে Γ (Γ(d₁)Γ(d₁)dS≥1dΓ(d)=Γ(d₁)Γ হ'ল গলিত বিভাজন। আমরা এস- তেযেকোনও মেট্রিক ডি পুনরুদ্ধার করতে পারিযাতে সমস্ত জোড়া পয়েন্টের দূরত্ব ≤ 1 থাকে , সুতরাং আবার ধারাবাহিকতা থেকেই বোঝা যায় যে Γ ( d ) = Γ ( d ₁ ) । সুতরাং Γ এছাড়াও এই ক্ষেত্রে তুচ্ছ হয়। ∎Γ(d₁)dS≤1Γ(d)=Γ(d₁)Γ
অ্যালেক্স উইলিয়ামসের উত্তরে আলোচিত, ক্লেইনবার্গের মূল উপপাদ্য সম্পর্কে মার্গারেটা অ্যাকারম্যানের প্রমাণের খুব কাছাকাছি এই প্রমাণটি।