শ্রেণিবদ্ধ ক্লাস্টারিংয়ে ওয়ার্ডের আন্ত-ক্লাস্টার সংযোগের সাথে ম্যানহাটনের দূরত্বটি ব্যবহার করা ঠিক কি?


15

সময় সিরিজের ডেটা বিশ্লেষণ করতে আমি শ্রেণিবদ্ধ ক্লাস্টারিং ব্যবহার করছি। আমার কোড ম্যাথমেটিকা ফাংশন ব্যবহার করে প্রয়োগ করা হয়েছে DirectAgglomerate[...], যা নিম্নলিখিত ইনপুটগুলি দিয়ে শ্রেণিবদ্ধ ক্লাস্টার উত্পন্ন করে:

  • একটি দূরত্বের ম্যাট্রিক্স ডি

  • আন্ত-ক্লাস্টার সংযোগ নির্ধারণ করতে ব্যবহৃত পদ্ধতির নাম।

আমি ম্যানহাটনের দূরত্ব ব্যবহার করে দূরত্বের ম্যাট্রিক্স ডি গণনা করেছি:

d(x,y)=i|xiyi|

যেখানে এবং আমার সময় সিরিজের ডেটা পয়েন্টের সংখ্যা।i=1,,nn150

আমার প্রশ্ন হ'ল ম্যানহাটনের দূরত্বের ম্যাট্রিক্সের সাথে ওয়ার্ডের আন্ত-ক্লাস্টার সংযোগটি ব্যবহার করা ঠিক কি? কিছু সূত্র ধরেছে যে ওয়ার্ডের যোগসূত্রটি কেবল ইউক্লিডিয়ান দূরত্বের সাথে ব্যবহার করা উচিত।

নোট করুন যে DirectAgglomerate[...]মূল পর্যবেক্ষণগুলি নয়, কেবল দূরত্বের ম্যাট্রিক্স ব্যবহার করে ওয়ার্ডের লিংকেজ গণনা করে। দুর্ভাগ্যক্রমে, আমি নিশ্চিত নই যে গণিত কীভাবে ওয়ার্ডের মূল অ্যালগোরিদমকে সংশোধন করে, যা (আমার বোধ থেকে) পর্যবেক্ষণের স্কোয়ারের ত্রুটি সংক্ষিপ্তকরণকে ক্লাস্টারের মানে অনুসারে গণনা করে কাজ করেছিল। উদাহরণস্বরূপ, ইউনিভার্সিয়াল পর্যবেক্ষণগুলির একটি ভেক্টর সমন্বয়ে একটি ক্লাস্টার জন্য , ওয়ার্ডটি স্কোয়ারগুলির ত্রুটি যোগফলটি তৈরি করেছিল:c

(j||cjmean(c)||2)2

(যেমন মতলব এবং R অন্যান্য সফ্টওয়্যার সরঞ্জাম এছাড়াও শুধু একটি দূরত্ব ম্যাট্রিক্স ব্যবহার তাই প্রশ্ন ম্যাথামেটিকাল নির্দিষ্ট নয় ওয়ার্ড এর ক্লাস্টারিং বাস্তবায়ন।)


আমি সম্প্রতি ওয়ার্ড পদ্ধতিটি ব্যবহার করে মোটামুটি বড় ডেটা বিশ্লেষণ করেছি। আমার নির্দিষ্ট ক্ষেত্রে মানাথন দূরত্ব ইউক্লিডিয়ান দূরত্ব হিসাবে মূলত একই ক্লাস্টারিং দিয়েছে। আমি কোনও পদ্ধতির সংমিশ্রনের পক্ষে আপনাকে কোনও গাণিতিক প্রমাণ দিতে পারি না, তবে - আমার ক্ষেত্রে এটি হ'ল - ক্লাস্টারিং দূরত্বের পদ্ধতি দ্বারা প্রভাবিত হয়নি
নিকো

সমস্ত আর ফাংশন অগত্যা দূরত্বের ম্যাট্রিক্সের জন্য অপেক্ষা করে না। যেমন দেখুন, অন লাইন সাহায্যের agnesমধ্যে ক্লাস্টার প্যাকেজ।
chl

আসলে যে কোনও দূরত্ব ব্যবহার করা ঠিক। পরীক্ষা করে দেখুন vlado.fmf.uni-lj.si/pub/preprint/ward.pdf শুধুমাত্র ধরা যে, গড় আমরা কথা বলা হয় সম্পর্কে আর গাণিতিক গড় কিন্তু Frechet গড় হয়।
রেন্ডি লাই

তবে আমরা কি পুরো সংযোগের জন্য ম্যানহাটনের দূরত্ব ব্যবহার করতে পারি ??
পায়েল ব্যানার্জি

উত্তর:


8

ওয়ার্ড ক্লাস্টারিং অ্যালগরিদম হায়ারার্কিকাল ক্লাস্টারিং পদ্ধতি যা প্রতিটি পদক্ষেপে একটি 'জড়তা' মানদণ্ডকে হ্রাস করে। এই জড়তা হ্রাস সংকেত এবং প্রাথমিক সংকেতের মধ্যে স্কোয়ার অবশিষ্টাংশের যোগফলকে পরিমাণযুক্ত করে: এটি একটি l2 (ইউক্যালিডিয়ান) সংবেদনে ত্রুটির বিভিন্নতার একটি পরিমাপ। আসলে, আপনি এমনকি আপনার প্রশ্নের মধ্যে এটি উল্লেখ। এই কারণেই, আমি বিশ্বাস করি, এটি কোনও দূরত্বের ম্যাট্রিক্সে প্রয়োগ করতে কোনও সংবেদন করে না যা এল 2 ইউক্যালিডিয়ান দূরত্ব নয়।

অন্যদিকে, একটি গড় লিঙ্কেজ বা একক লিঙ্কেজ হায়ারারিকিকাল ক্লাস্টারিং অন্যান্য দূরত্বের জন্য পুরোপুরি উপযুক্ত।


2
আপনার মন্তব্যের জন্য ধন্যবাদ; আমার মনে হচ্ছে তুমি সঠিক. যাইহোক, অনুশীলনে এটি মনে হয় ওয়ার্ডের সংযোগটি প্রায়শই ইউক্লিডীয় দূরত্বে ব্যবহৃত হয়। এর প্রভাব কী হতে পারে তা আমি এখনও নিশ্চিত নই।
রাহেল

এটি সম্ভবত ওয়ার্ড ব্যবহারকারীদের কাছ থেকে এসেছে কারণ এটি সুপরিচিত। আমি বলব যে ওয়ার্ডগুলি এই সেটিংসের গড় লিঙ্কেজের তুলনায় কোনও লাভ করে না। তবে এটি আরও বেশি গণনামূলকভাবে ব্যয়বহুল (প্রতিটি সংশ্লেষের জন্য আপনাকে প্রথম দুটি মুহুর্ত গণনা করতে হবে, বা এগুলি পূর্ববর্তী করতে হবে)। সুতরাং, একটি বাস্তববাদী দৃষ্টিকোণ থেকে, আমি কেবল গড় লিঙ্কেজ জন্য যেতে হবে।
গেইল ভেরাকোয়াক্স

1
প্রকৃতপক্ষে, জড়তাটি
র্যান্ডি লাই

5

ওয়ার্ডের কোনও মেট্রিকের পক্ষে হওয়া উচিত এমন কোনও কারণ আমি ভাবতে পারি না। সংঘবদ্ধকরণের সময় কোন ক্লাস্টারগুলি পরবর্তী সংযোজন করবে তা স্থির করার জন্য ওয়ার্ডের পদ্ধতিটি কেবলমাত্র অন্য একটি বিকল্প। এই দুটি ক্লাস্টারের সন্ধানের মাধ্যমে এটি অর্জন করা হয়েছে যার ফিউশনটি একটি নির্দিষ্ট ত্রুটি ( সূত্রের জন্য আদর্শ উত্স ) হ্রাস করবে ।

সুতরাং এটি দুটি ধারণার উপর নির্ভর করে:

  1. ভেক্টরের গড় যা (সংখ্যাসূচক ভেক্টরগুলির জন্য) সাধারণত প্রতিটি মাত্রার উপরে আলাদাভাবে আলাদা করে গণনা করা হয়।
  2. দূরত্বের মেট্রিক নিজেই অর্থাৎ এই মেট্রিক দ্বারা প্রকাশিত মিলের ধারণা।

সুতরাং: যতক্ষণ না চুসেন মেট্রিকের বৈশিষ্ট্যগুলি (যেমন ঘূর্ণন, অনুবাদ বা স্কেল আগ্রাসন) আপনার চাহিদা পূরণ করে (এবং ক্লাস্টারের গড় গণনা করার পদ্ধতিতে মেট্রিক ফিট হয়), আমি এটি ব্যবহার না করার কোনও কারণ দেখতে পাচ্ছি না ।

আমি সন্দেহ করি যে বেশিরভাগ লোক ইউক্যালিডিয়ান মেট্রিকের পরামর্শ দেয় কারণ তারা

  • একটি ক্লাস্টার গড় এবং একক পর্যবেক্ষণ ভেক্টর (যা চতুর্ভুজ দ্বারা সম্পন্ন করা হয়) এর মধ্যে পার্থক্যের ওজন বাড়াতে চান
  • বা এটি তাদের ডেটার উপর ভিত্তি করে বৈধতার সেরা মেট্রিক হিসাবে এসেছে out
  • বা কারণ এটি সাধারণভাবে ব্যবহৃত হয়।

আপনার প্রতিক্রিয়ার জন্য ধন্যবাদ. আমি আমার প্রশ্নটি একটু স্পষ্ট করে তুলে ধরেছি যে 'ডাইরেক্টএগ্রগ্রোমেট [...]' অ্যালগরিদম কেবলমাত্র দূরত্বের ম্যাট্রিক্স গ্রহণ করে। এটি দেওয়া, ওয়ার্ডের সংযোগের সংশোধিত বাস্তবায়ন দূরত্বের ম্যাট্রিক্স ইউক্লিডিয়ান এই ধারণার ভিত্তিতে হবে? মতলব ওয়ার্ডের সংযোগটি বাস্তবায়িত করেছে, উদাহরণস্বরূপ, নোট করে যে এটি কেবল ইউক্লিডিয়ান দূরত্বের জন্য উপযুক্ত ( mathworks.com/help/toolbox/stats/linkage.html )।
রাহেল

1
@ রাচেল: আঃ, আমি দেখছি। যে কোনও ওয়ার্ড বাস্তবায়নকে ক্লাস্টার সদস্য এবং সেন্ট্রয়েডের মধ্যে দূরত্ব গণনা করতে হবে। স্বজ্ঞাতভাবে এটি স্পষ্ট যে এর জন্য ব্যবহৃত মেট্রিকটি পর্যবেক্ষণের মধ্যে দূরত্ব গণনা করতে ব্যবহৃত মেট্রিকের সমতুল্য হওয়া উচিত ... সুতরাং মাতলাবকে ইউক্যালিডিয়ান ডিমেট্রিক্স প্রয়োজন। কিন্তু এখন প্রশ্ন উঠেছে কেন বাস্তবায়নগুলি দূরত্বের ম্যাট্রিক্সের পরিবর্তে কোনও কার্যের অনুরোধ করে না? যখন উভয় কাজের জন্য আলাদা আলাদা মেট্রিক ব্যবহার করা হয় তখন কতটা ক্ষতি হয়? আমি স্বীকার করি, আমি এটি সঠিক জানি না।
স্টিফেন

হ্যালো উদাহরণ মুছে ফেলা হয়েছে। অন্য কোন ওয়েবসাইট?
মনস্টার এমএমওরপিজি

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.