সময় সিরিজের ডেটা বিশ্লেষণ করতে আমি শ্রেণিবদ্ধ ক্লাস্টারিং ব্যবহার করছি। আমার কোড ম্যাথমেটিকা ফাংশন ব্যবহার করে প্রয়োগ করা হয়েছে DirectAgglomerate[...]
, যা নিম্নলিখিত ইনপুটগুলি দিয়ে শ্রেণিবদ্ধ ক্লাস্টার উত্পন্ন করে:
একটি দূরত্বের ম্যাট্রিক্স ডি
আন্ত-ক্লাস্টার সংযোগ নির্ধারণ করতে ব্যবহৃত পদ্ধতির নাম।
আমি ম্যানহাটনের দূরত্ব ব্যবহার করে দূরত্বের ম্যাট্রিক্স ডি গণনা করেছি:
যেখানে এবং আমার সময় সিরিজের ডেটা পয়েন্টের সংখ্যা।
আমার প্রশ্ন হ'ল ম্যানহাটনের দূরত্বের ম্যাট্রিক্সের সাথে ওয়ার্ডের আন্ত-ক্লাস্টার সংযোগটি ব্যবহার করা ঠিক কি? কিছু সূত্র ধরেছে যে ওয়ার্ডের যোগসূত্রটি কেবল ইউক্লিডিয়ান দূরত্বের সাথে ব্যবহার করা উচিত।
নোট করুন যে DirectAgglomerate[...]
মূল পর্যবেক্ষণগুলি নয়, কেবল দূরত্বের ম্যাট্রিক্স ব্যবহার করে ওয়ার্ডের লিংকেজ গণনা করে। দুর্ভাগ্যক্রমে, আমি নিশ্চিত নই যে গণিত কীভাবে ওয়ার্ডের মূল অ্যালগোরিদমকে সংশোধন করে, যা (আমার বোধ থেকে) পর্যবেক্ষণের স্কোয়ারের ত্রুটি সংক্ষিপ্তকরণকে ক্লাস্টারের মানে অনুসারে গণনা করে কাজ করেছিল। উদাহরণস্বরূপ, ইউনিভার্সিয়াল পর্যবেক্ষণগুলির একটি ভেক্টর সমন্বয়ে একটি ক্লাস্টার জন্য , ওয়ার্ডটি স্কোয়ারগুলির ত্রুটি যোগফলটি তৈরি করেছিল:
(যেমন মতলব এবং R অন্যান্য সফ্টওয়্যার সরঞ্জাম এছাড়াও শুধু একটি দূরত্ব ম্যাট্রিক্স ব্যবহার তাই প্রশ্ন ম্যাথামেটিকাল নির্দিষ্ট নয় ওয়ার্ড এর ক্লাস্টারিং বাস্তবায়ন।)