সঠিক দূরত্ব নির্বাচন করা প্রাথমিক কাজ নয়। যখন আমরা কোনও ডেটা সেটে একটি ক্লাস্টার বিশ্লেষণ করতে চাই, তখন বিভিন্ন দূরত্ব ব্যবহার করে বিভিন্ন ফলাফল উপস্থিত হতে পারে, তাই কোন দূরত্বে নির্বাচন করা উচিত সে সম্পর্কে সতর্কতা অবলম্বন করা খুব গুরুত্বপূর্ণ কারণ আমরা একটি ভ্রান্ত ভাল আর্টফ্যাক্ট তৈরি করতে পারি যা তাত্পর্যকে ভালভাবে ক্যাপচার করতে পারে তবে আসলে ছাড়া আমাদের সমস্যা বোধ।
ইউক্লিডিয় যখন আমি ক্রমাগত সংখ্যাসূচক ভেরিয়েবল আছে এবং আমি পরম দূরত্বের প্রতিফলিত করতে চান দূরত্ব উপযুক্ত। এই দূরত্বটি প্রতিটি ভেরিয়েবলকে বিবেচনা করে এবং অতিরিক্ত কাজগুলি অপসারণ করে না, সুতরাং আমার যদি তিনটি ভেরিয়েবল থাকে যা একই ব্যাখ্যা দেয় (পারস্পরিক সম্পর্কযুক্ত), তবে আমি এই প্রভাবটি তিনটি করে ওজন করব। তদুপরি, এই দূরত্বটি স্কেল অবিস্মরণীয় নয়, তাই সাধারণত দূরত্বটি ব্যবহার করার জন্য আমাকে আগে স্কেল করতে হবে।
উদাহরণ বাস্তুশাস্ত্র: আমাদের অনেক অঞ্চল থেকে বিভিন্ন পর্যবেক্ষণ রয়েছে, যার মধ্যে বিশেষজ্ঞরা কিছু মাইক্রোবায়োলজিকাল, শারীরিক এবং রাসায়নিক উপাদানগুলির নমুনা নিয়েছেন। আমরা বাস্তুতন্ত্রের নিদর্শনগুলি খুঁজতে চাই। এই কারণগুলির একটি উচ্চতর সম্পর্ক রয়েছে তবে আমরা জানি যে প্রত্যেকে প্রাসঙ্গিক, তাই আমরা এই অপ্রয়োজনীয়তাগুলি সরাতে চাই না। আমরা ইউনিটগুলির প্রভাব এড়াতে স্কেলড ডেটা সহ ইউক্লিডিয়ান দূরত্ব ব্যবহার করি।
আমার যখন অবিচ্ছিন্ন সংখ্যাগত পরিবর্তনশীল থাকে এবং আমি পরম দূরত্বকে প্রতিবিম্বিত করতে চাই তবে মহালানোবিসের দূরত্ব যথাযথ we তবে আমরা অপ্রয়োজনীয়তা দূর করতে চাই। যদি আমাদের বারবার পরিবর্তনশীল হয় তবে তাদের পুনরাবৃত্তি প্রভাব অদৃশ্য হয়ে যাবে।
পরিবার Hellinger , প্রজাতি প্রোফাইল এবং জ্যা দূরত্ব উপযুক্ত যখন আমরা ভেরিয়েবল মধ্যে পার্থক্য ওপর গুরুত্ব করার বিষয়ে নিশ্চিত, যখন আমরা প্রোফাইলের পার্থক্য করতে চাই। প্রতিটি পর্যবেক্ষণের মোট পরিমাণ অনুসারে এই দূরত্বগুলির ওজন এইভাবে হয় যে পরিবর্তনশীল দ্বারা পরিবর্তনশীল ব্যক্তিরা আরও বেশি মিলিত হলে দূরত্বগুলি ছোট হয়, যদিও পরম পরিমাপের দিকগুলি ছিল একেবারেই আলাদা। সতর্ক থেকো! এই দূরত্বগুলি প্রোফাইলগুলির মধ্যে পার্থক্যটি খুব ভালভাবে প্রতিফলিত করে, তবে মাত্রার প্রভাবটি হারিয়েছে। যখন আমাদের বিভিন্ন নমুনা আকার থাকে তারা এগুলি খুব কার্যকর হতে পারে।
উদাহরণ বাস্তুশাস্ত্র: আমরা অনেক জমির প্রাণিকুলের অধ্যয়ন করতে চাই এবং আমাদের গ্যাস্ট্রোপডের একটি জায়ের একটি ডাটা ম্যাট্রিক্স রয়েছে (কলামগুলিতে সারি ও প্রজাতির নামের নমুনা তৈরি করা)। ম্যাট্রিক্সটি অনেকগুলি শূন্য এবং বিভিন্ন আকারের দ্বারা চিহ্নিত করা হয় কারণ কিছু অঞ্চলে কিছু প্রজাতি থাকে এবং অন্যদের মধ্যে অন্যান্য প্রজাতি থাকে। আমরা হ্যালিঞ্জার দূরত্ব ব্যবহার করতে পারি।
ব্রা-কার্টিস একেবারে অনুরূপ, তবে আমরা যখন প্রোফাইলগুলি আলাদা করতে চাই এবং তুলনামূলক আকার বাড়িয়ে তুলি তখন এটি আরও উপযুক্ত more