বেশিরভাগ ধ্রুপদী ক্লাস্টারিং এবং মাত্রিকতা হ্রাস অ্যালগরিদম (হায়ারারিকিকাল ক্লাস্টারিং, মূল উপাদান বিশ্লেষণ, কে-মানে, স্ব-সংগঠিত মানচিত্র ...) বিশেষত সংখ্যাসূচক তথ্যগুলির জন্য ডিজাইন করা হয়েছে এবং তাদের ইনপুট ডেটা ইউক্যালিডিয়ান স্পেসে পয়েন্ট হিসাবে দেখা হয়।
এটি অবশ্যই একটি সমস্যা, যেমনটি অনেক বাস্তব-জগতের প্রশ্নগুলিতে ডেটা যুক্ত থাকে যা মিশ্রিত হয়: উদাহরণস্বরূপ যদি আমরা বাসগুলি অধ্যয়ন করি তবে উচ্চতা এবং দৈর্ঘ্য এবং মোটরের আকার সংখ্যা হবে তবে আমরা রঙে আগ্রহীও হতে পারি (শ্রেণিবদ্ধ পরিবর্তনশীল: নীল / লাল / সবুজ ...) এবং ক্ষমতা শ্রেণি (আদেশযুক্ত পরিবর্তনশীল: ছোট / মাঝারি / বৃহত্তর ক্ষমতা)। বিশেষত, আমরা একই সাথে এই বিভিন্ন ধরণের ভেরিয়েবলগুলি অধ্যয়ন করতে চাই।
ধ্রুপদী ক্লাস্টারিং অ্যালগোসকে মিশ্র ডেটাতে প্রসারিত করার জন্য অনেকগুলি পদ্ধতি রয়েছে, উদাহরণস্বরূপ, শ্রেণিবদ্ধ ক্লাস্টারিং বা বহু-মাত্রিক স্কেলিংয়ে প্লাগ আনতে গওয়ারের ভিন্নতা ব্যবহার করে বা ইনপুট হিসাবে দূরত্বের ম্যাট্রিক্স গ্রহণকারী অন্যান্য পদ্ধতিগুলি। বা উদাহরণস্বরূপ এই পদ্ধতিটি, মিশ্রিত ডেটাতে SOM এর একটি এক্সটেনশান।
আমার প্রশ্ন হ'ল কেন আমরা কেবল মিশ্রিত ভেরিয়েবলগুলিতে ইউক্যালিডিয়ান দূরত্ব ব্যবহার করতে পারি না? বা কেন এটি করা খারাপ? আমরা কেন কেবল শ্রেণিবদ্ধ ভেরিয়েবলগুলিকে ডামি-এনকোড করতে পারি না , সমস্ত ভেরিয়েবলগুলিকে সাধারণকরণ করতে পারি যাতে পর্যবেক্ষণগুলির মধ্যে দূরত্বের একই ওজন হয় এবং এই ম্যাট্রিকগুলিতে সাধারণ অ্যালগোস চালানো যায়?
এটি সত্যিই সহজ, এবং কখনও হয় নি, তাই আমি মনে করি এটি খুব ভুল, তবে কেউ আমাকে কেন বলতে পারেন? এবং / অথবা আমাকে কিছু রেফ দিতে হবে? ধন্যবাদ