আমার একটি ডেটাসেট এক্স রয়েছে যার 10 টি মাত্রা রয়েছে যার মধ্যে 4 টি আলাদা মান। আসলে, এই 4 টি পৃথক ভেরিয়েবলগুলি অর্ডিনাল, অর্থাত্ একটি উচ্চতর মান উচ্চতর / আরও ভাল শব্দার্থ বোঝায়।
এই পৃথক ভেরিয়েবলগুলির মধ্যে 2 এই অর্থে শ্রেণিবদ্ধ যে এই প্রতিটি পরিবর্তকের জন্য, 11 থেকে 12 পর্যন্ত দূরত্ব 5 থেকে 6 এর দূরত্বের মতো নয় তবে উচ্চতর ভেরিয়েবলের মান বাস্তবে উচ্চতর বোঝায়, স্কেলটি হ'ল অগত্যা রৈখিক নয় (বাস্তবে এটি সংজ্ঞায়িত নয়)।
আমার প্রশ্নটি হ'ল:
- এই ডেটাসেটে পৃথক এবং অবিচ্ছিন্ন ভেরিয়েবল উভয়ই রয়েছে এমন একটি সাধারণ ক্লাস্টারিং অ্যালগরিদম (উদাহরণস্বরূপ কে-মিনস এবং তারপরে গাউসিয়ান মিক্সচার (জিএমএম)) প্রয়োগ করা কি ভাল ধারণা?
যদি না:
- আমার কি পৃথক ভেরিয়েবলগুলি সরিয়ে ফেলা উচিত এবং কেবল ধারাবাহিকের উপর ফোকাস করা উচিত?
- আমি কি আরও অবিরতগুলিকে আরও ভালভাবে বিবেচনা করব এবং আলাদা ডেটার জন্য একটি ক্লাস্টারিং অ্যালগরিদম ব্যবহার করব?