ক্লাস্টার বিশ্লেষণগুলি ব্যাখ্যা করার চেষ্টা করার সময়, ভেরিয়েবলগুলি পরস্পর সম্পর্কিত কিনা তা সম্পর্কিত হওয়ার কারণে লোকেরা প্রক্রিয়াটিকে ভুল বোঝে is লোকদের বিভ্রান্ত করার একটি উপায় হ'ল এইরকম একটি চক্রান্ত:
এটি ক্লাস্টার রয়েছে কিনা এবং ভেরিয়েবলগুলি সম্পর্কিত কিনা এই প্রশ্নের মধ্যে স্পষ্টভাবে তা প্রদর্শন করে। তবে এটি কেবল অবিচ্ছিন্ন তথ্যের পার্থক্যের চিত্রিত করে। বিভাগীয় ডেটা সহ অ্যানালগ ভাবতে আমার সমস্যা হচ্ছে:
ID property.A property.B
1 yes yes
2 yes yes
3 yes yes
4 yes yes
5 no no
6 no no
7 no no
8 no no
আমরা দেখতে পাচ্ছি যে দুটি পরিষ্কার ক্লাস্টার রয়েছে: এ এবং বি উভয় সম্পত্তি সম্বলিত লোক এবং যারাই নেই। তবে, আমরা যদি ভেরিয়েবলগুলি লক্ষ্য করি (যেমন, চি-স্কোয়ার্ড টেস্ট সহ), সেগুলি স্পষ্টভাবে সম্পর্কিত:
tab
# B
# A yes no
# yes 4 0
# no 0 4
chisq.test(tab)
# X-squared = 4.5, df = 1, p-value = 0.03389
আমি দেখতে পেয়েছি যে উপরের ক্রমাগত ডেটাগুলির সাথে সাদৃশ্যপূর্ণ শ্রেণিবদ্ধ ডেটা দিয়ে কীভাবে উদাহরণ তৈরি করতে পারি তার জন্য আমি ক্ষতির মধ্যে আছি। ভেরিয়েবলের পাশাপাশি সম্পর্কিত না করেও খাঁটি শ্রেণিবদ্ধ তথ্যগুলিতে গুচ্ছ থাকা কি সম্ভব? ভেরিয়েবলের দুটি স্তরের বেশি থাকে বা আপনার সংখ্যার চেয়ে বেশি ভেরিয়েবল থাকে তাইলে কী হবে? যদি পর্যবেক্ষণের ক্লাস্টারিং অগত্যা ভেরিয়েবল এবং তদ্বিপরীতদের মধ্যে সম্পর্ক জড়িত করে, এর অর্থ কি এই বোঝা যাচ্ছে যে ক্লাস্টারিং করা যখন আপনার কাছে কেবল শ্রেণিবদ্ধ ডেটা থাকে (যেমন, পরিবর্তে আপনার কেবল পরিবর্তনগুলি বিশ্লেষণ করা উচিত) তা করা উপযুক্ত নয়?
আপডেট: আমি মূল প্রশ্নটি থেকে অনেকটাই এড়িয়ে গেছি কারণ আমি কেবল এই ধারণার উপরে ফোকাস করতে চেয়েছিলাম যে একটি সাধারণ উদাহরণ তৈরি করা যেতে পারে যা অবিলম্বে স্বজ্ঞাত হতে পারে এমনকি এমন কাউকে এমনকি ক্লাস্টার বিশ্লেষণের সাথে অপরিচিত। তবে, আমি স্বীকার করেছি যে অনেকগুলি ক্লাস্টারিং হ'ল দূরত্ব এবং অ্যালগরিদম ইত্যাদির পছন্দগুলির উপর নির্ভরশীল, যদি আমি আরও নির্দিষ্ট করে থাকি তবে এটি সহায়তা করতে পারে।
আমি জানি যে পিয়ারসনের পারস্পরিক সম্পর্কটি কেবলমাত্র অবিচ্ছিন্ন তথ্যের জন্য উপযুক্ত। শ্রেণিবদ্ধ তথ্যগুলির জন্য, আমরা শ্রেণিবদ্ধ ভেরিয়েবলগুলির স্বাধীনতা মূল্যায়নের উপায় হিসাবে চি-স্কোয়ার্ড পরীক্ষা (দ্বি-মুখী आकस्मिक টেবিলের জন্য) বা লগ-লিনিয়ার মডেল (বহু-উপায় কন্টিনজেন্সি টেবিলগুলির জন্য) ভাবতে পারি।
অ্যালগরিদমের জন্য, আমরা কে-মেডোইডস / পিএএম ব্যবহার করে কল্পনা করতে পারি, যা ধারাবাহিক পরিস্থিতি এবং শ্রেণিবদ্ধ ডেটা উভয় ক্ষেত্রেই প্রয়োগ করা যেতে পারে। (দ্রষ্টব্য, ধারাবাহিক উদাহরণের পিছনের অভিপ্রায় অংশটি হ'ল যে কোনও যুক্তিসঙ্গত ক্লাস্টারিং অ্যালগরিদম সেই ক্লাস্টারগুলি সনাক্ত করতে সক্ষম হওয়া উচিত এবং যদি তা না হয় তবে আরও চরম উদাহরণ তৈরি করা সম্ভব হবে))
দূরত্ব ধারণা সম্পর্কে। আমি অবিচ্ছিন্ন উদাহরণের জন্য ইউক্লিডিয়ান ধরে নিয়েছি, কারণ এটি কোনও নিরীহ দর্শকের পক্ষে সবচেয়ে বেসিক হবে। আমি মনে করি যে শ্রেণিবিন্যাসের ডেটাগুলির জন্য সাদৃশ্যপূর্ণ দূরত্বটি (যে এটি সবচেয়ে তাত্ক্ষণিক স্বজ্ঞাত হবে) সহজ মিলবে। যাইহোক, আমি অন্যান্য দূরত্বের আলোচনার জন্য প্রস্তুত যদি এটি সমাধান বা কেবল একটি আকর্ষণীয় আলোচনার দিকে নিয়ে যায়।
[data-association]
ট্যাগটি যুক্ত করেছেন বলে মনে হচ্ছে । আমি নিশ্চিত যে এটি কী বোঝাতে চাইছে এবং এটির কোনও অংশ / ব্যবহার নির্দেশিকা নেই। আমাদের কি এই ট্যাগটি সত্যই দরকার? মুছে ফেলার জন্য ভাল প্রার্থীর মতো মনে হচ্ছে। যদি সত্যিই আমাদের সিভিতে এটির প্রয়োজন হয় এবং আপনি কী জানেন যে এটি কী হওয়ার কথা, তবে আপনি কি অন্তত এর জন্য একটি অংশ যোগ করতে পারেন?