কোনও ভেরিয়েবল বাদ দেবেন না, তবে পিসিএ ব্যবহার বিবেচনা করুন। কারণটা এখানে.
প্রথমত, অ্যানি-মৌসে দ্বারা চিহ্নিত হিসাবে, কে-উপায়গুলি কলিনারিটি / পারস্পরিক সম্পর্ক দ্বারা খারাপভাবে প্রভাবিত হয় না। এজন্য আপনাকে তথ্য ফেলে দেওয়ার দরকার নেই।
দ্বিতীয়ত, আপনি যদি নিজের ভেরিয়েবলগুলি ভুল উপায়ে ফেলে রাখেন তবে আপনি কৃত্রিমভাবে কয়েকটি নমুনা এক সাথে কাছাকাছি আনবেন। একটি উদাহরণ:
Customer CatA CatB CatC
1 1 0 0
2 0 1 0
3 0 0 1
(আমি% স্বরলিপি অপসারণ করেছি এবং কেবল 0 এবং 1 এর মধ্যে মান রেখেছি, যার ফলে সমস্তগুলি 1 এর যোগফল হয়)
(1−0)2+(0−1)2+(0−0)2−−−−−−−−−−−−−−−−−−−−−−−√=2–√
এবার ধরা যাক আপনি ক্যাটসিকে বাদ দিন।
Customer CatA CatB
1 1 0
2 0 1
3 0 0
2–√(1−0)2+(0−0)2−−−−−−−−−−−−−−−√=1
তৃতীয়ত, কলিনেরারিটি / পারস্পরিক সম্পর্ক কোনও সমস্যা নয়। আপনার মাত্রিকতা হয়। 100 ভেরিয়েবলগুলি যথেষ্ট পরিমাণে বড় যে 10 মিলিয়ন ডেটাপয়েন্ট সহ, আমি আশঙ্কা করি যে কে-মানে ডেটাগুলিতে উত্সাহী প্যাটার্নগুলি খুঁজে পেতে পারে এবং এটি উপযুক্ত fit পরিবর্তে, পিসিএটিকে আরও নিয়ন্ত্রণযোগ্য মাত্রাগুলিতে সংকুচিত করার জন্য ব্যবহার করার বিষয়ে চিন্তা করুন - 10 বা 12 বলুন শুরু করুন (সম্ভবত অনেক বেশি, সম্ভবত অনেক কম) - আপনাকে প্রতিটি উপাদানটির সাথে তারতম্যটি দেখতে হবে এবং চারপাশে খেলতে হবে কিছুটা, সঠিক নম্বরটি খুঁজতে)। আপনি কৃত্রিমভাবে এটি করে কিছু নমুনা একসাথে আনবেন, হ্যাঁ, তবে আপনি এমনভাবে এমনটি করবেন যা উপাত্তের বেশিরভাগ বৈকল্পিকতা রক্ষা করবে এবং যা পছন্দসই সম্পর্কগুলি অপসারণ করবে।
~~~~~
সম্পাদনা করুন:
আবার, পিসিএ সম্পর্কে নীচে মন্তব্য। হ্যাঁ, এর একেবারে প্যাথোলজিস রয়েছে। তবে এটি চেষ্টা করা খুব দ্রুত এবং সহজ, তাই আপনি যদি সমস্যার মাত্রিকতা হ্রাস করতে চান তবে আমার কাছে খারাপ বাজি বলে মনে হয় না।
যদিও এই নোটটিতে, আমি দ্রুত 100 টি মাত্রিক সিন্থেটিক ডেটার কয়েকটি সেট কে-মানে অ্যালগরিদমের মধ্যে ফেলে দেওয়ার চেষ্টা করেছি যাতে তারা কী আসে। যদিও ক্লাস্টার সেন্টারের অবস্থানের অনুমানগুলি যথাযথ ছিল না, তবে ক্লাস্টারের সদস্যতা (যেমন দুটি ক্লাস্টারের জন্য দুটি নমুনা নির্ধারিত হয়েছে বা না, যা ওপি আগ্রহী বলে মনে হয়) এটি যেহেতু ভেবেছিল তার চেয়ে অনেক ভাল ছিল। সুতরাং আমার অন্ত্রের অনুভূতিটি সম্ভবত খুব সম্ভবত ভুল ছিল - কে-মানে মাইগ্রেট কাজটি কাঁচা ডেটার উপর ঠিক সূক্ষ্ম।