আমি শিখেছি যে বেশ কয়েকটি ক্লাস্টার বেছে নেওয়ার সময় আপনার কে এর বিভিন্ন মানের জন্য একটি কনুই পয়েন্ট সন্ধান করা উচিত I've কনুই. আপনি এই ধরনের ক্ষেত্রে কি করবেন?
আমি শিখেছি যে বেশ কয়েকটি ক্লাস্টার বেছে নেওয়ার সময় আপনার কে এর বিভিন্ন মানের জন্য একটি কনুই পয়েন্ট সন্ধান করা উচিত I've কনুই. আপনি এই ধরনের ক্ষেত্রে কি করবেন?
উত্তর:
হতে পারে আপনি আপনার সমস্যার জন্য ভুল অ্যালগরিদম ব্যবহার করছেন।
কে-অর্থ প্রাকপ্রসেসিংয়ের জন্য অত্যন্ত সংবেদনশীল। যদি একটি বৈশিষ্ট্য অন্যের তুলনায় অনেক বড় স্কেলে থাকে তবে এটি আউটপুটে প্রভাব ফেলবে। আপনার আউটপুটটি তখন কার্যকরভাবে 1-মাত্রিক হবে
আপনি যাই করুন না কেন, আপনার ফলাফলগুলি এসএসকিউর মতো একটি নম্বর থেকে শুরু করে অন্য কোনও কিছু দ্বারা আপনার বৈধতা প্রমাণিত করতে হবে। পরিবর্তে, ভিজ্যুয়ালাইজেশন বিবেচনা করুন ।
ভিজ্যুয়ালাইজেশন আপনাকে এও বলতে পারে যে সম্ভবত আপনার ডেটাতে কেবল একটি ক্লাস্টার রয়েছে।
একটি উপায় হ'ল আপনার ক্লাস্টারে সদস্যদের একটি নির্দিষ্ট কে-এর জন্য ম্যানুয়ালি পরীক্ষা করে দেখতে হবে যে গ্রুপগুলি অর্থবোধ করে (তারা কি আলাদা করা যায়?)। এটি কন্টিনজেন্সি টেবিল এবং শর্তসাপেক্ষ উপায়ে করা যেতে পারে। বিভিন্ন কে এর জন্য এটি করুন এবং আপনি কোন মানটি উপযুক্ত তা নির্ধারণ করতে পারেন।
সিলুয়েট মানটি ব্যবহার করা একটি কম বিষয়গত উপায় way
/programming/18285434/how-do-i-choose-k-when-using-k-means-clustering-with-silhouette-function
এটি আপনার প্রিয় সফ্টওয়্যার প্যাকেজের সাথে গণনা করা যেতে পারে। লিঙ্ক থেকে:
এই পদ্ধতিটি কেবলমাত্র আন্তঃ-গ্রুপের সাদৃশ্যটিকে নিকটতম গ্রুপের মিলের সাথে তুলনা করে। যদি একই ক্লাস্টারের অন্যান্য সদস্যদের কোনও ডেটা সদস্যের গড় দূরত্ব যদি কিছু অন্যান্য ক্লাস্টারের সদস্যের গড় দূরত্বের চেয়ে বেশি হয়, তবে এই মানটি নেতিবাচক এবং ক্লাস্টারিং সফল নয়। অন্যদিকে, 1 এর নিকটে সিলুয়েট মানগুলি একটি সফল ক্লাস্টারিং অপারেশন নির্দেশ করে। 0.5 ক্লাস্টারিংয়ের জন্য একটি সঠিক পরিমাপ নয়।
contingency tables and conditional means
এটি আরও রহস্যময়। তাদের সাথে আমার কী করা উচিত একটি ভাল কে-তে "সাবজেক্টিভালি" পৌঁছাতে?
সাধারণত, আপনি বিবেচনা করতে পারেন:
আমরা কে এর সর্বোত্তম মানটি খুঁজে পেতে NbClust প্যাকেজটি ব্যবহার করতে পারি। এটি ক্লাস্টারের সংখ্যা নির্ধারণের জন্য 30 টি সূচক সরবরাহ করে এবং সেরা ফলাফলের প্রস্তাব দেয়।
এনবিক্লাস্ট (ডেটা = ডিএফ, দূরত্ব = "ইউক্লিডিয়ান", মিনিট সিএনসি = 2, ম্যাক্স.সিএনসি = 15, পদ্ধতি = "কেমিয়ানস", সূচক = "সমস্ত")