কামেন ক্লাস্টারিংয়ের কোনও কনুই পয়েন্ট না থাকলে আপনি কী করবেন


13

আমি শিখেছি যে বেশ কয়েকটি ক্লাস্টার বেছে নেওয়ার সময় আপনার কে এর বিভিন্ন মানের জন্য একটি কনুই পয়েন্ট সন্ধান করা উচিত I've কনুই. আপনি এই ধরনের ক্ষেত্রে কি করবেন?

কষ্টকর কেমিয়ানস


2
এখানে অনেকগুলি ক্লাস্টারিং মাপদণ্ড রয়েছে, "এসএস কনুই" বিধিটি কেবল একটি এবং সেরা নয়। অন্য চেষ্টা করুন। এটি সম্ভবত আপনার ডেটাতে গুচ্ছ নেই।
ttnphns

@ttnphns আপনি এই রহস্যময় অন্যান্য কিসের কথা বলছেন? আমি কীভাবে আমার ডেটাগুলিতে গুচ্ছ থাকতে পারি না? আমি কিভাবে জানবো?
গ্লেন

উত্তর:


7

ভুল পদ্ধতি?

হতে পারে আপনি আপনার সমস্যার জন্য ভুল অ্যালগরিদম ব্যবহার করছেন।

ভুল প্রিপ্রোসেসিং?

কে-অর্থ প্রাকপ্রসেসিংয়ের জন্য অত্যন্ত সংবেদনশীল। যদি একটি বৈশিষ্ট্য অন্যের তুলনায় অনেক বড় স্কেলে থাকে তবে এটি আউটপুটে প্রভাব ফেলবে। আপনার আউটপুটটি তখন কার্যকরভাবে 1-মাত্রিক হবে

ফলাফলগুলি ভিজ্যুয়ালাইজ করুন

আপনি যাই করুন না কেন, আপনার ফলাফলগুলি এসএসকিউর মতো একটি নম্বর থেকে শুরু করে অন্য কোনও কিছু দ্বারা আপনার বৈধতা প্রমাণিত করতে হবে। পরিবর্তে, ভিজ্যুয়ালাইজেশন বিবেচনা করুন ।

ভিজ্যুয়ালাইজেশন আপনাকে এও বলতে পারে যে সম্ভবত আপনার ডেটাতে কেবল একটি ক্লাস্টার রয়েছে।


বহুমাত্রিক ডেটার জন্য কিছু ভাল ভিজ্যুয়ালাইজেশন বিকল্পগুলি কী কী?
জেরেমি

1
আপনার ডেটা উপর নির্ভর করে। কিছু ডেটা ভালভাবে অনুমান করা যায়, কারণ এতে অনেক কম অভ্যন্তরীণ মাত্রা রয়েছে। টাইম সিরিজটি সহজেই প্লট করা যায় এবং আপনার ডেটা যদি সিরিয়ালযুক্ত চিত্র হয় তবে এটি চিত্র হিসাবে ভিজ্যুয়ালাইজ করবেন? যে কোনও উপায়ে, ভিজ্যুয়ালাইজেশন আপনার ডেটার উপর নির্ভর করে , কখনও কোনও এক-আকারের ফিট-সব সমাধান হতে পারে না।
কিট আছে - অ্যানি-মৌসে

3

একটি উপায় হ'ল আপনার ক্লাস্টারে সদস্যদের একটি নির্দিষ্ট কে-এর জন্য ম্যানুয়ালি পরীক্ষা করে দেখতে হবে যে গ্রুপগুলি অর্থবোধ করে (তারা কি আলাদা করা যায়?)। এটি কন্টিনজেন্সি টেবিল এবং শর্তসাপেক্ষ উপায়ে করা যেতে পারে। বিভিন্ন কে এর জন্য এটি করুন এবং আপনি কোন মানটি উপযুক্ত তা নির্ধারণ করতে পারেন।

সিলুয়েট মানটি ব্যবহার করা একটি কম বিষয়গত উপায় way

/programming/18285434/how-do-i-choose-k-when-using-k-means-clustering-with-silhouette-function

এটি আপনার প্রিয় সফ্টওয়্যার প্যাকেজের সাথে গণনা করা যেতে পারে। লিঙ্ক থেকে:

এই পদ্ধতিটি কেবলমাত্র আন্তঃ-গ্রুপের সাদৃশ্যটিকে নিকটতম গ্রুপের মিলের সাথে তুলনা করে। যদি একই ক্লাস্টারের অন্যান্য সদস্যদের কোনও ডেটা সদস্যের গড় দূরত্ব যদি কিছু অন্যান্য ক্লাস্টারের সদস্যের গড় দূরত্বের চেয়ে বেশি হয়, তবে এই মানটি নেতিবাচক এবং ক্লাস্টারিং সফল নয়। অন্যদিকে, 1 এর নিকটে সিলুয়েট মানগুলি একটি সফল ক্লাস্টারিং অপারেশন নির্দেশ করে। 0.5 ক্লাস্টারিংয়ের জন্য একটি সঠিক পরিমাপ নয়।


গ্লেন, আমি ব্যক্তিগতভাবে মনে করি আপনার উত্তরটি অসম্পূর্ণ। 1 ম অনুচ্ছেদটি অস্পষ্ট দেখাচ্ছে। সেই "ম্যানুয়াল ইন্সপেক্টিং" কী, আপনি কি প্রক্রিয়াটি বর্ণনা করতে পারেন? তারপরে, সিলুয়েট "কম সাবজেক্টিভ" কিসের চেয়ে কম ? এবং কেন?
ttnphns

@ttnphns উত্তর আপডেট হয়েছে।
গ্লেন

contingency tables and conditional meansএটি আরও রহস্যময়। তাদের সাথে আমার কী করা উচিত একটি ভাল কে-তে "সাবজেক্টিভালি" পৌঁছাতে?
ttnphns

@ttnphns পোস্টারটির বিষয়ে যদি প্রশ্ন থাকে তবে আমি ফলোআপ করব। আমি যেমন বলেছি গ্রুপগুলি পার্থক্যযোগ্য কিনা তা পরীক্ষা করার জন্য আপনার পরীক্ষা করা উচিত। এটা আমার কাছে স্পষ্ট মনে হয়েছে।
গ্লেন

সুতরাং যদি আমি কম সিলুয়েট মান (~ .35) পাই তবে এটি ইঙ্গিত করতে পারে যে এই ডেটাতে আসলে ভাল ক্লাস্টার নেই?
জেরেমি

0
  • কে-অর্থের জন্য কোনও কনুইয়ের অর্থ এই নয় যে ডেটাগুলিতে কোনও ক্লাস্টার নেই;
  • কোনও কনুইয়ের অর্থ এই নয় যে ব্যবহৃত অ্যালগরিদম ক্লাস্টারগুলি পৃথক করতে পারে না; (কেন্দ্রীভূত চেনাশোনাগুলির জন্য ডি-বিএসসিএএন-এর কে-মানে সম্পর্কে চিন্তা করুন)

সাধারণত, আপনি বিবেচনা করতে পারেন:

  • আপনার অ্যালগরিদম টিউন করুন;
  • অন্য একটি অ্যালগরিদম ব্যবহার;
  • ডেটা প্রিপ্রোসেসিং করুন।

-1

আমরা কে এর সর্বোত্তম মানটি খুঁজে পেতে NbClust প্যাকেজটি ব্যবহার করতে পারি। এটি ক্লাস্টারের সংখ্যা নির্ধারণের জন্য 30 টি সূচক সরবরাহ করে এবং সেরা ফলাফলের প্রস্তাব দেয়।

এনবিক্লাস্ট (ডেটা = ডিএফ, দূরত্ব = "ইউক্লিডিয়ান", মিনিট সিএনসি = 2, ম্যাক্স.সিএনসি = 15, পদ্ধতি = "কেমিয়ানস", সূচক = "সমস্ত")


সাইটে স্বাগতম! আপনি এই উত্তরটি প্রসারিত করতে পারেন? সহায়ক হওয়ার সময়, আরও কিছু বিশদ এটিকে আরও দরকারী করে তুলবে।
এমকেটি - মনিকা পুনরায় ইনস্টল করুন 25'18
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.