কে-মানে ক্লাস্টার পার্টিশনের সবচেয়ে গুরুত্বপূর্ণ বৈশিষ্ট্যগুলির অনুমান করা


19

কে-মানে ক্লাস্টার সমাধানের মধ্যে ডেটাসেটের কোন বৈশিষ্ট্য / ভেরিয়েবলগুলি সবচেয়ে গুরুত্বপূর্ণ / প্রভাবশালী তা নির্ধারণ করার কোনও উপায় আছে?


1
আপনি কীভাবে "গুরুত্বপূর্ণ / প্রভাবশালী" সংজ্ঞা দেন? আপনি কি ক্লাস্টারগুলির মধ্যে বৈষম্য করার জন্য সবচেয়ে দরকারী?
ফ্রাঙ্ক ডারননকোর্ট

3
হ্যাঁ সবচেয়ে দরকারী হ'ল আমি যা বোঝাতে চাইছি। আমি মনে করি এটি নির্ধারণের সাথে আমার সমস্যার একটি অংশ এটি কীভাবে শব্দটি বোধ করা যায়।
ব্যবহারকারী1624577

স্পষ্টির জন্য ধন্যবাদ। মেশিন লার্নিংয়ে এই সমস্যাটিকে মনোনীত করার একটি সাধারণ শব্দটি বৈশিষ্ট্য নির্বাচন
ফ্রাঙ্ক ডারননকোর্ট

উত্তর:


8

বার্নস, রবার্ট পি। এবং রিচার্ড বার্নস বই থেকে প্রতিটি বৈশিষ্ট্যের (= পরিবর্তনশীল = মাত্রা) কার্যকারিতা প্রমাণ করার একটি উপায় ব্যবসায় গবেষণা পদ্ধতি এবং এসপিএসএস ব্যবহার করে পরিসংখ্যান। Ageষি, ২০০৮. ( আয়না ), ক্লাস্টারগুলিকে পৃথকীকরণের বৈশিষ্ট্যগুলির বৈষম্যমূলক শক্তি দ্বারা কার্যকারিতা সংজ্ঞায়িত করা হচ্ছে।

আমরা আমাদের ক্লোস্টারগুলি কতটা স্বতন্ত্র তা নির্ধারণ করতে আনোভা ব্যবহার করে প্রতিটি মাত্রায় প্রতিটি ক্লাস্টারের জন্য উপায়গুলি পরীক্ষা করি। আদর্শভাবে, আমরা বিশ্লেষণে ব্যবহৃত সমস্ত মাত্রা না হলে বেশিরভাগের জন্য উল্লেখযোগ্যভাবে ভিন্ন উপায় অর্জন করব। প্রতিটি মাত্রায় সম্পাদিত এফ মানগুলির পরিমাণটি ইঙ্গিত দেয় যে সংশ্লিষ্ট মাত্রাগুলি গুচ্ছগুলির মধ্যে কতটা বৈষম্যমূলক।

আরেকটি উপায় হ'ল কোনও নির্দিষ্ট বৈশিষ্ট্য সরিয়ে নেওয়া এবং অভ্যন্তরীণ মানের সূচকগুলিকে কীভাবে প্রভাবিত করা হয় তা দেখুন । প্রথম সমাধানের বিপরীতে, আপনি বিশ্লেষণ করতে চান এমন প্রতিটি বৈশিষ্ট্য (বা বৈশিষ্ট্যগুলির সেট) এর ক্লাস্টারিংটি আবার করতে হবে।

অবগতির জন্য:


4
এটি যুক্ত করা খুব জরুরী যে এই প্রসঙ্গে যে কোনও F (বা p) মানটিকে পরিসংখ্যানিক তাত্পর্য (অর্থাৎ জনসংখ্যার তুলনায় তুলনামূলক) হিসাবে চিহ্নিত করা উচিত নয়, বরং কেবলমাত্র পার্থক্যের परिमाणের সূচক হিসাবে নেওয়া উচিত।
ttnphns

3

আমি আরও দুটি সম্ভাবনার কথা ভাবতে পারি যা ভেরিয়েবলগুলি কোন ক্লাস্টারের কাছে গুরুত্বপূর্ণ তা আরও বেশি কেন্দ্রীভূত করে।

  1. বহু শ্রেণীর শ্রেণিবিন্যাস। একই ক্লাসের ক্লাস্টার এক্স সদস্যের সাথে সম্পর্কিত জিনিসগুলি (উদাহরণস্বরূপ, ক্লাস 1) এবং দ্বিতীয় শ্রেণীর সদস্যদের (যেমন, ক্লাস 2) সম্পর্কিত অন্যান্য বস্তুগুলি বিবেচনা করুন। শ্রেণীর সদস্যতার পূর্বাভাস দেওয়ার জন্য কোনও শ্রেণিবদ্ধকারীকে প্রশিক্ষণ দিন (উদাঃ ক্লাস 1 বনাম ক্লাস 2) ক্লাসিফায়ার এর পরিবর্তনশীল কোফিসিয়েন্টস করার ক্লাস্টার বস্তু ক্লাস্টারিং প্রতিটি পরিবর্তনশীল গুরুত্ব অনুমান করার জন্য পরিবেশন করা যাবে এক্স । অন্যান্য সমস্ত ক্লাস্টারের জন্য এই পদ্ধতির পুনরাবৃত্তি করুন।

  2. ইন্ট্রা-ক্লাস্টার ভেরিয়েবলের মিল। প্রতিটি ভেরিয়েবলের জন্য, প্রতিটি কেন্দ্রের সেন্ট্রয়েডের সাথে গড় মিলের গণনা করুন। একটি ভেরিয়েবল যার সেন্ট্রয়েড এবং এর বস্তুর মধ্যে উচ্চ মিল রয়েছে যা ক্লাস্টারিং প্রক্রিয়াটির সাথে কম মিল রয়েছে এমন ভেরিয়েবলের চেয়ে বেশি গুরুত্বপূর্ণ । অবশ্যই, সাদৃশ্যটির মাত্রা আপেক্ষিক, তবে এখন ভেরিয়েবলগুলি প্রতিটি ক্লাস্টারের অবজেক্টগুলিকে ক্লাস্টার করতে সাহায্য করে এমন ডিগ্রি দ্বারা র‌্যাঙ্ক করা যেতে পারে।


0

এখানে একটি খুব সহজ পদ্ধতি। নোট করুন যে দুটি ক্লাস্টার সেন্টারের মধ্যে ইউক্লিডিয়ান দূরত্ব পৃথক বৈশিষ্ট্যগুলির মধ্যে বর্গ পার্থক্যের যোগফল। তারপরে আমরা প্রতিটি বৈশিষ্ট্যের জন্য ওজন হিসাবে বর্গক্ষেত্রের পার্থক্যটি ব্যবহার করতে পারি।

ইউক্লিডীয় দূরত্ব

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.