কীভাবে পিসিএ একটি কে-ক্লাস্টারিং বিশ্লেষণে সহায়তা করবে?


32

পটভূমি : আমি আবাসিক ইউনিট ঘনত্ব, জনসংখ্যার ঘনত্ব, সবুজ স্থানের অঞ্চল, আবাসনের মূল্য, স্কুল / স্বাস্থ্যকেন্দ্র / ডে কেয়ার সেন্টার ইত্যাদিসহ একটি শহরের আবাসিক অঞ্চলগুলিকে তাদের সামাজিক-অর্থনৈতিক বৈশিষ্ট্যের ভিত্তিতে গোষ্ঠীতে শ্রেণিবদ্ধ করতে চাই etc. আমি বুঝতে চাই আবাসিক অঞ্চলগুলিকে কয়টি পৃথক দলে ভাগ করা যায় এবং তাদের অনন্য বৈশিষ্ট্যগুলি কী। এই তথ্য শহর পরিকল্পনা সহজতর করতে পারে।

কিছু উদাহরণের ভিত্তিতে (সিএফ।, এই ব্লগ পোস্ট: পিসিএ এবং কে-মানে ডেল্টা এয়ারক্রাফ্টের ক্লাস্টারিং ), বিশ্লেষণ করার উপায়টি আমি আবিষ্কার করেছি:

  1. প্রথমে পিসিএ বিশ্লেষণ করুন।

  2. পিসিএ ফলাফলের উপর ভিত্তি করে অনন্য গোষ্ঠীগুলির সংখ্যা (ক্লাস্টার) নির্ধারণ করুন (উদাহরণস্বরূপ, "কনুই" পদ্ধতি ব্যবহার করে, বা বিকল্পভাবে, উপাদানগুলির সংখ্যা যা মোট বৈকল্পিকতার 80 থেকে 90% ব্যাখ্যা করে)।

  3. ক্লাস্টারের সংখ্যা নির্ধারণের পরে, শ্রেণিবদ্ধকরণ করতে কে-মানে ক্লাস্টারিং প্রয়োগ করুন।

আমার প্রশ্নগুলো: দেখে মনে হয়েছিল পিসিএ উপাদানগুলির সংখ্যা ক্লাস্টার বিশ্লেষণের সাথে সম্পর্কিত। সুতরাং এটি সত্য, যদি বলি, আমরা 5 টি পিসিএ উপাদানগুলি সমস্ত বৈশিষ্ট্যের 90% এরও বেশি পরিবর্তনের ব্যাখ্যা পেয়েছি তবে আমরা কে-মানে ক্লাস্টারিং প্রয়োগ করব এবং 5 টি ক্লাস্টার পাব। তাহলে পিসিএ বিশ্লেষণে 5 টি উপাদান হুবহু 5 টি উপাদানগুলির সাথে মিল করবে?

অন্য কথায়, আমি আমার প্রশ্নটি অনুমান করি: পিসিএ বিশ্লেষণ এবং কে-মানে ক্লাস্টারিংয়ের মধ্যে কী সংযোগ রয়েছে?

আপডেটস: এমের, জিয়ন এবং কিরিলের ইনপুটগুলিকে ধন্যবাদ। সুতরাং বর্তমান উত্তর:

  1. ক্লাস্টারিং বিশ্লেষণের আগে পিসিএ করা বৈশিষ্ট্য নিষ্কর্ষক হিসাবে ডাইমেনশিয়ালটি হ্রাস করার জন্য এবং ক্লাস্টারগুলিকে ভিজ্যুয়ালাইজ / প্রকাশিত করার জন্যও কার্যকর।

  2. ক্লাস্টারিংয়ের পরে পিসিএ করলে ক্লাস্টারিং অ্যালগরিদম (রেফারেন্স: কার্নেলের প্রধান উপাদান বিশ্লেষণ ) যাচাই করা যায় ।

  3. ক্লাস্টারিংয়ের আগে ডেটাসেটের মাত্রিকতা হ্রাস করতে পিসিএ কখনও কখনও প্রয়োগ করা হয়। তবে, ইয়ুং ও রাজ্জো (2000) দেখিয়েছে যে মূল ভেরিয়েবলের পরিবর্তে পিসির সাথে ক্লাস্টারিং ক্লাস্টারের গুণমান উন্নত করে না। বিশেষত, প্রথম কয়েকটি পিসির (যেটিতে ডেটাতে বেশিরভাগ প্রকরণ থাকে) অগত্যা বেশিরভাগ ক্লাস্টার কাঠামো ক্যাপচার করে না।

    • ইয়েং, কা ইয়ে এবং ওয়াল্টার এল রাজ্জো। জিন এক্সপ্রেশন ডেটা ক্লাস্টারিংয়ের জন্য মূল উপাদান বিশ্লেষণের উপর একটি অভিজ্ঞতামূলক গবেষণা study প্রযুক্তিগত প্রতিবেদন, কম্পিউটার বিজ্ঞান ও প্রকৌশল বিভাগ, ওয়াশিংটন বিশ্ববিদ্যালয়, 2000. ( পিডিএফ )
  4. মনে হয়েছিল দু-পদক্ষেপের ক্লাস্টারিং বিশ্লেষণের আগে পিসিএ প্রয়োজনীয় । আইবেস (2015) এর উপর ভিত্তি করে, যেখানে পিসিএতে চিহ্নিত উপাদানগুলি ব্যবহার করে ক্লাস্টার বিশ্লেষণ চালানো হয়েছিল।


1
আপনি বৈশিষ্ট্য নিষ্কাশনকারী হিসাবে মাত্রা হ্রাস জন্য এবং ক্লাস্টারগুলি কল্পনা করতে পিসিএ ব্যবহার করতে পারেন।
এমের

3
সহজ শুরু করুন: আপনার কাছে থাকা ডেটাতে সরাসরি একটি শ্রেণিবদ্ধ চালান এবং কর্মক্ষমতা নোট করুন। আপনি যদি পারফরম্যান্সে সন্তুষ্ট না হন, পিসিএ চেষ্টা করুন (সাজানো ইজেনভ্যালু প্লটের "হাঁটু" তে উপাদানগুলির সংখ্যা নির্বাচন করুন) এবং রান-ই-উপায়গুলি ব্যবহার করে দেখুন। আপনি যদি ভাল ক্লাস্টার দেখেন তবে PCA + শ্রেণিবদ্ধকারী ভাল কাজ করবে এমন একটা ভাল সম্ভাবনা রয়েছে।
ভ্লাদিস্লাভস ডোভাল্লেকস

1
আপনার ক্লাস্টারিং অ্যালগোরিদমকে বৈধতা দেওয়ার জন্য আপনি খুব ক্লাস্টারিংয়ের পরেও পিসিএ করতে পারেন ; তার ক্লাস্টার লেবেল দ্বারা প্রতিটি পয়েন্টের রঙিন কোড। আমি কার্নেল পিসিএ সন্ধানেরও পরামর্শ দিচ্ছি ।
এমের

এমন পদ্ধতি রয়েছে যা একই সাথে মাত্রিকতা হ্রাস এবং ক্লাস্টারিং সম্পাদন করে। ক্লাস্টারগুলির সনাক্তকরণের সুবিধার্থে এই পদ্ধতিগুলি একটি সর্বোত্তমভাবে বেছে নেওয়া নিম্ন-মাত্রিক উপস্থাপনা চায়। উদাহরণস্বরূপ, ক্লাস্টার্ড প্যাকেজটি আর এর সাথে সম্পর্কিত রেফারেন্স দেখুন।
নাট

উত্তর:


16

পিসিএ একটি ক্লাস্টারিং পদ্ধতি নয়। তবে কখনও কখনও এটি ক্লাস্টারগুলি প্রকাশ করতে সহায়তা করে।

010

1102101010

0


আপনার ইনপুট জন্য ধন্যবাদ। আপনি কি বোঝাতে পারবেন যে 10-মাত্রিক সাধারণ বিতরণ মানে কী 0? আপনি কি দশটি ইনপুট বৈশিষ্ট্য ভেরিয়েবল বলতে বোঝায় এবং সেগুলির প্রতিটি একটি সাধারণ বিতরণ অনুসরণ করে?
এনএজেজে

দুঃখিত, আমি এমন একটি এলোমেলো ভেরিয়েবলের কথা বলছি যা এর সাথে বহুভিত্তিক সাধারণ বিতরণ অনুসরণ করবে যার অর্থ হবে 10-মাত্রিক ভেক্টর এবং কোভারিয়েন্স ম্যাট্রিক্স যা 10x10 প্রতিসম ম্যাট্রিক্স।
কিরিল
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.