বুলিয়ান বৈশিষ্ট্যগুলির একটি ছোট নমুনা সেটের জন্য পিসিএ এবং বর্ণালী ক্লাস্টারিংয়ের মধ্যে পার্থক্য


10

আমার কাছে 50 টি নমুনার ডেটাসেট রয়েছে। প্রতিটি নমুনা 11 (সম্ভবত সম্পর্কিত) বুলিয়ান বৈশিষ্ট্য নিয়ে গঠিত। আমি কিছু 2D প্লটের উপর এই নমুনাগুলি কীভাবে দৃশ্যমান করব এবং 50 টি নমুনার মধ্যে ক্লাস্টার / গ্রুপিং রয়েছে কিনা তা পরীক্ষা করতে চাই some

আমি নিম্নলিখিত দুটি পদ্ধতির চেষ্টা করেছি:

(ক) 50x11 ম্যাট্রিক্সে পিসিএ চালান এবং প্রথম দুটি মূল উপাদান চয়ন করুন। 2D প্লটের উপরে ডেটা প্রজেক্ট করুন এবং ক্লাস্টারগুলি সনাক্ত করতে সাধারণ কে-মানে চালান।

(খ) একটি 50x50 (কোসাইন) অনুরূপ ম্যাট্রিক্স নির্মাণ করুন। আবার কে-মানে অনুসরণ করে মাত্রিকতা হ্রাসের জন্য বর্ণালী ক্লাস্টারিং চালান ।

সরাসরি পিসিএ বনাম করার মিলের ম্যাট্রিক্সের ইগেনভ্যালুগুলি ব্যবহার করার মধ্যে ধারণাগত পার্থক্য কী? এক অন্য চেয়ে ভাল?

এছাড়াও, 2D তে এই জাতীয় ডেটা ভিজ্যুয়ালাইজ করার আরও ভাল উপায় আছে কি? যেহেতু আমার নমুনা আকার সর্বদা 50 এর মধ্যে সীমাবদ্ধ থাকে এবং আমার বৈশিষ্ট্য সেটটি সর্বদা 10-15 সীমার মধ্যে থাকে, তাই আমি অন ফ্লাইটে একাধিক পদ্ধতির চেষ্টা করতে এবং সেরাটি বেছে নিতে ইচ্ছুক।

সম্পর্কিত প্রশ্ন: গুচ্ছ বা পিসিএ দ্বারা নমুনা গোষ্ঠীকরণ

উত্তর:


9

সরাসরি পিসিএ বনাম করার মিলের ম্যাট্রিক্সের ইগেনভ্যালুগুলি ব্যবহার করার মধ্যে ধারণাগত পার্থক্য কী?

পিসিএ একটি কোভারিয়েন্স বা পারস্পরিক সম্পর্ক মেট্রিক্সে করা হয়, তবে বর্ণালী ক্লাস্টারিং যে কোনও মিলের ম্যাট্রিক্স নিতে পারে (যেমন কোসাইন মিলের সাথে নির্মিত) এবং সেখানে গুচ্ছগুলি খুঁজে পেতে পারে।

দ্বিতীয়ত বর্ণালী ক্লাস্টারিং অ্যালগরিদমগুলি গ্রাফ বিভাজন (সাধারণত এটি গ্রাফের সেরা কাটগুলি সন্ধান করার ক্ষেত্রে) এর উপর ভিত্তি করে থাকে, যখন পিসিএ বেশিরভাগ বৈকল্পিকের দিকনির্দেশগুলি খুঁজে পায়। যদিও উভয় ক্ষেত্রেই আমরা আইজেনভেেক্টরগুলি সন্ধান করি তবে ধারণাগত দৃষ্টিভঙ্গি আলাদা।

এবং পরিশেষে, আমি দেখতে পাচ্ছি যে পিসিএ এবং বর্ণালী ক্লাস্টারিং বিভিন্ন উদ্দেশ্যে পরিবেশন করে: একটি হ'ল একটি মাত্রিকতা হ্রাস কৌশল এবং অন্যটি ক্লাস্টারিংয়ের আরও একটি পদ্ধতির (তবে এটি মাত্রিকতা হ্রাসের মাধ্যমে সম্পন্ন হয়েছে))


5

বুলিয়ান (অর্থাত্, দুটি শ্রেণীর সাথে শ্রেণিবদ্ধ) বৈশিষ্ট্যগুলির জন্য, পিসিএ ব্যবহারের একটি ভাল বিকল্পটি একাধিক সংবাদপত্র বিশ্লেষণ (এমসিএ) ব্যবহার করে, যা কেবল শ্রেণিবদ্ধ পরিবর্তনশীলগুলিতে পিসিএর সম্প্রসারণ (সম্পর্কিত থ্রেড দেখুন )। এমসিএ সম্পর্কে কিছু পটভূমির জন্য, কাগজপত্রগুলি হুসন এট আল। (2010) , বা আব্বি এবং ভ্যালেন্টিন (2007) । এমসিএ করার জন্য একটি দুর্দান্ত আর প্যাকেজ হ'ল ফ্যাকটোমাইনআর । এটি আপনাকে প্রধান উপাদানগুলির উপর পর্যবেক্ষণের লোডিংয়ের দ্বি-মাত্রিক মানচিত্রের প্লট করার সরঞ্জাম সরবরাহ করে যা খুব অন্তর্দৃষ্টিযুক্ত।

নীচে আমার অতীতের একটি গবেষণা প্রকল্পের দুটি মানচিত্রের উদাহরণ দেওয়া হয়েছে (ggplot2 দিয়ে প্লট করা হয়েছে)। আমার প্রায় 60 টি পর্যবেক্ষণ ছিল এবং এটি ভাল ফলাফল দিয়েছে। প্রথম মানচিত্রটি স্পেস PC1-PC2 এ পর্যবেক্ষণগুলিতে প্রতিনিধিত্ব করে, মহাকাশটির দ্বিতীয় মানচিত্র PC3-PC4 ... ভেরিয়েবলগুলি মানচিত্রেও উপস্থাপিত হয়, যা মাত্রাগুলির অর্থ ব্যাখ্যা করতে সহায়তা করে। এর মধ্যে বেশ কয়েকটি মানচিত্র থেকে অন্তর্দৃষ্টি সংগ্রহ করা আপনার ডেটাতে যা ঘটছে তার একটি সুন্দর সুন্দর চিত্র দিতে পারে।

এখানে চিত্র বর্ণনা লিখুন

উপরের লিঙ্ক করা ওয়েবসাইটে, আপনি একটি উপন্যাস প্রক্রিয়া সম্পর্কিত তথ্য, এইচসিপিসিও পাবেন যা মূল উপাদানগুলির উপর হাইয়ারালিকাল ক্লাস্টারিংয়ের জন্য দাঁড়িয়েছে এবং এটি আপনার পক্ষে আগ্রহী হতে পারে। মূলত, এই পদ্ধতিটি নিম্নলিখিত হিসাবে কাজ করে:

  • একটি এমসিএ সঞ্চালন,
  • প্রথম রাখা মাত্রা (যেখানে <পি, সঙ্গে পিআপনার বৈশিষ্ট্যগুলির মূল সংখ্যা)। এই পদক্ষেপটি দরকারী যাতে এটি কিছু শব্দকে সরিয়ে দেয় এবং তাই আরও স্থিতিশীল ক্লাস্টারিংয়ের অনুমতি দেয়,
  • ধরে রাখা পিসিগুলির স্থানগুলিতে একটি অগ্রগামী (নীচে-আপ) শ্রেণিবিন্যাসের ক্লাস্টারিং সম্পাদন করুন। যেহেতু আপনি পিসি স্পেসে (পর্যালোচনাগুলি) পর্যবেক্ষণগুলির অনুমানের স্থানাঙ্কগুলি ব্যবহার করেন, তাই সংযোগের জন্য ওয়ার্ডের মানদণ্ড (ক্লাস্টারের পরিবর্তনের মধ্যে ন্যূনতম বৃদ্ধি) সহ আপনি ইউক্লিডিয়ান দূরত্ব ব্যবহার করতে পারেন। আপনি পছন্দ মতো উচ্চতায় ডেনডোগ্রামটি কাটতে পারেন বা আর ফাংশনটি কেটে দিতে পারেন যদি বা আপনি কিছু হিউরিস্টিকের ভিত্তিতে থাকেন,
  • (alচ্ছিক) কে-মানে ক্লাস্টারিং করে ক্লাস্টারগুলিকে স্থিতিশীল করে। পূর্ববর্তী ধাপে পাওয়া ক্লাস্টারগুলির কেন্দ্রগুলি দ্বারা প্রাথমিক কনফিগারেশন দেওয়া হয়।

তারপরে, আপনার কাছে গুচ্ছগুলি তদন্ত করার প্রচুর উপায় রয়েছে (সর্বাধিক প্রতিনিধি বৈশিষ্ট্য, বেশিরভাগ প্রতিনিধি ব্যক্তি ইত্যাদি) investigate

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.