পিসিএ বুলিয়ান (বাইনারি) ডেটা ধরণের জন্য কাজ করবে?


38

আমি উচ্চতর অর্ডার সিস্টেমের মাত্রিকতা হ্রাস করতে এবং অগ্রাধিকার 2 মাত্রিক বা 1 মাত্রিক ক্ষেত্রের বেশিরভাগ সমবায়কে ক্যাপচার করতে চাই। আমি বুঝতে পারি এটি মূল উপাদান বিশ্লেষণের মাধ্যমে করা যেতে পারে এবং আমি অনেক পরিস্থিতিতে পিসিএ ব্যবহার করেছি। তবে, আমি এটি কখনই বুলিয়ান ডেটা ধরণের সাথে ব্যবহার করি নি, এবং আমি ভাবছিলাম যে এই সেটটি দিয়ে পিসিএ করা অর্থপূর্ণ কিনা। সুতরাং উদাহরণস্বরূপ, আমার কাছে গুণগত বা বর্ণনামূলক মেট্রিক রয়েছে তা ভান করুন এবং আমি যদি সেই মাত্রার জন্য মেট্রিক বৈধ হয় তবে একটি "1" এবং এটি (বাইনারি ডেটা) না হলে একটি "0" বরাদ্দ করি। সুতরাং উদাহরণস্বরূপ, ভান করুন আপনি স্নো হোয়াইটের সাতটি বামনকে তুলনা করার চেষ্টা করছেন। আমাদের আছে:

ডক, ডোপি, বাশফুল, গ্রম্পি, স্নিজি, স্লিপ এবং হ্যাপি, এবং আপনি সেগুলি গুণের উপর ভিত্তি করে সাজিয়ে তুলতে চান এবং এইভাবে করেছেন:

(Lactose IntolerantA Honor RollAthleticWealthyDoc1011Dopey0000Bashful1011Grumpy1111Sneezy0110Sleepy1000Happy1100)

সুতরাং উদাহরণস্বরূপ বাশফুল ল্যাকটোজ অসহিষ্ণু এবং এ সম্মানের রোলটিতে নয়। এটি খাঁটি অনুমানমূলক ম্যাট্রিক্স এবং আমার আসল ম্যাট্রিক্সে আরও অনেক বর্ণনামূলক কলাম থাকবে। আমার প্রশ্ন হ'ল, এই ম্যাট্রিক্সে ব্যক্তিদের মধ্যে মিল খুঁজে পাওয়ার উপায় হিসাবে পিসিএ করা কি এখনও উপযুক্ত হবে?


1
এই প্রশ্নের (প্রায়) A -এর সদৃশ যে এক । পিসিএ বাইনারি / বুলিয়ান ডেটাতে করা যেতে পারে, তবে এই জাতীয় ডেটা সম্পর্কে ফ্যাক্টর বিশ্লেষণ (পিসিএ সহ "এটি" এফএ হয় তাই) সমস্যাযুক্ত
ttnphns

1
বাইনারি ডেটা যেমন আপনার ("উপস্থিত" বনাম "অনুপস্থিত") তে পিসিএ সাধারণত ভেরিয়েবলগুলি কেন্দ্র না করেই সম্পাদিত হত কারণ মূল 0 ব্যতীত অন্যটি উত্স (রেফারেন্স পয়েন্ট) প্রস্তাব করার কোনও কারণ নেই। বা পারস্পরিক সম্পর্ক ভিত্তিক পিসিএ আমরা এসএসসিপি- বা কোসাইন ভিত্তিক একটিতে পৌঁছেছি । এই জাতীয় বিশ্লেষণটি খুব মিল, একাধিক চিঠিপত্রের বিশ্লেষণের সমান সমান (= সমজাতীয় বিশ্লেষণ) যা আপনার পক্ষে পছন্দ হতে পারে।
ttnphns

a means of finding the similarity between individuals। তবে এই কাজটি একটি ক্লাস্টার বিশ্লেষণের জন্য, পিসিএ নয়।
ttnphns

সংক্ষিপ্ত উত্তর: লিনিয়ার পিসিএ (যদি এটি মাত্রিকতা হ্রাস কৌশল হিসাবে নেওয়া হয় এবং ফ্যাক্টর বিশ্লেষণ হিসাবে সুপ্ত পরিবর্তনশীল প্রযুক্তি না হয়) স্কেল (মেট্রিকাল) বা বাইনারি ডেটার জন্য ব্যবহার করা যেতে পারে। সাধারণ তথ্য বা নামমাত্র উপাত্ত সহ প্লেইন (লিনিয়ার) পিসিএ ব্যবহার করা উচিত নয় - যদি না এই ডেটাগুলি মেট্রিকাল বা বাইনারি (যেমন ডামি) রূপান্তরিত হয়।
ttnphns

ক্লাস্টার ভেরিয়েবলের জন্য @ttnphns PCA দেখা যেতে পারে। এছাড়াও, পিসিএ এবং ক্লাস্টার বিশ্লেষণ ক্রমানুসারে
এন্টোইন

উত্তর:


12

আমি আপনাকে শ্রেণিবদ্ধ ভেরিয়েবল ডেটা থেকে স্বয়ংক্রিয় কাঠামো আহরণের জন্য তুলনামূলকভাবে সাম্প্রতিক কৌশলটি প্রস্তাব করতে চাই (এতে বাইনারি রয়েছে)। পদ্ধতিটি দক্ষিণ ক্যালিফোর্নিয়া বিশ্ববিদ্যালয় থেকে গ্রেগ ভ্যান স্টেগ থেকে CorEx বলা হয়। এনট্রপি ব্যবস্থার উপর ভিত্তি করে মোট সমঝোতার ধারণাটি ব্যবহার করা ধারণা। এটি এর সরলতার কারণে এবং বিপুল সংখ্যক হাইপারপ্যারামিটারের সুরের কারণে আবেদন করা হচ্ছে।

শ্রেণিবিন্যাসিক উপস্থাপনা সম্পর্কে কাগজ (সর্বাধিক সাম্প্রতিক, পূর্ববর্তী পদক্ষেপের শীর্ষে নির্মিত)। http://arxiv.org/pdf/1410.7404.pdf


1
@ আলভিনভিনেজ আপনাকে স্বাগতম! অজগর বাস্তবায়ন গিটহাব github.com/gregversteeg/CorEx পাওয়া যাবে আপনার ডেটা পেতে এবং কী বেরিয়ে আসে তা দেখতে খুব সহজ।
ভ্লাদিস্লাভস ডভগ্লেলেকস 21

13

আপনি একাধিক চিঠিপত্রের বিশ্লেষণ (এমসিএ )ও ব্যবহার করতে পারেন, যা মূল উপাদান বিশ্লেষণের একটি এক্সটেনশন যখন বিশ্লেষণ করা চলকগুলি পরিমাণগত পরিবর্তে শ্রেণিবদ্ধ হয় (যা এখানে আপনার বাইনারি ভেরিয়েবলগুলির ক্ষেত্রে হয়)। উদাহরণস্বরূপ হুসন এট আল দেখুন। (2010) , বা আব্বি এবং ভ্যালেন্টিন (2007) । এমসিএ করার জন্য একটি দুর্দান্ত আর প্যাকেজ (এবং পিসিগুলিতে হায়ারারিকিকাল ক্লাস্টারিং) ফ্যাকটোমাইনআর


1
একটি আকর্ষণীয় উত্তর, আমি বরং এটির সাথে একমত হই। এটির দুর্দান্ত সম্পদ হবে যদি আপনি আরও বিস্তারিতভাবে ঘটনাটির ঘটনাটি ব্যাখ্যা করেন inflation of the feature spaceএবং কেন এটি পিসিএতে হয় এবং এমসিএতে নয়।
ttnphns

আমি inflation of the feature spaceঘটনাটি ভুল বুঝেছি । সিএ থেকে এমসিএ যাওয়ার সময় মনে হয় এটি কার্যকর হয় তবে এটি পিসিএর অন্তর্নিহিত সমস্যা নয়। আপনি যখন এই মন্তব্যটি পড়েছেন তখন আমি আমার উত্তরটি সরিয়ে ফেলব। আমাকে তা উপলব্ধি করার জন্য ধন্যবাদ
এন্টোইন

আমি মনে করি না যে আপনাকে উত্তরটি সরিয়ে ফেলতে হবে। এমসিএ আমার জন্য সঠিক পছন্দগুলির মধ্যে একটি এবং আপনার উত্তরটি ঠিক আছে।
ttnphns

আমি উত্তরটি আবার যুক্ত করেছিলাম কারণ আমি মনে করি এমসিএ এখানে সহায়ক হতে পারে তবে বৈশিষ্ট্যের জায়গার মূল্যস্ফীতি সম্পর্কে আলোচনাটি যেহেতু এটি প্রাসঙ্গিক বলে মনে হচ্ছে না
এন্টোইন

বাইনারি ডেটাতে এমসিএর ফলাফল কীভাবে জ্যাকার্ড বা সরল মিলের মতো বাইনারি ডেটার জন্য উপযুক্ত দূরত্ব পরিমাপের পিসিওএর ফলাফল থেকে পৃথক হবে?
ইমুদ্রাক

9

আপনি যদি পিসিএটিকে ভেরিয়েবলের মধ্যে সম্পর্কগুলি কল্পনা করার একটি উপায় দেওয়ার জন্য একটি অনুসন্ধান কৌশল হিসাবে মনে করেন (এবং আমার মতে এটি সম্পর্কে এটি চিন্তা করার একমাত্র উপায়) তবে হ্যাঁ, আপনি বাইনারি রাখতে পারবেন না এমন কোনও কারণ নেই ভেরিয়েবল। উদাহরণস্বরূপ, এখানে আপনার ডেটার একটি বাইপ্লট রয়েছে

এখানে চিত্র বর্ণনা লিখুন

এটি যুক্তিসঙ্গতভাবে দরকারী বলে মনে হচ্ছে। উদাহরণস্বরূপ, আপনি দেখতে পাচ্ছেন যে ডক এবং বাশফুল খুব মিল; যে এইচআর পরিবর্তে অন্য তিনটি ভেরিয়েবলের থেকে পৃথক; নিদ্রাহীন এবং স্নিজি ইত্যাদি খুব আলাদা are

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.