প্রথম প্রধান উপাদানটি পৃথক শ্রেণি পৃথক করে না, তবে অন্যান্য পিসি করে; কীভাবে সম্ভব?


11

একটি ছোট ভেরিয়েবলের সেট নির্ধারণের জন্য আমি 17 টি পরিমাণগত ভেরিয়েবলের উপর পিসিএ চালিয়েছি, এটি প্রধান উপাদান, দুটি শ্রেণিতে শ্রেণিবদ্ধকরণের জন্য তদারকি করা মেশিন লার্নিংয়ে ব্যবহৃত হতে পারে। পিসিএর পরে পিসি 1 ডেটাতে 31% পার্থক্য রাখে, পিসি 2 অ্যাকাউন্টে 17%, পিসি 3 10%, পিসি 4 অ্যাকাউন্ট 8%, পিসি 5 অ্যাকাউন্ট 7% এবং পিসি 6 অ্যাকাউন্ট 6%।

যাইহোক, আমি যখন দুটি শ্রেণীর মধ্যে পিসিগুলির মধ্যে গড় পার্থক্যগুলি দেখি, আশ্চর্যরূপে, পিসি 2 দুটি শ্রেণির মধ্যে ভাল বৈষম্যমূলক নয়। বাকি পিসি ভাল বৈষম্যমূলক। তদুপরি, পিসি 1 কোনও সিদ্ধান্ত গাছে ব্যবহার করার সময় অপ্রাসঙ্গিক হয়ে যায় যার অর্থ গাছের ছাঁটাইয়ের পরে গাছটিতে উপস্থিত হয় না। গাছটি PC2-PC6 নিয়ে গঠিত।

এই ঘটনার জন্য কোন ব্যাখ্যা আছে? উদ্ভূত ভেরিয়েবলগুলির সাথে এটি কিছু ভুল হতে পারে?


5
এটিতে আরও লিঙ্ক সহ সাম্প্রতিক এই প্রশ্নটি stats.stackexchange.com/q/79968/3277 পড়ুন । যেহেতু পিসিএ নেই না শ্রেণীর এটা না অস্তিত্ব সম্পর্কে জানা গ্যারান্টি যে পিসিতে কোন সত্যিই ভাল discriminators হবে; আরও বেশি যে পিসি 1 একটি ভাল বৈষম্যমূলক হবে। উদাহরণ হিসাবে এখানে দুটি ছবিও দেখুন ।
ttnphns

2
আরও দেখুন কী কারণে পিসিএ শ্রেণিবদ্ধের ফলাফলকে আরও খারাপ করতে পারে? বিশেষত @vqv দ্বারা উত্তরের পরিসংখ্যানগুলি।
অ্যামিবা

উত্তর:


14

এটিও ঘটতে পারে যদি ভেরিয়েবলগুলি পিসিএ করার আগে ইউনিট ভেরিয়েন্স না রাখে। উদাহরণস্বরূপ, এই ডেটার জন্য (যে বিজ্ঞপ্তি স্কেল শুধুমাত্র থেকে যায় - 0.5 থেকে 1 যেহেতু এক্স থেকে যায় - 3 থেকে 3 ):Y-0.51এক্স-33

এখানে চিত্র বর্ণনা লিখুন

PC1 আনুমানিক এবং প্রায় সব ভ্যারিয়েন্স জন্য অ্যাকাউন্ট, কিন্তু কোন বৈষম্যমূলক ক্ষমতা আছে, যেহেতু PC2 হয় Y এবং বৈষম্য শ্রেণীর মধ্যে পুরোপুরি।এক্সY


হাই, আপনার উত্তরের জন্য ধন্যবাদ! কিভাবে স্কেলিং করা উচিত? (X-গড়) / এসডি?
ফ্রিডা

হ্যাঁ, আরআই-তে ব্যবহৃত prcomp(x, center=T, scale=T)যা করা (এক্স-মিন) / এসডি হিসাবে সমান। এই উদাহরণে, আপনি দেখতে পাবেন যে প্রধান উপাদানগুলি উভয়ই শ্রেণীর মধ্যে ভাল বৈষম্যমূলক নয়; এটি কেবল তখনই কার্যকর হয় যদি তারা উভয়কে একসাথে ব্যবহার করা হয়।
ফ্লাউন্ডারিয়ার

আমি বুঝতে পারি যে পিসিগুলি পরিপূরক তবে এর পিছনে কোনও ব্যাখ্যা আছে কি? সত্যি কথা বলতে, অন্যের তুলনায় আমার পক্ষে প্রথমবারের মতো দুর্বল পিসি 1 পাওয়া obtain
ফ্রিদা

@ ফ্রিদা: টিটিএনফএনস-এর মন্তব্য লক্ষ্যবস্তু। দেখুন en.wikipedia.org/wiki/Linear_discriminant_analysis তৃতীয় অনুচ্ছেদ। কিছুটা অর্থে এটি ভাগ্য যে পিসিএ প্রায়শই দরকারী হতে পারে।
ওয়েইন

6

আমি ধরে নিয়েছি যে উত্তর এবং @ ফ্লাউন্ডায়ার দ্বারা সরবরাহ করা উদাহরণ এটি বোঝায়, তবে আমি মনে করি এটি বানানটি উপযুক্ত। প্রধান উপাদান বিশ্লেষণ (পিসিএ) হল লেবেল (শ্রেণিবিন্যাস) উদাসীন। এটি কেবলমাত্র কিছু উচ্চ মাত্রিক ডেটা অন্য মাত্রিক স্থানে রূপান্তর করা form এটি শ্রেণিবদ্ধকরণের প্রচেষ্টাগুলিতে সহায়তা করতে পারে, উদাহরণস্বরূপ, একটি ডেটা সেট তৈরি করা যা কোনও নির্দিষ্ট পদ্ধতি দ্বারা সহজেই পৃথকযোগ্য। তবে এটি পিসিএর কেবলমাত্র একটি উপ-পণ্য (বা পার্শ্ব প্রতিক্রিয়া)।


1

যখন আমরা প্রিন্সিপাল কম্পোনেন্ট বিশ্লেষণ করি তখন মূল উপাদানগুলি সর্বাধিক পরিবর্তনশীলতার দিকনির্দেশের সাথে মিল রাখে, তারা শ্রেণীর মধ্যে সর্বাধিক বৈষম্য বা বিচ্ছিন্নতার গ্যারান্টি দেয় না।

সুতরাং ২ য় উপাদান আপনাকে ভাল শ্রেণিবিন্যাস দেয় সেই দিকের ডেটা আপনাকে শ্রেণীর মধ্যে আরও ভাল বৈষম্য দেয়। আপনি যখন লিনিয়ার ডিসক্রিমেন্ট্যান্ট অ্যানালাইসিস (এলডিএ) করেন তখন এটি আপনাকে সেরা অরথোগোনাল দিক নির্দেশ দেয় যা আন্তঃ শ্রেণীর দূরত্বকে সর্বাধিক করে দেয় এবং অন্তর্-শ্রেণীর দূরত্বকে হ্রাস করে।

সুতরাং আপনি যদি পিসিএ পরিবর্তে ডেটাতে এলডিএ করেন তবে সম্ভবত প্রথম উপাদানগুলির মধ্যে একটি পিসি 1 এর তুলনায় পিসি 6 এর কাছাকাছি থাকবে। আশাকরি এটা সাহায্য করবে.

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.