কোন শ্রেণিবদ্ধের ফলাফল খারাপ করার জন্য পিসিএ কী কারণ হতে পারে?


27

আমার একটি শ্রেণিবদ্ধ রয়েছে যা আমি ক্রম-বৈধকরণের সাথে সাথে একশত বা আরও বৈশিষ্ট্যগুলি সহ বৈশিষ্ট্যগুলির অনুকূল সংমিশ্রণগুলি সন্ধানের জন্য আমি এগিয়ে নির্বাচন করে যাচ্ছি। আমি এটি পিসিএর সাথে একই পরীক্ষা চালানোর বিরুদ্ধেও তুলনা করি, যেখানে আমি সম্ভাব্য বৈশিষ্ট্যগুলি গ্রহণ করি, এসভিডি প্রয়োগ করি, মূল সংকেতগুলিকে নতুন স্থানাঙ্ক স্থানে রূপান্তর করি এবং আমার অগ্রণী নির্বাচন প্রক্রিয়াতে শীর্ষ বৈশিষ্ট্যগুলি ব্যবহার করি।k

আমার অন্তর্নিহিততা ছিল যে পিসিএ ফলাফলগুলিতে উন্নতি করবে, কারণ সংকেতগুলি মূল বৈশিষ্ট্যের চেয়ে আরও "তথ্যমূলক" হবে। পিসিএ সম্পর্কে আমার নির্বোধ বোঝা কি আমাকে সমস্যার মধ্যে নিয়ে যাচ্ছে? পিসিএ কিছু পরিস্থিতিতে ফলাফলের উন্নতি করতে পারে, তবে অন্যদের মধ্যে আরও খারাপ করে দেয় এমন সাধারণ কারণগুলির মধ্যে কেউ কি পরামর্শ দিতে পারে?


আপনার প্রশ্নটির সংক্ষিপ্তসার কি এইভাবে করা যেতে পারে ?: "মূল ভেরিয়েবলের উপর ভিত্তি করে শ্রেণীবদ্ধকারী বা সেগুলি থেকে প্রাপ্ত কয়েকটি মূল উপাদানগুলির উপর ভিত্তি করে শ্রেণিবদ্ধকরণ করা কি ভাল -"
ttnphns

1
আমি এই লাইন ধরে আরও বলব, "এমন পরিস্থিতি কি যখন মূল পরিবর্তনশীল বনাম ব্যবহার করা ভাল those সেগুলি থেকে প্রাপ্ত কয়েকটি মূল উপাদানগুলি ব্যবহার করা ভাল?"
দোলন অ্যান্টিনিচি

1
অনেক শ্রেণিবদ্ধ টেকিক রয়েছে। উদাহরণস্বরূপ যদি বৈষম্য বিশ্লেষণ গ্রহণ করা হয়, আমি আপনাকে এই পোস্টটি পড়ার জন্য সুপারিশ করব (সেখানে আমার নিজস্ব মন্তব্য সহ)।
ttnphns

1
'শ্রেণিবদ্ধের ফলাফল' বলতে কী বোঝ? যদি এটি অনুপাতকে সঠিকভাবে শ্রেণিবদ্ধ করা হয় তবে এটি একটি বিযুক্ত যথাযথ স্কোরিং নিয়ম, অর্থাত্ একটি নির্ভুলতা স্কোর যা বগাস মডেল দ্বারা অনুকূলিত। আমি শুরু করার জন্য সঠিক যথাযথ স্কোরিং নিয়মটি ব্যবহার করার পরামর্শ দেব would
ফ্র্যাঙ্ক হ্যারেল

1
পার্টির পক্ষে দেরি হলেও, প্রথম: আমি যা যা ডাবল করেছিলাম তা হ'ল ফরোয়ার্ড নির্বাচনের বৈধতা ফলাফলগুলি প্রকৃত ক্ষেত্রে স্বতন্ত্র ক্ষেত্রে প্রাপ্ত হয়েছিল। অন্যথায়, আপনি সম্ভবত একটি বিশাল আশাবাদী পক্ষপাতিত্ব সাপেক্ষে।
সিবেলাইটস মনিকা

উত্তর:


29

একটি সাধারণ কেস বিবেচনা করুন, একটি ভয়ঙ্কর এবং অবমূল্যায়ন নিবন্ধ থেকে " উত্তরণে প্রধান উপাদানগুলির ব্যবহার সম্পর্কে একটি নোট" থেকে উত্তোলন করুন

ধরুন আপনার কাছে কেবল দুটি (স্কেলড এবং ডি-মেন্টেড) বৈশিষ্ট্য রয়েছে, সেগুলি এবং সাথে 0.5 এর সমান ধনাত্মক পারস্পরিক সম্পর্কযুক্ত, সারিবদ্ধ এবং তৃতীয় প্রতিক্রিয়া ভেরিয়েবল আপনি শ্রেণিবদ্ধ করতে চান তা বোঝান । মনে করুন যে এর শ্রেণিবিন্যাস পুরোপুরি এর চিহ্ন দ্বারা নির্ধারিত হয়েছে ।x 2 X Y Y x 1 - x 2x1x2XYYx1x2

উপর পিসিএ করা নতুন (ভেরিয়েন্স অনুসারে অর্ডার করা) বৈশিষ্ট্যগুলিতে , যেহেতু । অতএব, আপনি যদি নিজের মাত্রা 1 অর্থাৎ প্রথম প্রধান উপাদানকে হ্রাস করেন তবে আপনি আপনার শ্রেণিবিন্যাসের সঠিক সমাধানটি ফেলে দিচ্ছেন![ X 1 + + এক্স 2 , x 1 - এক্স 2 ] Var স্বাগতম ( এক্স 1 + + এক্স 2 ) = 1 + + 1 + + 2 ρ > Var স্বাগতম ( এক্স 1 - এক্স 2 ) = 2 - 2 ρX[x1+x2,x1x2]Var(x1+x2)=1+1+2ρ>Var(x1x2)=22ρ

সমস্যা দেখা দেয় কারণ পিসিএ করার অজ্ঞেয়বাদী হয় । দুর্ভাগ্যক্রমে, কেউ পিসিএতে অন্তর্ভুক্ত করতে পারে না কারণ এর ফলে ডেটা ফাঁস হবে।ওয়াইYY


আপনার ম্যাট্রিক্স যখন লক্ষ্যযুক্ত ভবিষ্যদ্বাণীকে প্রশ্নযুক্ত ব্যবহার করে তৈরি করা হয় তখন ডেটা ফাঁস হয় hence সুতরাং নমুনা ছাড়াই কোনও ভবিষ্যদ্বাণী করা অসম্ভব।X

উদাহরণস্বরূপ: আর্থিক সময় সিরিজে, ইউরোপীয় সমাপ্ত দিনটি বন্ধের পূর্বাভাস দেওয়ার চেষ্টা করা হয়, যা সকাল ১১ টা ৪০ মিনিটে EST হয়, আমেরিকান শেষ-দিনের বন্ধগুলি ব্যবহার করে, বেলা ৪ টা ৪০ মিনিটে, EST হ'ল আমেরিকান বন্ধ হওয়ার পরে ডেটা ফাঁস , যা কয়েক ঘন্টা পরে ঘটে থাকে, ইউরোপীয় বন্ধের দামগুলিকে সংহত করে।


2
"তথ্য ফাঁস" কি?
ব্যবহারকারী 60

@ ওয়েইন ব্যয়বহুল খুব হা হা
ক্যাম.ড্যাভিডসন.পিলন

(-1) বিভ্রান্তি সৃষ্টির জন্য: (1) পিসিএ অব্যবহৃত আছে, তাই এটি রূপান্তরকে ক্ল্যাকুলেট করতে কখনই ওয়াইকে অন্তর্ভুক্ত করবে না। সংশ্লিষ্ট তদারকি কৌশলটি হ'ল পিএলএস, যা এক্স এবং ওয়াই উভয় ব্যবহার করে 2 বিপরীতে: পিসিএর সাথে এটি একইভাবে ঘটবে পিএলএসের সাথে ঠিক একই রকম হয় যদি আপনি এই নিয়মটি মানেন না যে প্রথম বিশ্লেষণ ধাপ থেকে যে কোনও একাধিক কেস ব্যবহার করে (যেমন কেন্দ্রিককরণ, স্কেলিং, পিসিএ / পিএলএস প্রক্ষেপণ) সমস্ত গণনা করতে হয় শুধুমাত্র প্রশিক্ষণের ডেটাতে করা হবে (যেমন হওয়া দরকার ...
সিবিলেটগুলি মনিকা

... প্রতিটি সার্গেট মডেলের জন্য পুনরায় গণনা করা। এই গণনার ফলাফল তারপর, টেস্ট ডেটার প্রয়োগ করা যেতে পারে অর্থাত কেন্দ্র প্রশিক্ষণ ডাটা থেকে প্রাপ্ত বিয়োগ, ঘূর্ণন প্রশিক্ষণ ক্ষেত্রে, ইত্যাদি বিষয়ক পিসিএ দ্বারা প্রাপ্ত দ্বারা আবর্তিত
cbeleites মনিকা সমর্থন

উদাহরণ হিসাবে: সময় সিরিজ বিশেষত কঠিন, কারণ একটি স্বতন্ত্র কেস গঠন করে তা প্রয়োগের উপর নির্ভর করে on উদাহরণস্বরূপ দেখুন stats.stackexchange.com/questions/76376/…
cbeleites মনিকা

23

একটি সাধারণ জ্যামিতিক ব্যাখ্যা আছে। আরে নিম্নলিখিত উদাহরণটি ব্যবহার করে দেখুন এবং মনে করুন যে প্রথম প্রধান উপাদানটি তারতম্যকে সর্বাধিক করে তোলে।

library(ggplot2)

n <- 400
z <- matrix(rnorm(n * 2), nrow = n, ncol = 2)
y <- sample(c(-1,1), size = n, replace = TRUE)

# PCA helps
df.good <- data.frame(
    y = as.factor(y), 
    x = z + tcrossprod(y, c(10, 0))
)
qplot(x.1, x.2, data = df.good, color = y) + coord_equal()

# PCA hurts
df.bad <- data.frame(
    y = as.factor(y), 
    x = z %*% diag(c(10, 1), 2, 2) + tcrossprod(y, c(0, 8))
)
qplot(x.1, x.2, data = df.bad, color = y) + coord_equal()

পিসিএ সহায়তা করে পিসিএ সাহায্য করে

সর্বাধিক বৈকল্পিকের দিকটি অনুভূমিক এবং ক্লাসগুলি অনুভূমিকভাবে পৃথক করা হয়।

পিসিএ হার্টস পিসিএ ব্যাথা করছে

সর্বাধিক বৈকল্পিকের দিকটি অনুভূমিক, তবে ক্লাসগুলি উল্লম্বভাবে পৃথক করা হয়েছে


... এবং উদাহরণস্বরূপ 2, তত্ত্বাবধানে থাকা এনালগন, পিএলএস আসলে সহায়তা করবে।
সিবেলাইটস মনিকা

13

পিসিএ লিনিয়ার হয়, আপনি অ লিনিয়ার নির্ভরতা দেখতে চাইলে ব্যথা হয়।

ভেক্টর হিসাবে চিত্রগুলিতে পিসিএ: এখানে চিত্র বর্ণনা লিখুন

একটি অ-রৈখিক অ্যালগরিদম (এনএলডিআর) যা চিত্রগুলি 2 মাত্রা, আবর্তন এবং স্কেলে হ্রাস করেছে:

এখানে চিত্র বর্ণনা লিখুন

আরও তথ্য: http://en.wikedia.org/wiki/ ননলাইনার_সামান্যতা_প্রকাশ


3

আমি দেখতে পাচ্ছি যে প্রশ্নটির ইতিমধ্যে একটি স্বীকৃত উত্তর রয়েছে তবে এই কাগজটি ভাগ করতে চেয়েছিলেন যা শ্রেণিবিন্যাসের আগে বৈশিষ্ট্য রূপান্তরের জন্য পিসিএ ব্যবহার করার কথা বলে ।

টেক-হোম বার্তা (যা @ ভিকিভির উত্তরে সুন্দর করে দেখানো হয়েছে) হ'ল:

অধ্যক্ষ উপাদান উপাদান বিশ্লেষণ (পিসিএ) অক্ষগুলি উত্তোলনের উপর ভিত্তি করে তৈরি করা হয় যার উপর ডেটা সর্বাধিক পরিবর্তনশীলতা দেখায়। যদিও পিসিএ নতুন ভিত্তিতে ডেটা "ছড়িয়ে দেয়", এবং নিরীক্ষণযোগ্য শেখার ক্ষেত্রে বড় সহায়ক হতে পারে, তবুও কোনও নিশ্চয়তা নেই যে নতুন অক্ষগুলি একটি (তত্ত্বাবধানে) শ্রেণিবিন্যাস সমস্যার বৈষম্যমূলক বৈশিষ্ট্যের সাথে সামঞ্জস্যপূর্ণ।

আগ্রহীদের জন্য, আপনি যদি বিভাগ ৪. পরীক্ষামূলক ফলাফলগুলিতে লক্ষ্য করেন তবে তারা শ্রেণিবিন্যাসের মূল্যকে 1) মূল বৈশিষ্ট্যকারক, 2) পিসিএ রূপান্তরিত বৈশিষ্ট্য এবং 3) উভয়ের সংমিশ্রণের সাথে তুলনা করেন যা আমার কাছে নতুন ছিল।

আমার উপসংহার:

পিসিএ ভিত্তিক বৈশিষ্ট্যটির রূপান্তরগুলি সংখ্যক বৈশিষ্ট্য থেকে মূল সংখ্যায় মূল বৈশিষ্ট্যের লিনিয়ার সংমিশ্রণে বিশাল সংখ্যক বৈশিষ্ট্য থেকে প্রাপ্ত তথ্যের সংক্ষিপ্তসার করতে দেয়। তবে মূল উপাদানগুলি প্রায়শই ব্যাখ্যা করা কঠিন (স্বজ্ঞাত নয়), এবং এই গবেষণামূলক গবেষণামূলক ফলাফল হিসাবে ইঙ্গিত দেয় যে তারা সাধারণত শ্রেণিবিন্যাসের কার্যকারিতা উন্নত করে না।

পিএস: আমি নোট করেছি যে কাগজটির তালিকাভুক্ত হওয়া সীমাবদ্ধতার মধ্যে একটি হ'ল লেখক শ্রেণিবদ্ধদের পারফরম্যান্স মূল্যায়ন কেবলমাত্র 'আধিকারিকতায়' সীমাবদ্ধ করেছিলেন, এটি খুব পক্ষপাতদুষ্ট পারফরম্যান্স সূচক হতে পারে।


আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.