পিসিএ উপাদান নির্বাচন করা যা পৃথক পৃথক গ্রুপ


13

আমি প্রায়শই পিসিএ (কয়েক হাজার ভেরিয়েবল এবং কয়েক ডজন বা শত শত নমুনা সহ অলমিক্স ডেটা) ব্যবহার করে আমার মাল্টিভিয়ারেট ডেটা নির্ণয় করতাম। ডেটা প্রায়শই কয়েকটি গোষ্ঠী সংজ্ঞায়িত বিভিন্ন শ্রেণিবদ্ধ স্বতন্ত্র ভেরিয়েবলগুলির সাথে পরীক্ষাগুলি থেকে আসে এবং আগ্রহী গোষ্ঠীর মধ্যে একটি বিভাজন দেখায় এমনগুলি খুঁজে পাওয়ার আগে আমাকে প্রায়শই কয়েকটি উপাদান দিয়ে যেতে হয়। আমি এ জাতীয় বৈষম্যমূলক উপাদানগুলি আবিষ্কারের পরিবর্তে আদিম উপায় নিয়ে এসেছি এবং অবাক হয়েছি

  1. এটি কতটা যুক্তিসঙ্গত / ন্যায়সঙ্গত, এবং
  2. একই অর্জনের আরও ভাল উপায় আছে কিনা।

মনে রাখবেন এটি অনুসন্ধানী। অন্য কাউকে বোঝানোর আগে আমি নিজেকে বোঝাতে চাই। যদি আমি দেখতে পাই যে এমন কিছু উপাদান রয়েছে যা স্বার্থের গোষ্ঠীগুলিকে স্পষ্টভাবে আলাদা করে (যেমন নিয়ন্ত্রণ বনাম চিকিত্সা), এমনকি তারা প্রতিক্রিয়াগুলির প্রকরণের ক্ষুদ্র অংশের জন্যও দায়ী, আমি তত্ত্বাবধায়ক মেশিনের ফলাফলের চেয়ে বেশি বিশ্বাস করি শেখার।

এই আমার পদ্ধতির। আমি আরটি-তে pca3d থেকে সেট করা "মেটাবো" উদাহরণ ডেটা ব্যবহার করব।

ধারণাটি নির্ধারণ করা হয় যে প্রতিটি উপাদানটির কতগুলি বৈকল্পিক স্বাধীন ভেরিয়েবল দ্বারা ব্যাখ্যা করা যায়। এর জন্য, আমি প্রতিটি উপাদানগুলির জন্য একটি সাধারণ মডেল গণনা করি এবং উপাদানগুলিকে "সবচেয়ে আকর্ষণীয়" থেকে "কমপক্ষে আকর্ষণীয়" করার জন্য মেট্রিক হিসাবে ব্যবহার করি R2

require( pca3d )
# data on metabolic profiles of TB patients and controls
data( metabo )
# first column is the independent variable
pca <- prcomp( metabo[,-1], scale.= T ) 

# create a model for each component
lm.m <- lm( pca$x ~ metabo[,1] )
lm.s <- summary( lm.m )
lm.r2 <- sapply( lm.s, function( x ) x$r.squared )
plot( lm.r2, type= "l" )
text( 1:length( lm.r2 ), lm.r2, 1:length( lm.r2 ), pos= 3 )

ফলাফল এখানে। প্লটটি ইন ইন্ডিপেন্ডেন্ট ভেরিয়েবল দ্বারা ব্যাখ্যা করা প্রতিটি উপাদানগুলির বৈকল্পিকতার শতাংশ দেখায় metabo[,1]

এখানে চিত্র বর্ণনা লিখুন

কোনটি দিয়ে প্রদর্শিত হবে তা নির্ধারণের জন্য আমরা উপাদানগুলিকে দিয়ে বাছাই করতে পারি ; প্রথম তিনটি উপাদান হ'ল 2, 1 এবং 7।r2order( lm.r2, decreasing= TRUE )

pca3d( pca, components= c( 1, 2, 7 ), group= metabo[,1] )

প্লটটি এখানে:

এখানে চিত্র বর্ণনা লিখুন

(লাল এবং সবুজ বিভাগগুলি এমন দুটি গ্রুপের বিষয় যারা রোগী নন এবং এটি আশা করা যায় যে এগুলি আলাদা করা যায় না))

আমার প্রশ্নগুলির সংস্কার করতে,

  1. এই পদ্ধতির আপনার অর্থ কি? আমার সমস্যাটি এটি ডেটার ড্রেজিংয়ের মতো দেখতে অনেক বেশি লাগে। এছাড়াও, স্বজ্ঞাতভাবে আমি মনে করি সম্ভবত আমার টেবিলটি ঘুরিয়ে দেওয়া উচিত এবং জিজ্ঞাসা করতে হবে যে প্রতিটি ভেরিয়েবল দ্বারা স্বতন্ত্র ভেরিয়েবলের প্রকরণটির ব্যাখ্যা করা হয়? অবশেষে, আমি (প্রায়) নিশ্চিত যে আমি চাকাটি পুনরায় উদ্ভাবন করছি, দুর্বল, সুতরাং আমার দ্বিতীয় প্রশ্নটি
  2. এর চেয়ে ভাল কিছু আছে কি?

নোট করুন যে আমি এই পর্যায়ে আংশিক ন্যূনতম স্কোয়ার বা অনুরূপ কিছুতে যেতে চাই না; আমি কেবল আমার শ্রেণিবিন্যাসের প্রসঙ্গে পিসিএ নির্ণয় করতে চাই।


2
আমি আপনার আকর্ষণীয় প্রশ্ন সম্পর্কে মাত্র দুটি মন্তব্য করতে চাই। 1) কোডটি দেখানোর পাশাপাশি আপনার পদ্ধতির শব্দগুলিতে বর্ণনা করুন (মনে রাখবেন যে লোকেদের বিভিন্ন সফ্টওয়্যার ব্যবহার করা হয়, প্রয়োজনীয়ভাবে আর নয়)। 2) স্ক্যাটারপ্লট তার মেঝেতে স্পাইক ছাড়া খুব বেশি বিশ্বাসযোগ্য নয়। এছাড়াও, আপনার যদি আপনার পদ্ধতির বিষয়ে কোনও নির্দিষ্ট সন্দেহ থাকে তবে দয়া করে প্রশ্নটি আরও কেন্দ্রীভূত করার জন্য তাদের সাথে কথা বলুন।
ttnphns

1
সম্পাদিত: পরিষ্কার করার জন্য, আপনি প্রথমে পিসিএ পরিচালনা করছেন এবং তারপরে কিছু নির্দিষ্ট ভেরিয়েবলের দ্বারা সর্বোত্তমভাবে ব্যাখ্যা করা মূল উপাদানগুলি আলাদা করার চেষ্টা করছেন? আপনি কি স্ক্রি প্লটের সাথে এগুলি ক্রস-বৈধতা দিচ্ছেন? এটি এমন কোনও ক্ষেত্রে হতে পারে যে আপনি আপনার ডেটা সেট থেকে কিছু x বাছাই করেছেন মূল উপাদানটিতে প্রচুর প্রকারভেদ ব্যাখ্যা করার জন্য, তবে আমি নিশ্চিত নই যে এর মূল উপাদানটির সাথে যদি ভেরিয়েন্সটি খুব কম থাকে তবে এর অর্থ কিছু হবে।
শ্যাডট্যালকার

1
R2

2
to find out what share of the overall variance in the data matrix is explained by a given classificationএটি জানতে চাইলে আপনার কোনও পিসিএ দরকার নেই। বর্গের সমষ্টি-সমষ্টিগুলির অনুপাতের সমষ্টিটিকে মোট বর্গের সমষ্টি হিসাবে গণনা করুন: (SStotal-SSwithin)/SStotalযেখানে এসএসউইথিন-সমষ্টি-সমষ্টি-সমষ্টিগুলির মধ্যে পোলড।
ttnphns

1
আপনি পিসিএকে যেভাবে শোষণ করেছেন তাতে আমি কোনও সমস্যা দেখছি না, তবে কেন আপনার সত্যি এটির প্রয়োজন তা আমি বুঝতে পারি না । (কেবল আপনার পছন্দ হতে পারে বলে?) কারণ আমি আপনার সুনির্দিষ্ট লক্ষ্যটি দেখতে পাচ্ছি না আমি আপনার জন্য কিছু বলতে পারি না Is there anything better?
ttnphns

উত্তর:


8

আপনার প্রশ্নের উত্তর # 1 হ্যাঁ, আপনার সমাধান ডেটা ড্রেজিংয়ের সমান। আপনার # 2 প্রশ্নের উত্তর হ্যাঁ, সাহিত্যে উচ্চতর পদ্ধতি রয়েছে।

n<<p

আপনি একটি বিশ্লেষণ যে বর্ণনার অনুরূপ প্রধান উপাদান রিগ্রেশন দৌড়াচ্ছে ছাড়া যে আপনি আপনার স্বাধীন ও নির্ভরশীল ভেরিয়েবল অদলবদল হয়েছে, বৃহৎ ফলে বহুচলকীয় (যেমন বিরোধিতা একাধিক রিগ্রেশন বিশ্লেষণ)। মাল্টিভাইয়ারেট রিগ্রেশনটির জন্য আপনার নমুনার আকার নির্ভরশীল ভেরিয়েবলের সংখ্যার চেয়ে বড় হওয়া দরকার, এটি আপনার প্রয়োজনে পুরোপুরি লঙ্ঘন করছে।

আপনি যদি আপনার ডেটাতে পিসিএ চালানোর জন্য প্রতিশ্রুতিবদ্ধ হন এবং তারপরে মাল্টিভারিয়েট রিগ্রেশন ব্যবহার করেন তবে আপনাকে অবশ্যই একটি উপযুক্ত পদ্ধতি ব্যবহার করতে হবে। উদাহরণস্বরূপ, এমআরসিই এবং সম্পর্কিত পদ্ধতিগুলি দেখুন [1]।

যাইহোক, আপনি কিছু আশ্চর্যজনক মন্তব্য করা সত্ত্বেও, আপনার বিশ্লেষণের প্রতিটি হিসাবে বর্তমানে উপস্থাপিত হয়েছে যে আপনার চূড়ান্ত লক্ষ্যটি একটানা চলক (মেটাবো [, - 1]) এবং একটি একক শ্রেণিবদ্ধ পরিবর্তনশীল (বিপাক [] , 1])। এটি সম্পাদন করার পিসিএ একটি খারাপ উপায়। উচ্চ-মাত্রিক ক্ষেত্রে এই সমস্যার সমাধানের জন্য দুটি সাধারণ শ্রেণি রয়েছে: প্রথমত, স্পারসিটি ধরে নেয় এমন সমাধান এবং একটি ফ্যাক্টর কাঠামো ধরে নেয় এমন সমাধান।

স্পারসিটি-ভিত্তিক সমাধানগুলি সাধারণত ধরে নেয় যে কেবলমাত্র খুব সামান্য পরিমাণে ভেরিয়েবলগুলি আগ্রহের শ্রেণিবদ্ধ পরিবর্তনশীল সম্পর্কিত এবং এই ছোট উপসেটটি সন্ধানের চেষ্টা করে; উদাহরণস্বরূপ ডালাস দেখুন [2]। ফ্যাক্টর-কাঠামো ভিত্তিক পদ্ধতিগুলি ধরে নিয়েছে যে আপনার বৈষম্যমূলক ভেরিয়েবলগুলি শ্রেণিবদ্ধ ভেরিয়েবলের সাথে সত্যিকারের সম্পর্কযুক্ত অন্তর্নিহিত সুপ্ত পরিবর্তনশীলগুলির বহিঃপ্রকাশ। এই শ্রেণীর পদ্ধতির উদাহরণ ডিএলডিএ [3]।

দ্রষ্টব্য যে আমি অগত্যা আপনার ডেটার জন্য আমি উল্লেখ করা কোনও পদ্ধতির সুপারিশ করছি না ; আপনার যথাযথ পদ্ধতি নির্বাচন করার ক্ষেত্রে আপনার লক্ষ্যগুলি এবং সমস্যার একটি প্রাথমিক জ্ঞান অবশ্যই যত্ন সহকারে বিবেচনা করতে হবে।

[1] রথম্যান, লেভিনা, জু (2010)। কোভারিয়েন্স অনুমানের সাথে স্পার্স মাল্টিভারিয়েট রিগ্রেশন। গণনা এবং গ্রাফিকাল পরিসংখ্যান জার্নাল, খণ্ড 19, সংখ্যা 4, পৃষ্ঠা 947-962।

[২] নিকোলে টি। ট্রেন্ডাফিলভ, আয়ান টি। জলিফ, ডালাস: লাসো, গণনা সংক্রান্ত পরিসংখ্যান ও ডেটা বিশ্লেষণ, খণ্ড 51, সংখ্যা 8, 1 মে 2007, পৃষ্ঠা 3718-3736 এর মাধ্যমে বৈষম্যমূলক বিশ্লেষণে পরিবর্তনশীল নির্বাচন।

[3] ইউ, ইয়াং (2001)। স্বীকৃতির মুখোমুখি হওয়ার জন্য অ্যাপ্লিকেশন সহ উচ্চ-মাত্রিক ডেটার জন্য একটি সরাসরি এলডিএ অ্যালগরিদম। প্যাটার্ন স্বীকৃতি 34, 2067-2070।


2
আমি এই উত্তরটি প্রদানের জন্য একটি নতুন অনুগ্রহ শুরু করেছি।
জানুয়ারী

1
@January: এটি একটি চমৎকার উত্তর, কিন্তু আমি যে বাতলান "সরাসরি Lda বিভাগ" একটি খুব অদ্ভুত আলগোরিদিম চাই শ্রেষ্ঠ সময়ে দেখতে গাও ও ডেভিস, 2005, কেন সরাসরি Lda বিভাগ Lda বিভাগ সমমানের নয় : "আমরা যে প্রদর্শন। .. ডি-এলডিএ সাধারণ অ্যাপ্লিকেশনগুলিতে উল্লেখযোগ্য পারফরম্যান্স সীমাবদ্ধতা চাপিয়ে দিতে পারে ", তাই এটির সাথে সাবধানতা অবলম্বন করুন।
অ্যামিবা বলছেন মনিকা পুনরায়

@ অ্যামিবা সেই প্রশংসার জন্য ধন্যবাদ ডিএলডিএ সম্পর্কে আমার কিছুক্ষণের জন্য উদ্বেগ ছিল, যেহেতু সেই নির্দিষ্ট উপায়ে উপাদান নির্বাচন করার কোনও যৌক্তিকতা নেই। আমি এটি একটি খুব সমস্যা-নির্দিষ্ট সমাধান হিসাবে দেখছি যা মুখের বৈষম্য সমস্যার বাইরে অগত্যা সাধারণীকরণ করে না, যদিও এটি বৈষম্যের জন্য কোন উপাদানগুলি সবচেয়ে কার্যকর তা কিছু জ্ঞানের সাথে সহজেই কোনও সমস্যার সাথে মানিয়ে নেওয়া যায়। ধরে নেওয়া ফ্যাক্টর স্ট্রাকচার সহ উচ্চ-মাত্রিক বৈষম্য বাস্তবায়নের প্রতিটি সমাধান সমস্যায় ভুগছে ... আপনি কি আরও ভাল পন্থা খুঁজে পেয়েছেন? আমি এখানে আপনার মতামত আগ্রহী।
আহফস

nk

4

@ এফফাস ইতিমধ্যে আপনাকে পিসিএর শ্রেণিবিন্যাস এনালগন হিসাবে এলডিএর দিকে নির্দেশ করেছেন। আসলে, এই দুটি পদ্ধতি একে অপরের সাথে সম্পর্কিত এবং পিএলএসের সাথেও সম্পর্কিত:

nature of dependent variable (for supervised)     unsupervised    supervised
or structure of data (unsupervised)
continuous                                        PCA             PLS
factor/groups/classes                                             LDA

II

np

পিএলএসকে লাসোর মতো নিয়মিতকরণ হিসাবে দেখা যেতে পারে, এবং স্পার্স পিএলএস পাওয়া যায় (যদিও আমি এটি ব্যবহার করি নি: আমার ডেটা সাধারণ পিএলএসের জন্য বেশি উপযুক্ত, যা স্বতন্ত্রতা ধরে না)। বিভিন্ন নিয়মিতকরণ পদ্ধতির একটি সুন্দর আলোচনার জন্য, উদাহরণস্বরূপ পরিসংখ্যান শিক্ষার উপাদানসমূহ দেখুন ।

np

T=X×W
L=X×B


L(n×k1)=T(n×m)B(m×k1)
L(n×k1)=X(n×p)W(p×m)B(m×k1)
L(n×k1)=X(n×p)B(p×k1)
LBBB

ব্যবহারিক নোট: আপনি আরে কাজ করার ক্ষেত্রে আমার কাছে বিকাশের অধীনে একটি প্যাকেজ রয়েছে যা পিএলএস-এলডিএ এবং পিসিএ-এলডিএ মডেল সরবরাহ করে। আপনি যদি এটি ব্যবহার করে দেখতে চান তবে আমাকে জানান।


ডেটা ড্রেজিং এড়ানোর জন্য, আপনাকে আপনার চূড়ান্ত মডেলটি (= এর কার্যকারিতা পরিমাপ করা) স্বতন্ত্র ডেটা দিয়ে বৈধ করতে হবে।

ইন্ডিপেন্ডেন্ট এখানে এর অর্থ হল এই ক্ষেত্রে (ধৈর্যশীল?) মডেল ঝুলানো অবদান করা হয়নি কোন উপায়। নির্দিষ্টভাবে,

  • কেন্দ্রিককরণ বা মানককরণের মতো একাধিক কেস জড়িত এমন কোনও প্রিপ্রসেসিংয়ের মধ্যে প্রবেশ করেনি
  • পিসিএ / পিএলএস / ... গণনায় প্রবেশ করেনি।
  • হাইপারপ্যারামিটার অনুমানের জন্য ব্যবহার করা হয়নি।

আপনার কেবল কয়েকটি কেস রয়েছে তাই পুনর্নির্মাণের কৌশলটি যথাযথ হবে। হাইপারপ্যারামিটারের অপ্টিমাইজেশনের জন্য আপনার প্রশিক্ষণের ডেটার দ্বিতীয়, অভ্যন্তরীণ বিভাজন এড়াতে এই পরিস্থিতিতে, বাহ্যিক জ্ঞানের দ্বারা কোনও হাইপারপ্যারামিটারগুলি (যেমন পিসি বা পিএলএস প্রচ্ছন্ন ভেরিয়েবলগুলির মতো, বা ল্যাসো আবদ্ধ) ঠিক করা ভাল।


ক্রস-বৈধকরণ মডেলগুলির জন্য +1। খুবই গুরুত্বপূর্ণ. তবে আমি ওপি @ জানুয়ারীর কাছ থেকে শুনতে চাই, যিনি বলেছিলেন যে তিনি বৈষম্যের প্রতি আগ্রহী নন, যদিও তার সমস্যা বৈষম্য / শ্রেণিবিন্যাস বিশ্লেষণের পক্ষে খুব উপযুক্ত বলে মনে হচ্ছে।
আহফসস 8:54

আমি আপনার এই মতামতের সাথে একমত নই যে কে-মানে / পিসিএ / ইত্যাদি একই পরিবারের অন্তর্ভুক্ত। এটি বোঝায় যে তারা একই মডেল বা অ্যালগরিদমের বিশেষ মামলা, যা সত্য নয়। পিসিএ অ্যালগরিদম একটি সাধারণ ম্যাট্রিক্স গণনা, অন্যদিকে কে-মানে একটি পুনরাবৃত্ত অ্যালগরিদম যা EM অ্যালগরিদমের সাথে তুলনা করা হয়েছে (কোনও সম্ভাবনা কার্যকারিতা না থাকায় প্রযুক্তিগতভাবে সঠিক নয়, তবে কিছু ক্ষেত্রে আইএমএইচওর জন্য একটি দরকারী তুলনা)।
আহফসস

1
আপনি কি plsgenomics :: pls.lda ফাংশন উল্লেখ করছেন? না হলে কীভাবে আপনার প্যাকেজটি আলাদা / উন্নত? আমি আগ্রহী পাঠকদের দিকে আরও উল্লেখ করব যে সাধারণভাবে পিএলএস-এলডিএ একটি ডামি কোডেড ফলাফল পরিবর্তনশীল সহ কেবল পিএলএস চালানোর সাধারণ ব্যবহৃত কৌশলগুলির চেয়ে উচ্চতর। যদিও এই উত্তরোত্তর পদ্ধতির অগত্যা ভুল নয়, তবে এটি অবশ্যই ক্লডজি, কমপক্ষে নয় কারণ আপনি পূর্বাভাসের সম্ভাবনাগুলি শূন্যের চেয়ে কম বা একেরও বেশি অর্জন করতে পারেন!
আহফসস

@ অহফস: আমি আলগোরিদিমগুলি বোঝাতে চাইনি, কারণ একই অন্তর্নিহিত মডেলটি বিভিন্ন অ্যালগরিদম দ্বারা গণনা করা যেতে পারে। যেমন পিসিএর জন্য আপনি পুনরাবৃত্ত (NIPALS, POWER) বা নন-পুনরুক্তি (ইভিডি, এসভিডি) অ্যালগোরিদম ব্যবহার করতে পারেন। সম্ভবত কে-মানেগুলির পরিবর্তে একটি ভাল শব্দটি হ'ল "ক্লাস্টারের বিশ্লেষণকে স্কোয়ারের ক্লাস্টারের সমষ্টিকে হ্রাস করা যায়, যার জন্য যেমন কে-মানে হিউরিস্টিক আনুমানিক"। আমার এখন সময় নেই, উত্তরটি পরে দেখব বা আমরা চ্যাট রুমে দেখা করতে পারি এবং আরও ভাল বিবরণ পেতে পারি।
এসবিএক্স

1
... একটি প্রযুক্তিগত পার্থক্য হ'ল আমি প্লিজ ব্যবহার করি pls::plsr(যা বিভিন্ন অ্যালগোরিদম থেকে চয়ন করতে দেয়)। এবং আমার কাছে পোস্ট-প্রসেসিং ফাংশনগুলির একটি গুচ্ছ রয়েছে যেমন মডেলটিকে উল্টানো এবং ঘোরানোর জন্য, যা কখনও কখনও ব্যাখ্যার জন্য কার্যকর হয়।
এসএক্স
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.