আমি কি পিসিএর জন্য ডেটা প্রস্তুত করতে সিএলআর (কেন্দ্রিক লগ-অনুপাতের রূপান্তর) ব্যবহার করতে পারি?


13

আমি একটি স্ক্রিপ্ট ব্যবহার করছি। এটি মূল রেকর্ডের জন্য। আমার একটি ডেটাফ্রেম রয়েছে যা প্রদত্ত গভীরতার (প্রথম কলামে) কলামগুলিতে বিভিন্ন প্রাথমিক রচনাগুলি দেখায়। আমি এটি দিয়ে একটি পিসিএ করতে চাই এবং আমি যে মানদণ্ড পদ্ধতিটি বেছে নিতে পারি তা সম্পর্কে আমি বিভ্রান্ত।

আপনার মধ্যে কেউ এর clr()জন্য আপনার ডেটা প্রস্তুত করতে ব্যবহার করেছেন prcomp()? অথবা এটি আমার সমাধানগুলিতে ভেজাল দেয়। ইন অ্যাট্রিবিউট স্কেলটি ব্যবহার করার পাশাপাশি ফাংশনটি clr()ব্যবহার করার আগে আমি ডেটা অনটি ব্যবহার করার চেষ্টা করেছি ।prcomp()prcomp()

data_f_clr<- clr(data_f)
data_pca <- prcomp(data_f, center = TRUE, scale. = TRUE)

https://stat.ethz.ch/R-manual/R-devel/library/stats/html/prcomp.html

স্কেল ডেটা স্কেল করার জন্য বর্ণিত হয়, তাই তাদের ইউনিট বৈকল্পিক রয়েছে। যেহেতু আমার ডেটাগুলির একটি খুব আলাদা স্কেল রয়েছে যা আমি চেয়েছিলাম তাই, আমি মনে করি। সমস্যাটি হ'ল, আমি উপরের কোডটি ব্যবহার করি বা যখন আমি এড়িয়ে যাই clr()(যা আরও চেয়েছিল ফলাফল তৈরি করে) তখন আমি একটি আলাদা সমাধান পাই । তবে আমি জানতে চাই কেন clr()সেই ক্ষেত্রে ঝামেলা হচ্ছে ?


2
আমার মতো আর-আর ব্যবহারকারীর জন্য, এটি কী clrকরে তা পরিষ্কার করে দেওয়া সহায়ক হতে পারে ....
ডুগাল

3
অবশ্যই সিএলআর সমাধানগুলি পরিবর্তন করে - আপনি কেন এই পদ্ধতিটি ব্যবহার করবেন? সম্ভবত আপনার জিজ্ঞাসা করা উচিত যে কোন পদ্ধতিটি আরও ভাল তা নির্ধারণ করবেন। সিএলআরের জন্য আমাদের সাইটটি অনুসন্ধান করে দরকারী পোস্টগুলি পাওয়া যাবে । একটি ইন একটি সম্পর্কিত প্রশ্নের উত্তর আমি কিছু কনটেন্ট কপিরাইট আইনে পূর্বানুমতি আপনি সাহায্য করতে পারে প্রদান করা হয়েছে।
শুক্রবার

1
দ্রুত উত্তরটি হ'ল পিসিএর পূর্বে ডেটা সহ আপনি যে কোনও কিছু করতে পারেন। এটি পরিচালনা করে কোন নির্দেশ, আইন বা রেসিপি নেই। কেউ কেউ যুক্তি দেখায় যে পিসিএ (আবর্তন ছাড়াই) স্কেল অবিস্মরণীয়, অন্যরা দাবি করে যে পিসিএর ফলাফলগুলি স্কেলের জন্য অত্যন্ত সংবেদনশীল। তবে আপনি যদি পিসিএর ফলাফলগুলি ঘোরান তবে থাম্ব ম্যান্ডেটের নিয়মগুলি প্রাক-পিসিএ যেমন সিএলআরকে সাধারণকরণ বা মানে = 0 এবং এসডি = 1 হিসাবে মানিককরণ করা হয়সিএলআর-এর একটি দুর্দান্ত আলোচনা হ'ল লি কুপারের বই মার্কেট শেয়ার অ্যানালাইসিস ( anderson.ucla.edu/factory/lee.cooper/MCI_Book/BOOKI2010.pdf ) বইটিকে উপাদান বিশ্লেষণের সাথে সংযুক্ত করে।
মাইক হান্টার

2
@ ডি জনসন আমি সিডিআর এবং কেন্দ্রিক লগ-রেশিও রূপান্তরকরণের বিভিন্ন শব্দের জন্য লিঙ্কিত পিডিএফ অনুসন্ধান করেছিলাম কিন্তু কিছুই পাইনি। আমি কি ভুল করছি? এই সংস্করণে কোনও সূচক নেই, তবে বিভাগের শিরোনামগুলি আশাব্যঞ্জক বলে মনে হচ্ছে না এবং উল্লেখগুলিতে জন আইচিসন অন্তর্ভুক্ত নয় যারা গঠনমূলক তথ্যের জন্য এই রূপান্তরটির প্রস্তাব করেছিলেন। এর অধীনে আলোচনার জন্য পৃষ্ঠা উল্লেখগুলি বা অন্য কোনও নাম প্রশংসিত।
নিক কক্স 16

1
ইতিমধ্যে উল্লিখিত হিসাবে, আপনি যে সংস্করণটি সংযুক্ত করেছেন সেটিতে কোনও সূচি নেই, সুতরাং এটির পরামর্শ না নেওয়ার জন্য আমাকে ক্ষমা করুন। "লগ-কেন্দ্রিং" মূলশব্দটির জন্য ধন্যবাদ যা থেকে আমি কোনও ভিন্ন প্রাণীর আলোচনা পাই, কেন্দ্রিক লগ-অনুপাতের রূপান্তর নয় , যা এই থ্রেডটি সম্পর্কে। @ শুভ ইতিমধ্যে এই সাইটে একটি আলোচনার লিঙ্ক দিয়েছেন। মূলটি হ'ল অনুপাতের সংমিশ্রণমূলক ডেটাগুলির জন্য 1 যোগ করার সাথে সাথে আলাদা জায়গাতে সম্মিলিত রূপান্তরের প্রয়োজন এবং সুযোগ রয়েছে। আপনি জানেন এমন একটি পৃথক ধারণার প্রতি ইঙ্গিত হিসাবে আপনি "অনুপাত" শব্দটি মিস করেছেন।
নিক কক্স

উত্তর:


6

আপনি সিএনআর স্থানাঙ্কগুলিতে ভ্যানিলা পিসিএ নিয়ে কিছু সমস্যা অনুভব করতে পারেন। কম্পোজিশনাল ডেটাতে দুটি বড় সমস্যা রয়েছে:

  • তারা কঠোরভাবে নেতিবাচক
  • তাদের একটি পরিমাণ বাধা আছে

বিভিন্ন রচনাগত রূপান্তরগুলি এই দুটি বা উভয়ই বিষয়কে সম্বোধন করে। বিশেষ করে, CLR পর্যবেক্ষিত ফ্রিকোয়েন্সি মধ্যে অনুপাত লগ গ্রহণ করে আপনার ডেটা রূপান্তরিত এবং তাদের জ্যামিতিক গড় , অর্থাত্xG(x)

x^={log(x1G(x)),,log(xnG(x))}={log(x1)log(G(x)),,log(xn)log(G(x))}

এখন, এটি বিবেচনা করুন

log(G(x))=log(exp[1ni=1nlog(xi)])=E[log(x)]

এর কার্যকর অর্থ হ'ল

x^=[log(x)E[log(x)]]=0

অন্য কথায় সিএলআর মান সীমাবদ্ধতার সীমাবদ্ধতা (যা কিছু অ্যাপ্লিকেশনের জন্য ভাল) সরিয়ে দেয়, তবে যোগফলের সীমাবদ্ধতা সরিয়ে দেয় না, ফলে একক একাকী ম্যাট্রিক্স কার্যকর হয় যা কার্যকরভাবে (এম) আনোভা / লিনিয়ার রিগ্রেশন / ... এবং ভেঙে দেয় পিসিএ বহিরাগতদের কাছে সংবেদনশীল (কারণ শক্তিশালী কোভেরিয়েন্স অনুমানের একটি পূর্ণ-র‌্যাঙ্কের ম্যাট্রিক্স প্রয়োজন)। যতদূর আমি জানি, সমস্ত রচনাগত রূপান্তরগুলির মধ্যে কেবল আইএলআর উভয় সমস্যার কোনও বড় অন্তর্নিহিত অনুমান ছাড়াই সম্বোধন করে। যদিও পরিস্থিতি কিছুটা জটিল is সিএলআর সমন্বয়কারীগুলির এসভিডি আপনাকে আইএলআর স্পেসে একটি অর্থোথোনাল ভিত্তি দেয় (আইএলআর সমন্বয়গুলি সিএলআর একটি হাইপারপ্লেন স্প্যান করে), সুতরাং আপনার বিবর্তনের অনুমানগুলি আইএলআর এবং সিএলআরের মধ্যে পৃথক হবে না (এটি অবশ্যই স্পষ্ট, কারণ আইএলআর এবং সিএলআর উভয়ই আইসোমেট্রি রয়েছে) সিমপ্লেক্স)। তবে, আইএলআর স্থানাঙ্কগুলিতে দৃ c় সমবায় অনুমানের জন্য বিভিন্ন পদ্ধতি রয়েছে [২]।

আপডেট আমি

কেবল চিত্রিত করার জন্য যে সিএলআর সম্পর্ক এবং অবস্থান-নির্ভর পদ্ধতির জন্য বৈধ নয়। আসুন ধরে নেওয়া যাক আমরা তিনটি রৈখিক স্বতন্ত্রভাবে সাধারনত বিতরিত উপাদানগুলির একটি সম্প্রদায়কে 100 বার নমুনা করি। সরলতার জন্য, সমস্ত উপাদানগুলির সমান প্রত্যাশা (100) এবং রূপগুলি (100) হওয়া যাক:

In [1]: import numpy as np

In [2]: from scipy.stats import linregress

In [3]: from scipy.stats.mstats import gmean

In [4]: def clr(x):
   ...:     return np.log(x) - np.log(gmean(x))
   ...: 

In [5]: nsamples = 100

In [6]: samples = np.random.multivariate_normal(
   ...:     mean=[100]*3, cov=np.eye(3)*100, size=nsamples
   ...: ).T

In [7]: transformed = clr(samples)

In [8]: np.corrcoef(transformed)
Out[8]: 
array([[ 1.        , -0.59365113, -0.49087714],
       [-0.59365113,  1.        , -0.40968767],
       [-0.49087714, -0.40968767,  1.        ]])

In [9]: linregress(transformed[0], transformed[1])
Out[9]: LinregressResult(
   ...:     slope=-0.5670, intercept=-0.0027, rvalue=-0.5936, 
   ...:     pvalue=7.5398e-11, stderr=0.0776
   ...: )

আপডেট দ্বিতীয়

আমি যে প্রতিক্রিয়া পেয়েছি সেগুলি বিবেচনা করে, আমি এটি উল্লেখ করা প্রয়োজন যে আমার উত্তরের কোনও বিন্দুতে আমি বলেছি যে সিসিআর-রুপান্তরিত ডেটাতে পিসিএ কাজ করে না। আমি বলেছি যে সিএলআর সূক্ষ্ম উপায়ে পিসিএ ভেঙে ফেলতে পারে যা মাত্রা হ্রাসের জন্য গুরুত্বপূর্ণ নয়, তবে অনুসন্ধানের ডেটা বিশ্লেষণের জন্য গুরুত্বপূর্ণ। @ আর্চির দ্বারা উদ্ধৃত কাগজটিতে মাইক্রোবায়াল বাস্তুসংস্থান রয়েছে। গণনামূলক জীববিজ্ঞানের সেই ক্ষেত্রে বিভিন্ন দূরত্বের ম্যাট্রিকগুলিতে পিসিএ বা পিসিওএ তথ্য পরিবর্তনের উত্সগুলি অন্বেষণ করতে ব্যবহৃত হয়। আমার উত্তরটি কেবল এই প্রসঙ্গে বিবেচনা করা উচিত। অধিকন্তু, এটি কাগজে নিজেই হাইলাইট করা হয়েছে:

... রচনাগত বাইপ্লট [দ্রষ্টব্য: পিসিএ উল্লেখ করে] β-বৈচিত্র্য বিশ্লেষণের জন্য মূল সমন্বিত (পিসিওএ) প্লটগুলির তুলনায় বেশ কয়েকটি সুবিধা রয়েছে। প্রাপ্ত তথ্যগুলি খুব স্থিতিশীল থাকে যখন ডেটা সাবসেট হয় (বিয়ান এট আল।, 2017), অর্থাত অনুসন্ধানী বিশ্লেষণ কেবল ডেটাতে উপস্থিতি অনুপস্থিতি সম্পর্ক দ্বারা বা অত্যধিক স্পারসিটি দ্বারা চালিত হয় না (ওয়াং এট আল।, ২০১;; মর্টন এট) আল।, 2017)।

গ্লোর ইত্যাদি।, 2017

আপডেট তৃতীয়

প্রকাশিত গবেষণার অতিরিক্ত রেফারেন্স (আরও উল্লেখ যুক্ত করার জন্য আমি @ নিক কক্সকে ধন্যবাদ জানাই):

  1. পিসিএর জন্য সিএলআর ব্যবহারের বিরুদ্ধে যুক্তি
  2. পারস্পরিক সম্পর্ক ভিত্তিক পদ্ধতির জন্য সিএলআর ব্যবহারের বিরুদ্ধে যুক্তি
  3. আইএলআর পরিচয়

2
একটি একক কোভেরিয়েন্স ম্যাট্রিক্স পিসিএর জন্য সমস্যা নয়!
কেজেটিল বি হালওয়ারসেন

@ কেজেটিভালভর্সেন সত্যই, প্রতি সেমি পিসিএর জন্য ম্যাট্রিক্সের পুরো র‌্যাঙ্ক হওয়ার প্রয়োজন হয় না। প্রযুক্তিগতভাবে বলতে গেলে, একটি একক covariance ম্যাট্রিক্স কেবলমাত্র এক বা একাধিক শূন্য ইগেনভ্যালুগুলির ফলাফল করবে। তবুও, লোকেরা সাধারণত বিবিধ উত্সগুলি অন্বেষণের জন্য পিসিএ প্রয়োগ করে, যার কারণেই রচনাটি শুরু হয় That's এই কারণেই আমি আমার কথাটি সম্পর্কে সতর্ক হয়েছি: "... কার্যকরভাবে পিসিএ / ... বিভিন্ন সূক্ষ্ম উপায়ে ভেঙে
ফেলেছে

সুতরাং আপনি বোঝাতে চেয়েছেন যে একাকীত্বের কারণে কেউ উপাদান হিসাবে প্রতি বিস্তৃত পরিমাণের বিবর্তনের পরিমাণ গণনা করতে পারে না? তারপরে অন্য, মাত্রাজনিত হ্রাস সম্পাদনের জন্য কেউ পিসিএ করতে পারে। এটি কীভাবে আনোভা / লিনিয়ার রিগ্রেশনকে প্রভাবিত করে?
আর্কি

1
+1 কারণ উত্তরটি খুব আকর্ষণীয়। যদিও সমালোচনা ছাড়া এটি যায় না। আপনি আপাতদৃষ্টিতে (আমার কাছে বোকা) সঠিকভাবে ব্যাখ্যা করেন নি যে কম্পোজিশনাল বা ক্লার-ট্রান্সফর্মড ডেটাতে পিসিএ করা কেন "সূক্ষ্ম উপায়ে" (কোন? কীভাবে?) সঠিক নয়। এছাড়াও, আপনি একটি অজগর কোড দিচ্ছেন তবে এর ফলাফল নয়। আপনি কি এর ফলাফলগুলি প্রদর্শন এবং মন্তব্য করতে পারেন? অবশেষে, আপনি কি পড়তে আইএলআর ট্রান্সফোটম সম্পর্কে একটি লিঙ্ক রেখে যেতে পারেন?
ttnphns

1
@ttnphns 1) আমি মন্তব্যে যেমন লিখেছি, সিএলআর গবেষণামূলক ডেটা বিশ্লেষণকে প্রভাবিত করে রচনাগত রুদ্ধকরণ দ্বারা প্রবর্তিত বৈকল্পিক উত্সগুলির বিকৃতিটি সরিয়ে দেয় না: শক্তিশালী কোভেরিয়েন্স অনুমানের জন্য একটি পূর্ণ-র‌্যাঙ্কের ম্যাট্রিক্স প্রয়োজন; 2) আমি নিশ্চিত না যে আমি অনুসরণ করছি, কেন আপনি বলছেন যে কোনও ফলাফল নেই: এটি ইনপুট এবং আউটপুট (অর্থাত্ ফলাফল) সহ একটি ইন্টারেক্টিভ পাইথন সেশন; 3) আমি আইএলআর জন্য একটি রেফারেন্স যোগ করেছি।
এলি করভিগো

5

হ্যাঁ আপনি করতে পারেন এবং বাস্তবে আপনার হওয়া উচিত, যখন আপনার ডেটা গঠনযুক্ত হয়।

মাইক্রোবায়োলজির ক্ষেত্র থেকে একটি পর্যালোচনা এখানে পাওয়া যাবে, যা মাইক্রোবায়োম ডেটাসেটগুলি বিশ্লেষণ করতে সিসিআর-ট্রান্সফর্মেশন ব্যবহার করতে অনুপ্রাণিত করে (যা সংজ্ঞায়িত প্রতি গঠনমূলক): https://www.frontiersin.org/articles/10.3389/fmicb .2017.02224 / পূর্ণ


দুর্ভাগ্যক্রমে, সেই কাগজটি অনেক ক্ষেত্রে ভয়াবহভাবে ভুল, যা দু: খজনক বিষয় বিবেচনা করে দেখা যায় যে দুজন সহকর্মী গঠনমূলক ডেটা বিশ্লেষণের চ্যাম্পিয়ন।
এলি করভিগো

@ এলিকর্ভিগো এই মন্তব্যটি সুপ্রতিষ্ঠিত হতে পারে তবে নিজে থেকে এটি সহায়ক নয়। আপনি যদি কোনও প্রকাশিত বা কমপক্ষে সর্বজনীন সমালোচনার দিকে ইঙ্গিত করতে পারেন তবে এই জাতীয় সমালোচক ছবিটি পরিবর্তন করতে পারে।
নিক কক্স

@ নিককক্স নিশ্চিত, ফিলজমোজার এবং হ্রনের একটি কাগজ রয়েছে । এটি পূর্বোক্ত কাগজের সরাসরি সমালোচনা নয়, তবে এটি পারস্পরিক সম্পর্ক বিশ্লেষণের জন্য সিএলআর ব্যবহার করার বিরুদ্ধে তর্ক করেছে, যখন উপরোক্ত কাগজটি সিএলআর ভিত্তিক সরঞ্জামগুলির প্রস্তাব দেয়।
এলি করভিগো

@ নিককক্স আমি ডাঃ পাভলভস্কি-গ্লাহান এবং ডাঃ ইগোজকিয়ের প্রতি গভীর গভীর শ্রদ্ধা জাগাতে চাই, যারা আর্চির উল্লিখিত গবেষণাপত্রের শেষ দুটি লেখক। আসলে, তারা সিএলআর এর ত্রুটিগুলি সমাধান করার জন্য আইএলআর চালু করেছে (ইগোস্কু এবং পাভলোস্কি-গ্লাহান, 2003) । সিএলআরকে উল্লেখ করে তারা লিখেছেন: "তবুও, সেই উপস্থানে অরথোগোনাল রেফারেন্সগুলি সোজা পদ্ধতিতে পাওয়া যায় না"
এলি করভিগো

পাওলোভস্কি-গ্লাহন এবং ইগোজিকিউ "কাঠামোগত তথ্য এবং তাদের বিশ্লেষণ: একটি ভূমিকা" (2006) এ ক্লিয়ার সহগের "নির্দিষ্ট সুবিধা রয়েছে: এক্সপ্রেশনটি অংশগুলিতে প্রতিসম হয় এবং এই সমন্বয়গুলি অ্যাকিসন দূরত্বের সাধারণ দূরত্বের গণনা হ্রাস করে। তারা হ'ল দ্বি-প্লটের গণনা (...) "
জও।
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.