আপনি সিএনআর স্থানাঙ্কগুলিতে ভ্যানিলা পিসিএ নিয়ে কিছু সমস্যা অনুভব করতে পারেন। কম্পোজিশনাল ডেটাতে দুটি বড় সমস্যা রয়েছে:
- তারা কঠোরভাবে নেতিবাচক
- তাদের একটি পরিমাণ বাধা আছে
বিভিন্ন রচনাগত রূপান্তরগুলি এই দুটি বা উভয়ই বিষয়কে সম্বোধন করে। বিশেষ করে, CLR পর্যবেক্ষিত ফ্রিকোয়েন্সি মধ্যে অনুপাত লগ গ্রহণ করে আপনার ডেটা রূপান্তরিত এবং তাদের জ্যামিতিক গড় , অর্থাত্এক্সজি ( এক্স )
x^={log(x1G(x)),…,log(xnG(x))}={log(x1)−log(G(x)),…,log(xn)−log(G(x))}
এখন, এটি বিবেচনা করুন
log(G(x))=log(exp[1n∑i=1nlog(xi)])=E[log(x)]
এর কার্যকর অর্থ হ'ল
∑x^=∑[log(x)−E[log(x)]]=0
অন্য কথায় সিএলআর মান সীমাবদ্ধতার সীমাবদ্ধতা (যা কিছু অ্যাপ্লিকেশনের জন্য ভাল) সরিয়ে দেয়, তবে যোগফলের সীমাবদ্ধতা সরিয়ে দেয় না, ফলে একক একাকী ম্যাট্রিক্স কার্যকর হয় যা কার্যকরভাবে (এম) আনোভা / লিনিয়ার রিগ্রেশন / ... এবং ভেঙে দেয় পিসিএ বহিরাগতদের কাছে সংবেদনশীল (কারণ শক্তিশালী কোভেরিয়েন্স অনুমানের একটি পূর্ণ-র্যাঙ্কের ম্যাট্রিক্স প্রয়োজন)। যতদূর আমি জানি, সমস্ত রচনাগত রূপান্তরগুলির মধ্যে কেবল আইএলআর উভয় সমস্যার কোনও বড় অন্তর্নিহিত অনুমান ছাড়াই সম্বোধন করে। যদিও পরিস্থিতি কিছুটা জটিল is সিএলআর সমন্বয়কারীগুলির এসভিডি আপনাকে আইএলআর স্পেসে একটি অর্থোথোনাল ভিত্তি দেয় (আইএলআর সমন্বয়গুলি সিএলআর একটি হাইপারপ্লেন স্প্যান করে), সুতরাং আপনার বিবর্তনের অনুমানগুলি আইএলআর এবং সিএলআরের মধ্যে পৃথক হবে না (এটি অবশ্যই স্পষ্ট, কারণ আইএলআর এবং সিএলআর উভয়ই আইসোমেট্রি রয়েছে) সিমপ্লেক্স)। তবে, আইএলআর স্থানাঙ্কগুলিতে দৃ c় সমবায় অনুমানের জন্য বিভিন্ন পদ্ধতি রয়েছে [২]।
আপডেট আমি
কেবল চিত্রিত করার জন্য যে সিএলআর সম্পর্ক এবং অবস্থান-নির্ভর পদ্ধতির জন্য বৈধ নয়। আসুন ধরে নেওয়া যাক আমরা তিনটি রৈখিক স্বতন্ত্রভাবে সাধারনত বিতরিত উপাদানগুলির একটি সম্প্রদায়কে 100 বার নমুনা করি। সরলতার জন্য, সমস্ত উপাদানগুলির সমান প্রত্যাশা (100) এবং রূপগুলি (100) হওয়া যাক:
In [1]: import numpy as np
In [2]: from scipy.stats import linregress
In [3]: from scipy.stats.mstats import gmean
In [4]: def clr(x):
...: return np.log(x) - np.log(gmean(x))
...:
In [5]: nsamples = 100
In [6]: samples = np.random.multivariate_normal(
...: mean=[100]*3, cov=np.eye(3)*100, size=nsamples
...: ).T
In [7]: transformed = clr(samples)
In [8]: np.corrcoef(transformed)
Out[8]:
array([[ 1. , -0.59365113, -0.49087714],
[-0.59365113, 1. , -0.40968767],
[-0.49087714, -0.40968767, 1. ]])
In [9]: linregress(transformed[0], transformed[1])
Out[9]: LinregressResult(
...: slope=-0.5670, intercept=-0.0027, rvalue=-0.5936,
...: pvalue=7.5398e-11, stderr=0.0776
...: )
আপডেট দ্বিতীয়
আমি যে প্রতিক্রিয়া পেয়েছি সেগুলি বিবেচনা করে, আমি এটি উল্লেখ করা প্রয়োজন যে আমার উত্তরের কোনও বিন্দুতে আমি বলেছি যে সিসিআর-রুপান্তরিত ডেটাতে পিসিএ কাজ করে না। আমি বলেছি যে সিএলআর সূক্ষ্ম উপায়ে পিসিএ ভেঙে ফেলতে পারে যা মাত্রা হ্রাসের জন্য গুরুত্বপূর্ণ নয়, তবে অনুসন্ধানের ডেটা বিশ্লেষণের জন্য গুরুত্বপূর্ণ। @ আর্চির দ্বারা উদ্ধৃত কাগজটিতে মাইক্রোবায়াল বাস্তুসংস্থান রয়েছে। গণনামূলক জীববিজ্ঞানের সেই ক্ষেত্রে বিভিন্ন দূরত্বের ম্যাট্রিকগুলিতে পিসিএ বা পিসিওএ তথ্য পরিবর্তনের উত্সগুলি অন্বেষণ করতে ব্যবহৃত হয়। আমার উত্তরটি কেবল এই প্রসঙ্গে বিবেচনা করা উচিত। অধিকন্তু, এটি কাগজে নিজেই হাইলাইট করা হয়েছে:
... রচনাগত বাইপ্লট [দ্রষ্টব্য: পিসিএ উল্লেখ করে] β-বৈচিত্র্য বিশ্লেষণের জন্য মূল সমন্বিত (পিসিওএ) প্লটগুলির তুলনায় বেশ কয়েকটি সুবিধা রয়েছে। প্রাপ্ত তথ্যগুলি খুব স্থিতিশীল থাকে যখন ডেটা সাবসেট হয় (বিয়ান এট আল।, 2017), অর্থাত অনুসন্ধানী বিশ্লেষণ কেবল ডেটাতে উপস্থিতি অনুপস্থিতি সম্পর্ক দ্বারা বা অত্যধিক স্পারসিটি দ্বারা চালিত হয় না (ওয়াং এট আল।, ২০১;; মর্টন এট) আল।, 2017)।
গ্লোর ইত্যাদি।, 2017
আপডেট তৃতীয়
প্রকাশিত গবেষণার অতিরিক্ত রেফারেন্স (আরও উল্লেখ যুক্ত করার জন্য আমি @ নিক কক্সকে ধন্যবাদ জানাই):
- পিসিএর জন্য সিএলআর ব্যবহারের বিরুদ্ধে যুক্তি
- পারস্পরিক সম্পর্ক ভিত্তিক পদ্ধতির জন্য সিএলআর ব্যবহারের বিরুদ্ধে যুক্তি
- আইএলআর পরিচয়
clr
করে তা পরিষ্কার করে দেওয়া সহায়ক হতে পারে ....