যখন পিসিএ হয়ে মহালানোবিসের দূরত্ব


10

আমার একটি ম্যাট্রিক্স রয়েছে, যেখানে হল জিনের সংখ্যা এবং রোগীর সংখ্যা। এই জাতীয় ডেটা নিয়ে যার সাথে কাজ করেছেন যে কেউ জানেন যে সর্বদা চেয়ে বড় । বৈশিষ্ট্য নির্বাচন ব্যবহার করে আমি আরও বেশি যুক্তিসঙ্গত সংখ্যায় নামিয়েছি, তবে এখনও চেয়ে বেশি ।এন×পিপিএনপিএনপিপিএন

আমি রোগীদের জেনেটিক প্রোফাইলের উপর ভিত্তি করে মিলের মিলটি গণনা করতে চাই; আমি ইউক্যালিডিয়ান দূরত্বটি ব্যবহার করতে পারি, তবে মহালানোবিস আরও উপযুক্ত বলে মনে হচ্ছে কারণ এটি ভেরিয়েবলগুলির মধ্যে পারস্পরিক সম্পর্কের জন্য অ্যাকাউন্ট করে। সমস্যা (এই পোস্টে উল্লিখিত হিসাবে ) হ'ল মহালানোবিসের দূরত্ব, বিশেষত কোভেরিয়েন্স ম্যাট্রিক্স যখন কাজ করে না তখন । আমি যখন আর এ মহালানোবিস দূরত্ব চালাচ্ছি তখন আমার ত্রুটিটি হ'ল:এন<পি

 Error in solve.default(cov, ...) :    system is computationally
 singular: reciprocal condition number = 2.81408e-21

এখন পর্যন্ত এটি সমাধান করার চেষ্টা করার জন্য, আমি পিসিএ ব্যবহার করেছি এবং জিনগুলি ব্যবহার করার পরিবর্তে আমি উপাদানগুলি ব্যবহার করি এবং এটি মনে হয় যে আমাকে মহালানোবিসের দূরত্ব গণনা করতে দেয়; 5 টি উপাদান প্রায় 80% বৈকল্পিকের প্রতিনিধিত্ব করে, তাই এখন ।এন>পি

আমার প্রশ্নগুলি: আমি কী রোগীদের মধ্যে মহালানোবিস দূরত্বটি অর্থবহভাবে পেতে পিসিএ ব্যবহার করতে পারি, বা এটি অনুপযুক্ত? এমন কি বিকল্প দূরত্বের মেট্রিকগুলি রয়েছে যখন যখন কাজ করে এবং ভেরিয়েবলের মধ্যেও অনেক বেশি পারস্পরিক সম্পর্ক রয়েছে ?এন<পিএন


PCAপরিবর্তনশীল সম্পর্কযুক্তরূপে ভাঙতে পারে, যদি না আপনি একটি oblique ঘূর্ণন ভালো কিছু ব্যবহার করুন। আমিও নিশ্চিত নই যে বৈষম্যের অংশীকরণ PCAকীভাবে অনুরূপ রোগীদের মধ্যে মহালানোবিসের দূরত্বকে প্রভাবিত করবে।
মিশেল

যদি পিসিএ ভেরিয়েবল পারস্পরিক সম্পর্ককে ভঙ্গ করে, আমি কি মহালানোবিসের দূরত্বের পরিবর্তে অন্য কিছু দূরত্বের মেট্রিক (যেমন পিয়ারসনের দূরত্ব) ব্যবহার করতে পারি?
ব্যবহারকারী 4673

আমি আরও সুপারিশ করার যথেষ্ট জানি না। আমি আশা করছিলাম যে অন্য কেউ এই কথোপকথনে ঝাঁপিয়ে পড়বে। :) PCAকাজের মতো পরিবর্তনশীল হ্রাস প্রযুক্তিগুলি কীভাবে দেওয়া হয়েছে তা প্রদত্ত , আমি আউটপুটগুলিতে কোনও দূরত্বের মেট্রিক ব্যবহার করতে পারি কিনা তা সম্পর্কে আমি আগ্রহী।
মিশেল

আমি এলাকার বিশেষজ্ঞ নই। আমি কেবল ভাগ করে নিতে চাই, আমি আপনার একটি স্মাইলার সমস্যা এবং আমি কর্পোর প্যাকেজ থেকে 'cov.shrink' ব্যবহার করেছি ।
ব্রুনো সুসা

উত্তর:


8

আপনি যদি একটি পিসিএ থেকে সমস্ত উপাদান রাখেন - তবে নতুন পিসিএ-স্থানের রোগীদের মধ্যে ইউক্লিডিয়ান দূরত্বগুলি পর্যবেক্ষণযোগ্য পরিবর্তনশীল জায়গাতে তাদের মহালানোবিস দূরত্বের সমান করবে। আপনি যদি কিছু উপাদান ছেড়ে যান তবে কিছুটা পরিবর্তন হবে তবে যাইহোক any এখানে আমি ইউনিট-ভেরিয়েন্স পিসিএ-উপাদানগুলি উল্লেখ করি, এর ধরণের বৈচিত্রটি ইগেনভ্যালু সমান নয় (আমি আপনার পিসিএ প্রয়োগের বিষয়ে নিশ্চিত নই)।

আমি কেবল বলতে চাইছি, আপনি যদি রোগীদের মধ্যে মহালানোবিসের দূরত্বটি মূল্যায়ন করতে চান তবে আপনি পিসিএ প্রয়োগ করতে পারেন এবং ইউক্লিডিয়ান দূরত্বটি মূল্যায়ন করতে পারেন। পিসিএ প্রয়োগের পরে মহালানোবিসের দূরত্ব মূল্যায়ন করা আমার কাছে অর্থহীন বলে মনে হচ্ছে।


এখানে সম্পর্ক সম্পর্কিত একটি সংক্ষিপ্ত নিবন্ধটি দেওয়া হয়েছে: ব্রেকেটন, আরজি মহালানোবিসের দূরত্ব এবং মূল উপাদানগুলির স্কোরের সাথে এর সম্পর্ক জার্নাল অফ কেমোমেট্রিক্স, উইলি-ব্ল্যাকওয়েল, 2015, 29, 143-145। dx.doi.org/10.1002/cem.2692 । নোট করুন যে কেমোমেট্রিক্সে পিসিএ হ'ল ডিফল্টভাবে ডেটা বিশুদ্ধ ঘূর্ণন হয়, সুতরাং ইউনিট-প্রকরণ সংস্করণ দিমিত্রি বোঝায় না not
এসবিএল থেকে অবিশ্বস্ত সিবিলেটরা

2

নীচের কাগজটি একবার দেখুন:

জুবের, ভি।, সিলভা, এপিডি, এবং স্ট্রাইমার, কে। (2012)। উচ্চ মাত্রিক জিনোম-ওয়াইড অ্যাসোসিয়েশন স্টাডিজে একযোগে এসএনপি নির্বাচনের জন্য একটি উপন্যাস অ্যালগরিদমবিএমসি বায়োইনফরম্যাটিকস , 13 (1), 284।

এটি ঠিক আপনার সমস্যার সাথে ডিল করে deals লেখকরা মনে করেন যে কোনও নতুন পরিবর্তনশীল-গুরুত্ব পরিমাপ ব্যবহার করা হয়েছে, তদ্ব্যতীত তারা এর আগে আপনার সমস্যার সাথে মানানসই ব্যাখ্যামূলক ভেরিয়েবলের পারস্পরিক সম্পর্ক-ম্যাট্রিক্সের জন্য একটি দন্ডিত অনুমানের পদ্ধতি চালু করেছিল। তারা সজ্জা জন্য মহালানোবিস দূরত্ব ব্যবহার!

পদ্ধতিগুলি সিআরএএন-তে উপলব্ধ আর-প্যাকেজ ' কেয়ার'-এ অন্তর্ভুক্ত রয়েছে


0

নমুনা এবং নমুনা বিতরণের মধ্যে মহালানোবিস দূরত্ব গণনা করতে সাহিত্যে পিসিএ স্কোর (বা পিসিএ ফলাফল) ব্যবহৃত হয়। উদাহরণস্বরূপ, এই নিবন্ধটি দেখুন । "বিশ্লেষণ পদ্ধতি" বিভাগের অধীনে, লেখকরা বলেছেন:

প্রতিবিম্ব বর্ণালী (681) এর ডেটা সেটগুলি পারস্পরিক সম্পর্ক ম্যাট্রিক্স (681 mat 681) এর মূল উপাদানগুলি (পিসি) মূল্যায়ন করে একটি নিম্ন মাত্রা (11) এ হ্রাস করা হয়। পিসি বরাবর মূল ডেটা প্রজেক্ট করে পিসি স্কোরগুলি অনুমান করা হয়। পিসির স্কোরগুলির জন্য মহালানোবিস দূরত্ব গণনা করে মহালানোবিস দূরত্বের মডেল ব্যবহার করে ডেটা সেটগুলির মধ্যে শ্রেণিবিন্যাস করা হয়েছে।

আমি সাহিত্যে এবং গ্র্যাম আইকিউ কেমোমেট্রিক্স সফ্টওয়্যারটির সহায়তা মেনুতে পিসিএ / মহালানোবিস দূরত্ব ভিত্তিক বৈষম্যমূলক বিশ্লেষণের অন্যান্য উদাহরণ দেখেছি। যখন এই ভেরিয়েবলের সংখ্যা উপলব্ধ নমুনার সংখ্যার চেয়ে বেশি হয় এবং পিসিএ ভেরিয়েবলের সংখ্যা হ্রাস করে, তখন থেকে এই মিশ্রণটি বোঝায় যেহেতু মহালানোবিসের দূরত্ব ভালভাবে কাজ করে না।

এক-শ্রেণীর শ্রেণিবদ্ধকরণ মেশিন লার্নিং অ্যালগরিদম (যেমন বিচ্ছিন্নতা বন, ওয়ান-ক্লাসএসভিএম, ইত্যাদি) পিসিএ / মহালানোবিস দূরত্ব ভিত্তিক বৈষম্য বিশ্লেষণের সম্ভাব্য বিকল্প। আমাদের পরীক্ষাগারে, আইসোলেশন ফরেস্ট ডেটা প্রাক প্রসেসিংয়ের সাথে মিলিত হয়ে নিকটস্থ ইনফ্রারেড বর্ণালির শ্রেণিবিন্যাসে ভাল ফলাফল করেছে।

কিছুটা সম্পর্কিত নোটের ভিত্তিতে, উচ্চ মাত্রিক তথ্যের জন্য পিসিএ / মহালানোবিস দূরত্বের সাথে আউটিলার বা অভিনবত্ব সনাক্তকরণের জন্য প্রায়শই মহালানোবিস দূরত্বের কাট অফের গণনা প্রয়োজন । এই নিবন্ধটি পরামর্শ দেয় যে তথ্যটি সাধারণত বিতরণ করা হয় তা ধরে নিয়ে চি-স্কোয়ার বিতরণের সমালোচনামূলক মানটির বর্গমূল হিসাবে কাটাফটিকে গণনা করা যায় । এই সমালোচনামূলক মানটির জন্য স্বাধীনতার ডিগ্রির সংখ্যা এবং ডেটার সাথে যুক্ত সম্ভাবনার মান প্রয়োজন। নিবন্ধটি প্রস্তাবিত বলে মনে হয় যে মূল উপাদানগুলি বজায় রাখা হয়েছে সমালোচনামূলক মান গণনা করার জন্য প্রয়োজনীয় স্বাধীনতার ডিগ্রির সংখ্যার সমান কারণ লেখকরা তাদের গণনার জন্য ডেটা সেটে বৈশিষ্ট্যগুলির সংখ্যা ব্যবহার করেছিলেন।


আমাদের সাইটে আপনাকে স্বাগতম। কারণ এটি আপনার উত্তরে সুস্পষ্ট নয়, আপনি কীভাবে এটির ঠিকানা সম্বোধন করবেন তা আপনি ব্যাখ্যা করতে পারেনএন<পিপরিস্থিতি প্রশ্নে পোস্ট করা?
হোবার

যখন এন <পি, পিসিএ পি কমাতে ব্যবহৃত হয়। পিসিএ বিশ্লেষণ (এনসি) থেকে ধরে রাখা উপাদানগুলির সংখ্যা পি এর তুলনায় সাধারণত অনেক কম থাকে এবং এটি এন এর আকারের উপর নির্ভর করে এন এর চেয়ে ছোটও হতে পারে। সুতরাং, পিসিএ "এন বাই পি" সমস্যাটিকে "এন বাই এনসি" সমস্যায় পরিবর্তন করে। আমাদের ল্যাব যেখানে আমরা এনআইআর স্পেকট্রা বিশ্লেষণ করি সেখানে p তরঙ্গদৈর্ঘ্যের সংখ্যা উপস্থাপন করে যা সাধারণত দুই হাজারেরও বেশি। n প্রশিক্ষণের নমুনার সংখ্যা (20 থেকে 150 ডলার) উপস্থাপন করে। এনসি সাধারণত 3 থেকে 11 পর্যন্ত হয় যখন এন> এনসি, পিসিএ / মহালানোবিস বিশ্লেষণ ভাল ফলাফল দেয়।
চেরিফ ডায়ালো

1
বিষয়টি পিসিএ যা করে তা নয়। এটি এই সাইটের অন্যান্য থ্রেডে ভালভাবে আচ্ছাদিত। সমস্যাটি হ'ল মহাওলোবিসের দূরত্বটি সাধারণত এই ক্ষেত্রে সমবায় ম্যাট্রিক্সের এককতার কারণে গণনা করা যায় না: প্রশ্নটিতে বর্ণিত পরিস্থিতি এটি।
হোবার

আপনার মতামত মতামত জন্য আপনাকে ধন্যবাদ। দেখা যাচ্ছে যে ব্যবহারকারী কী জিজ্ঞাসা করছে তার আমাদের বিভিন্ন ব্যাখ্যা রয়েছে। গৃহীত উত্তরে বলা হয়েছে, "আপনি যদি রোগীদের মধ্যে মহালানোবিসের দূরত্ব মূল্যায়ন করতে চান তবে আপনি পিসিএ প্রয়োগ করতে পারেন এবং ইউক্লিডিয়ান দূরত্বটি মূল্যায়ন করতে পারেন। পিসিএ প্রয়োগের পরে মহালানোবিসের দূরত্ব মূল্যায়ন করা অর্থহীন কিছু বলে মনে হচ্ছে ..."। আমি মনে করি যে শেষ বাক্যটি আমি দেখেছি এবং উদ্ধৃত করেছি তার সাথে মতবিরোধ রয়েছে। আপনি কি মনে করেন? শুভেচ্ছান্তে.
চেরিফ ডায়ালো

1
বুঝেছি. ধন্যবাদ :)!
চেরিফ ডায়ালো
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.