একটি আরএনএ সেক এবং একটি চিপ-চিপ ডেটা সেটের মধ্যে জিনের তালিকা ওভারল্যাপের সম্ভাবনার গণনা করা হচ্ছে


13

আশা করি জিন এক্সপ্রেশন অধ্যয়নের ক্ষেত্রে এই ফোরামগুলির কেউ আমাকে এই প্রাথমিক সমস্যাটি সম্পর্কে সহায়তা করতে পারেন।

আমি একটি পরীক্ষামূলক এবং একটি নিয়ন্ত্রণ টিস্যু গভীর সিকোয়েন্সিং করেছি। আমি তখন নিয়ন্ত্রণের উপর পরীক্ষামূলক নমুনায় জিনগুলির ভাঁজ সমৃদ্ধকরণের মানগুলি অর্জন করি। রেফারেন্স জিনোমে ~ 15,000 জিন রয়েছে। নিয়ন্ত্রণের তুলনায় আমার আগ্রহের নমুনায় 15,000 জিনের মধ্যে 3,000 জনের একটি নির্দিষ্ট কাট-অফের উপরে সমৃদ্ধ হয়।

সুতরাং: এ = মোট জিনের জনসংখ্যা = 15,000 বি = আরএনএ-সিক সমৃদ্ধ উপ-জনসংখ্যা = 3,000।

পূর্ববর্তী চিপ-চিপ পরীক্ষায়, আমি 400 টি জিন পেয়েছি যা চিপ-চিপ দ্বারা সমৃদ্ধ। 400 চিপ-চিপ জিনগুলির মধ্যে 100 টি জিন 3,000 সমৃদ্ধ আরএনএ-সিক প্রতিলিপিগুলির গ্রুপে রয়েছে।

সুতরাং: সি = চিপ-চিপ সমৃদ্ধ জিনের মোট = 400।

আমার 100 টি চিপ-চিপ জিনটি এককভাবে আরএনএ-সিক দ্বারা সমৃদ্ধ হওয়ার সম্ভাবনা কী? অন্য কথায়, বি এবং সি (১০০ জিন) এর মধ্যে আমার পর্যবেক্ষণ করা ওভারল্যাপটি কি একা সুযোগের চেয়ে আরও বেশি ভাল হয় তা গণনা করার সবচেয়ে বুদ্ধিমান উপায় কী? আমি এ পর্যন্ত যা পড়েছি তা থেকে হাইপারজমেট্রিক বিতরণ ব্যবহার করে এটি পরীক্ষা করার সর্বোত্তম উপায়।

নিম্নলিখিত প্যারামিটারগুলির সাথে হাইপারজোমেট্রিক বিতরণ পরীক্ষা স্থাপন করতে আমি একটি অনলাইন ক্যালকুলেটর (স্ট্যাট্রিক ডটকম) ব্যবহার করেছি: - পপ সাইজ = 15,000 - জনসংখ্যায় সাফল্য = 3,000 - নমুনা আকার = 400, - নমুনা = 100 এ সাফল্যের সংখ্যা #। হাইপারজেমেট্রিক প্রব্যাবিলিটি পি (x = 100) = 0.00224050636447747 এর জন্য আমি নিম্নলিখিতগুলি পেয়েছি

জিনের আসল # বি এবং সি = 100 এর মধ্যে ওভারল্যাপ হয়। দেখে মনে হচ্ছে না যে কোনও জিন সমৃদ্ধ হওয়ার সম্ভাবনা যদি 1: 5 (15,000 এর মধ্যে 3,000) সমৃদ্ধ হয়। সে কারণেই আমি বুঝতে পারছি না যে আমার পি (x = 100) আমি উপরে গণনা করেছি কিভাবে 0.0022। এটি সুযোগের সাথে সংঘটিত ওভারল্যাপের 0.2% সম্ভাবনার পরিমাণ। এটি কি আরও বেশি হওয়া উচিত নয়?

যদি আমি 400 টি এলোমেলো জিনকে 15,000 এর বড় তালিকার জন্য স্যাম্পল করে থাকি তবে এর মধ্যে 80 টি জিনকে একাই সুযোগ দ্বারা সমৃদ্ধ করা হবে বলে আশা করা যায় (1: 5)) প্রকৃতপক্ষে ওভারল্যাপিং করা জিনগুলির সংখ্যা 100, সুতরাং এটি সুযোগের চেয়ে সামান্য ভাল।

আমি আর-তে ধাইপার বা ফাইপার ফাংশন ব্যবহার করে (অন্য পোস্টে যা দেখেছি তা ব্যবহার করে) সমাধান নিয়ে আসতে চেষ্টা করেছি: জিনোমের সমস্ত জিন (15,000) বি = আরএনএ-সিক সমৃদ্ধ জিন (3,000) সি = চিপ চিপ সমৃদ্ধ জিন (৪০০) এখানে আর ইনপুট / আউটপুট (আগের স্ট্যাকেক্সচেঞ্জ পোস্ট থেকে অভিযোজিত):

> totalpop <- 15000    
> sample1 <- 3000    
> sample2 <- 400    
> dhyper(0:2, sample1, totalpop-sample1, sample2)    
[1] 4.431784e-40 4.584209e-38 2.364018e-36    
> phyper(-1:2, sample1, totalpop-sample1, sample2)    
[1] 0.000000e+00 4.431784e-40 4.628526e-38 2.410304e-36    

এই সংখ্যাগুলি কীভাবে ব্যাখ্যা করা যায় তা আমি নিশ্চিত নই। আমি বিশ্বাস করি যে ২.৩36 ই -৩ একাই সুযোগ পেয়ে বি এবং সি এর মধ্যে সম্পূর্ণ ওভারল্যাপ হওয়ার সম্ভাবনা? তবে এটি কোনও তাত্পর্যপূর্ণ নয়, যেহেতু সেই সম্ভাবনাটি 1: 5 এর অনেক কাছাকাছি। আমি যদি 15,000 জিন দিয়ে শুরু করি তবে 3,000 সমৃদ্ধ হবে। একইভাবে, আমি যদি 400 টি চিপ-চিপ জিন দিয়ে শুরু করি, তবে সেগুলির 80 জনকে একা আরএনএ-সিকায় সমৃদ্ধ করা উচিত that তথ্য সেটটিতে সমৃদ্ধ হওয়ার 1: 5 সম্ভাবনার কারণে।

হাইপারজমেট্রিক বিতরণ অনুযায়ী, বি এবং সি এর ওভারল্যাপের জন্য পি-মান গণনা করার সঠিক উপায় কী?

উত্তর:


15

আপনি কি বন্ধ, আপনার ব্যবহারের সঙ্গে dhyperএবং phyper, কিন্তু আমি যেখানে বুঝতে পারছি না 0:2এবং -1:2থেকে আসছে।

আপনি যে পি-মানটি চান তা হ'ল 3000 সাদা বল এবং 12000 কালো বলের সাথে একটি কলস থেকে 400 মাপের নমুনায় 100 বা ততোধিক সাদা বল পাওয়ার সম্ভাবনা । এটি গণনা করার জন্য এখানে চারটি উপায়।

sum(dhyper(100:400, 3000, 12000, 400))
1 - sum(dhyper(0:99, 3000, 12000, 400))
phyper(99, 3000, 12000, 400, lower.tail=FALSE)
1-phyper(99, 3000, 12000, 400)

এগুলি 0.0078 দেয়।

dhyper(x, m, n, k)ঠিক আঁকার সম্ভাবনা দেয় x। প্রথম লাইনে, আমরা সম্ভাব্যতাগুলি 100 - 400 এর জন্য সংযুক্ত করি; দ্বিতীয় লাইনে আমরা 0 - 99 এর সম্ভাব্যতার যোগফল 1 বিয়োগ করি।

phyper(x, m, n, k)পাওয়ার সম্ভাবনা দেয় xবা কম phyper(x, m, n, k)হয়, একই হিসাবে sum(dhyper(0:x, m, n, k))

lower.tail=FALSEএকটু বিভ্রান্তিকর। phyper(x, m, n, k, lower.tail=FALSE)হিসাবে একই 1-phyper(x, m, n, k), এবং এর সম্ভাব্যতা x+1বা আরও বেশি। [আমি এটি কখনও মনে করি না এবং তাই সর্বদা ডাবল চেক করতে হবে]]

যে এ stattrek.com সাইটে : "পি (এক্স ক্রমযোজিত সম্ভাব্যতা, আপনি শেষ সারি, তাকান করতে প্রথম সারিতে বদলে 100)," "অধিজ্যামিতিক সম্ভাব্যতা। পি (এক্স = 100)"

আপনার আঁকার যে কোনও নির্দিষ্ট সংখ্যার অল্প সম্ভাবনা রয়েছে (আসলে, 0.050 max(dhyper(0:400, 3000, 12000, 400))দেয় ), এবং ১০১ বা ১০২ বা কোনও বৃহত্তর সংখ্যা পাওয়া আরও আকর্ষণীয় যে ১০০, এবং পি-মানটি হ'ল সম্ভাবনা হাইপোথিসিসটি সত্য ছিল, ফলাফল হিসাবে আকর্ষণীয় বা তার চেয়ে বেশি প্রাপ্ত ফলাফল প্রাপ্তির চেয়ে বেশি পাওয়া।~

এই ক্ষেত্রে হাইপারজ্যামিতিক বিতরণের একটি চিত্র এখানে। আপনি দেখতে পাচ্ছেন যে এটি 80 (400 এর 20%) কেন্দ্রিক এবং এটি 100 ডান লেজ থেকে বেশ দূরে। এখানে চিত্র বর্ণনা লিখুন


আপনার সহায়তার জন্য একটি গুচ্ছ ধন্যবাদ। আমি আপনার উত্তরের পিছনে যুক্তি বুঝতে পেরেছি। তবে আমি কীভাবে একসংখ্যক জীববিজ্ঞানীকে ব্যাখ্যা করব যে এটি একমাত্র সুযোগের কারণে পরিলক্ষিত ওভারল্যাপের চেয়ে বেশি? তারা বলবে যে আমার ওভারল্যাপের 1: 5 টি সম্ভাবনা রয়েছে। আমার ওভারল্যাপটি কী তাৎপর্যপূর্ণ কারণ এই পরিমাণে 400 বলের (15,000 মোট বলের মধ্যে) একটি নমুনা আকারে, আমার একটি সাদা বল পাওয়ার সম্ভাবনা আসলে 1: 5 এর চেয়ে কম কারণ আমি একটি ছোট জনসংখ্যার (পুরো 15,000 নয়) নমুনা দিচ্ছি? এটি অর্থবোধ করে না কারণ 400 <15,000 সত্ত্বেও, এখনও সাদা: কালো বর্ণের 1: 5 অনুপাত রয়েছে। এটা কোনো কিছু হলো?
stlandroidfan

@ স্ট্যান্ড্রয়েডফ্যান - আপনি কী বিভ্রান্ত করছেন তা আমি বুঝতে পারি না। আমি একটি চিত্র যোগ করেছি; এটা কি সাহায্য করে?
কার্ল

0

এটি এইভাবে দেখুন .. আপনি যদি এটি দ্বিপদী হিসাবে ধরে নেন তবে এটি সঠিক নাও হতে পারে তবে এটি মোটামুটি আনুমানিক হওয়া উচিত .. আপনার সিগমা ^ 2 .8 * .2 * 400 = 64 হয়, তবে সিগমা = 8 তাই 80 থেকে 100 পর্যন্ত আপনি 2.5 স্ট্যান্ডার্ড বিচ্যুতিতে চলে গেছেন .. এটি বেশ তাৎপর্যপূর্ণ .. এটির একটি ছোট পি-মান হওয়া উচিত।


আপনার উত্তরের জন্য ধন্যবাদ. হাইপারজেমেট্রিক বিতরণগুলি আমি সাহিত্যে যা দেখেছি তার থেকে জিনের তালিকা ওভারল্যাপের জন্য আরও ঘন ঘন ব্যবহার করা হয়। প্রশ্নটি হল 3000 সাদা বল এবং 12000 কালো বল দিয়ে একটি কলস থেকে 400 আকারের নমুনায় 100 বা তার বেশি সাদা বল পাওয়ার সম্ভাবনা কী? আমি মনে করি আমি এখনও জীবিতদের একগুচ্ছকে কীভাবে এটি ব্যাখ্যা করব তা নিয়ে বিভ্রান্ত হয়ে পড়েছি? তারা যেভাবে দেখছেন এটি 3000: 12000 হল সাদা: কালো হওয়ার 1: 5 সুযোগ chance সুতরাং 400 এর একটি স্যাম্পলিংয়ে 80 টি সাদা হওয়া উচিত। তাহলে কীভাবে 100 বা তার বেশি পাওয়ার সম্ভাবনা 20% (5 এর মধ্যে 1) এর চেয়ে অনেক কম?
stlandroidfan
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.