আশা করি জিন এক্সপ্রেশন অধ্যয়নের ক্ষেত্রে এই ফোরামগুলির কেউ আমাকে এই প্রাথমিক সমস্যাটি সম্পর্কে সহায়তা করতে পারেন।
আমি একটি পরীক্ষামূলক এবং একটি নিয়ন্ত্রণ টিস্যু গভীর সিকোয়েন্সিং করেছি। আমি তখন নিয়ন্ত্রণের উপর পরীক্ষামূলক নমুনায় জিনগুলির ভাঁজ সমৃদ্ধকরণের মানগুলি অর্জন করি। রেফারেন্স জিনোমে ~ 15,000 জিন রয়েছে। নিয়ন্ত্রণের তুলনায় আমার আগ্রহের নমুনায় 15,000 জিনের মধ্যে 3,000 জনের একটি নির্দিষ্ট কাট-অফের উপরে সমৃদ্ধ হয়।
সুতরাং: এ = মোট জিনের জনসংখ্যা = 15,000 বি = আরএনএ-সিক সমৃদ্ধ উপ-জনসংখ্যা = 3,000।
পূর্ববর্তী চিপ-চিপ পরীক্ষায়, আমি 400 টি জিন পেয়েছি যা চিপ-চিপ দ্বারা সমৃদ্ধ। 400 চিপ-চিপ জিনগুলির মধ্যে 100 টি জিন 3,000 সমৃদ্ধ আরএনএ-সিক প্রতিলিপিগুলির গ্রুপে রয়েছে।
সুতরাং: সি = চিপ-চিপ সমৃদ্ধ জিনের মোট = 400।
আমার 100 টি চিপ-চিপ জিনটি এককভাবে আরএনএ-সিক দ্বারা সমৃদ্ধ হওয়ার সম্ভাবনা কী? অন্য কথায়, বি এবং সি (১০০ জিন) এর মধ্যে আমার পর্যবেক্ষণ করা ওভারল্যাপটি কি একা সুযোগের চেয়ে আরও বেশি ভাল হয় তা গণনা করার সবচেয়ে বুদ্ধিমান উপায় কী? আমি এ পর্যন্ত যা পড়েছি তা থেকে হাইপারজমেট্রিক বিতরণ ব্যবহার করে এটি পরীক্ষা করার সর্বোত্তম উপায়।
নিম্নলিখিত প্যারামিটারগুলির সাথে হাইপারজোমেট্রিক বিতরণ পরীক্ষা স্থাপন করতে আমি একটি অনলাইন ক্যালকুলেটর (স্ট্যাট্রিক ডটকম) ব্যবহার করেছি: - পপ সাইজ = 15,000 - জনসংখ্যায় সাফল্য = 3,000 - নমুনা আকার = 400, - নমুনা = 100 এ সাফল্যের সংখ্যা #। হাইপারজেমেট্রিক প্রব্যাবিলিটি পি (x = 100) = 0.00224050636447747 এর জন্য আমি নিম্নলিখিতগুলি পেয়েছি
জিনের আসল # বি এবং সি = 100 এর মধ্যে ওভারল্যাপ হয়। দেখে মনে হচ্ছে না যে কোনও জিন সমৃদ্ধ হওয়ার সম্ভাবনা যদি 1: 5 (15,000 এর মধ্যে 3,000) সমৃদ্ধ হয়। সে কারণেই আমি বুঝতে পারছি না যে আমার পি (x = 100) আমি উপরে গণনা করেছি কিভাবে 0.0022। এটি সুযোগের সাথে সংঘটিত ওভারল্যাপের 0.2% সম্ভাবনার পরিমাণ। এটি কি আরও বেশি হওয়া উচিত নয়?
যদি আমি 400 টি এলোমেলো জিনকে 15,000 এর বড় তালিকার জন্য স্যাম্পল করে থাকি তবে এর মধ্যে 80 টি জিনকে একাই সুযোগ দ্বারা সমৃদ্ধ করা হবে বলে আশা করা যায় (1: 5)) প্রকৃতপক্ষে ওভারল্যাপিং করা জিনগুলির সংখ্যা 100, সুতরাং এটি সুযোগের চেয়ে সামান্য ভাল।
আমি আর-তে ধাইপার বা ফাইপার ফাংশন ব্যবহার করে (অন্য পোস্টে যা দেখেছি তা ব্যবহার করে) সমাধান নিয়ে আসতে চেষ্টা করেছি: জিনোমের সমস্ত জিন (15,000) বি = আরএনএ-সিক সমৃদ্ধ জিন (3,000) সি = চিপ চিপ সমৃদ্ধ জিন (৪০০) এখানে আর ইনপুট / আউটপুট (আগের স্ট্যাকেক্সচেঞ্জ পোস্ট থেকে অভিযোজিত):
> totalpop <- 15000
> sample1 <- 3000
> sample2 <- 400
> dhyper(0:2, sample1, totalpop-sample1, sample2)
[1] 4.431784e-40 4.584209e-38 2.364018e-36
> phyper(-1:2, sample1, totalpop-sample1, sample2)
[1] 0.000000e+00 4.431784e-40 4.628526e-38 2.410304e-36
এই সংখ্যাগুলি কীভাবে ব্যাখ্যা করা যায় তা আমি নিশ্চিত নই। আমি বিশ্বাস করি যে ২.৩36 ই -৩ একাই সুযোগ পেয়ে বি এবং সি এর মধ্যে সম্পূর্ণ ওভারল্যাপ হওয়ার সম্ভাবনা? তবে এটি কোনও তাত্পর্যপূর্ণ নয়, যেহেতু সেই সম্ভাবনাটি 1: 5 এর অনেক কাছাকাছি। আমি যদি 15,000 জিন দিয়ে শুরু করি তবে 3,000 সমৃদ্ধ হবে। একইভাবে, আমি যদি 400 টি চিপ-চিপ জিন দিয়ে শুরু করি, তবে সেগুলির 80 জনকে একা আরএনএ-সিকায় সমৃদ্ধ করা উচিত that তথ্য সেটটিতে সমৃদ্ধ হওয়ার 1: 5 সম্ভাবনার কারণে।
হাইপারজমেট্রিক বিতরণ অনুযায়ী, বি এবং সি এর ওভারল্যাপের জন্য পি-মান গণনা করার সঠিক উপায় কী?