ডিএনএ সিকোয়েন্সিংয়ের জন্য নেতিবাচক দ্বিপদী বিতরণ ফ্রেম করা


16

নেতিবাচক দ্বিপদী বিতরণ বায়োইনফরম্যাটিক্সে গণনা সম্পর্কিত ডেটা (নির্দিষ্ট পরীক্ষায় জিনোমের একটি নির্দিষ্ট অঞ্চলের মধ্যে বিশেষত প্রত্যাশিত সংখ্যার পাঠযোগ্য) হয়ে উঠেছে model ব্যাখ্যা পৃথক:

  • কেউ কেউ এটিকে এমন কিছু হিসাবে ব্যাখ্যা করেছেন যা পয়েসন বিতরণের মতো কাজ করে তবে একটি অতিরিক্ত প্যারামিটার রয়েছে, সত্যের বিতরণকে আরও স্বাধীনতার মঞ্জুরি দেয়, পরিবর্তনের সাথে গড়ের সমতুল্য নয়
  • কেউ কেউ এটিকে পোইসন বিতরণের একটি ভারিত মিশ্রণ হিসাবে ব্যাখ্যা করেছেন (পয়সন প্যারামিটারে গামা মিশ্রণ বিতরণ সহ)

নির্দিষ্ট সংখ্যক ব্যর্থতা দেখার আগে বার্নোল্লি ট্রায়ালের সাফল্যের সংখ্যাকে মডেলিং হিসাবে rationণাত্মক দ্বি-দ্বি বিতরণের প্রথাগত সংজ্ঞা দিয়ে এই যুক্তিগুলি বর্গ করার কোনও উপায় আছে কি? বা আমি কি এটিকে কেবল একটি সুখী কাকতালীয় হিসাবে ভাবতে পারি যে গামা মিশ্রণ বিতরণের সাথে পোইসন বিতরণের একটি ভারী মিশ্রণটি নেতিবাচক দ্বিপদী হিসাবে একই সম্ভাবনা ভর কার্যকারিতা রয়েছে?


2
এটি একটি যৌগিক পোইসন বিতরণও যেখানে আপনি লোগারিদমিক র্যান্ডম ভেরিয়েবলের একটি পয়সন বিতরণ সংখ্যার যোগফল যোগ করেন।
ডগলাস জেরে

উত্তর:


8

আইএমওএইচ, আমি সত্যিই ভাবি যে নেতিবাচক দ্বিপদী বিতরণ সুবিধার জন্য ব্যবহৃত হয়।

আরএনএ সেক-তে একটি সাধারণ ধারণা রয়েছে যে আপনি যদি একই জিনের অসীম সংখ্যার নকলগুলিতে পরিমাপ করেন তবে সত্যিকারের বিতরণটি হবে লঘনরমাল। এই বিতরণটি তখন পয়সন প্রক্রিয়া (একটি গণনা সহ) এর মাধ্যমে নমুনাযুক্ত হয় সুতরাং প্রতিলিপিগুলিতে প্রতি জিন প্রতি আসল বিতরণটি পয়সন-লগনরমাল বিতরণ হবে।

তবে আমরা যে এজন্য প্যাকেজগুলিতে এজেরআর এবং ডেসিক ব্যবহার করি সেগুলিতে aণাত্মক দ্বিপদী বিতরণকে মডেল করা হয়েছে। এটি এমন নয় কারণ যে ছেলেরা এটি লিখেছিল তারা পয়সন লগনারমাল বিতরণ সম্পর্কে জানত না।

এটি কারণ পয়সন লগনরমাল বিতরণটি কাজ করার জন্য একটি ভয়ানক জিনিস কারণ এটি ফিটগুলি ইত্যাদির জন্য সংখ্যাগত সংহতকরণের প্রয়োজন হয় তাই যখন আপনি বাস্তবে এটি ব্যবহার করার চেষ্টা করেন কখনও কখনও অভিনয়টি খারাপ হয়।

একটি নেতিবাচক দ্বিপদী বিতরণ একটি বদ্ধ ফর্ম আছে তাই এটি কাজ করা অনেক সহজ এবং গামা বিতরণ (অন্তর্নিহিত বিতরণ) দেখতে অনেকটা লগন্যরমাল বিতরণের মতো দেখায় যে এটি কখনও কখনও সাধারণ দেখতে লাগে এবং কখনও কখনও একটি লেজ থাকে।

তবে এই উদাহরণে (যদি আপনি ধারনা বিশ্বাস করেন) এটি সম্ভবত তাত্ত্বিকভাবে সঠিক হতে পারে না কারণ তাত্ত্বিকভাবে সঠিক বিতরণটি পয়েসন লগনারমাল এবং দুটি বিতরণ একে অপরের যুক্তিসঙ্গত অনুমান কিন্তু সমতুল্য নয়।

তবে আমি এখনও মনে করি "ভুল" নেতিবাচক দ্বিপদী বিতরণ প্রায়শই ভাল পছন্দ কারণ অভিজ্ঞতার সাথে এটি আরও ভাল ফলাফল দেয় কারণ ইন্টিগ্রেশন ধীরে ধীরে সঞ্চালিত হয় এবং ফিটগুলি খারাপভাবে সম্পাদন করতে পারে, বিশেষত দীর্ঘ লেজযুক্ত বিতরণ সহ।


7

আমি কয়েকটি ওয়েব পৃষ্ঠাগুলি সন্ধান করেছি এবং এর ব্যাখ্যা খুঁজে পাই না, তবে আমি পূর্ণসংখ্যার মানগুলির জন্য একটি নিয়ে এসেছি । ধরুন আমরা দুটি তেজস্ক্রিয় সূত্র স্বাধীনভাবে আলফা এবং বিটা কণা উৎপাদিত এ হার আছে α এবং β যথাক্রমে।rαβ

ম বিটা কণার আগে আলফা কণার সংখ্যার বিতরণ কী ?r

  1. আলফা কণাকে সাফল্য হিসাবে এবং বিটা কণাকে ব্যর্থতা হিসাবে বিবেচনা করুন। যখন একটি কণা সনাক্ত হয়, এটি একটি আলফা কণা হওয়ার সম্ভাবনাটি হ'ল । সুতরাং, এটি theণাত্মক দ্বি-দ্বি বিতরণNB(r,α) ααα+βNB(r,αα+β)

  2. সময় বিবেচনা এর ম বিটা কণা। এটি গামা বিতরণ অনুসরণ করে Γ ( আর , / β ) যদি আপনার উপর শর্ত টন = λ / α , তারপর আগে সময় আলফা কণার সংখ্যা টন একটি পইসন বিতরণের অনুসরণ POI গুলি ( λ ) সুতরাং, r ম বিটা কণার আগে আলফা কণার সংখ্যা বিতরণ হ'ল গামা-মিশ্রিত পোইসন বিতরণ।trrΓ(r,1/β).tr=λ/αtrPois(λ).r

এটি ব্যাখ্যা করে যে এই বিতরণগুলি সমান কেন।


2

আমি কেবল স্বজ্ঞাততা দিতে পারি, তবে গামা বিতরণ নিজেই (অবিরত) অপেক্ষার সময়গুলি বর্ণনা করে (বিরল ঘটনাটি ঘটতে কতক্ষণ সময় লাগে)। সুতরাং এটি যে গায়ে-বিতরণ মিশ্রিত বিচ্ছিন্ন poisson বিতরণ একটি পৃথক অপেক্ষার সময় হবে (এন ব্যর্থতা না হওয়া পর্যন্ত ট্রায়াল) খুব বিস্ময়কর বলে মনে হয় না। আমি আশা করি কারোর আরও একটি আনুষ্ঠানিক উত্তর আছে।

সম্পাদনা করুন: আমি সর্বদা নেতিবাচক দ্বিপদী দ্বিগুণ সিকোয়েন্সিংয়ের জন্য নিম্নরূপ: আসল সিকোয়েন্সিং পদক্ষেপটি কেবলমাত্র অণুগুলির একটি বড় গ্রন্থাগার (পিসন) থেকে নমুনা পাঠানো। তবে সেই পাঠাগারটি পিসিআর দ্বারা মূল নমুনা থেকে তৈরি। তার মানে আসল অণুগুলি তাত্পর্যপূর্ণভাবে প্রশস্ত করা হয়েছে। এবং গামা বিতরণ কে স্বতঃস্ফূর্তভাবে বিতরণ করা এলোমেলো ভেরিয়েবলের যোগফলকে বর্ণনা করে, অর্থাত্ একই সংখ্যক পিসিআর চক্রের জন্য কে নমুনা অণু পরিবর্ধনের পরে গ্রন্থাগারে কত অণু রয়েছে।

সুতরাং সিকোয়েন্সিং পরে নেতিবাচক দ্বিপদী মডেল পিসিআর।


এটি বোধগম্য হয়, তবে জিনোমে পাঠ্য ক্রমসংখ্যার পরিমাপের পরিপ্রেক্ষিতে negativeণাত্মক দ্বিপদী বিতরণে অপেক্ষার সময়টি কী উপস্থাপন করে তার জন্য কোনও স্বজ্ঞাত ব্যাখ্যা রয়েছে? এই ক্ষেত্রে অপেক্ষা করার সময়সীমা নেই - তিনি কেবল সিকোয়েন্সিং রিডের পরিমাপ করছেন।
রবার্টএফ

আমার সম্পাদনা দেখুন। অপেক্ষার সময়ের নিরিখে এটি কীভাবে চিন্তা করা সিকোয়েন্সিং সেটিংয়ে ফিট করে তা আমি দেখতে পাই না। গামা পোইসন মিশ্রণটি ব্যাখ্যা করা সহজ। তবে শেষ পর্যন্ত তারা একই জিনিস।
ফেলিক্স শ্লেঞ্জিংগার

2
ঠিক আছে - তাহলে সম্ভবত আসল প্রশ্নটি হল কোন মেলামেশার মাধ্যমে কে বার্নল্লির ট্রায়ালগুলিতে মডেলিং কে সাফল্য + আর ব্যর্থতা গামা পোইসন মিশ্রণ অনুসরণ করে? সম্ভবত একটি নেতিবাচক দ্বিপদী মডেলিং কে সাফল্য + আর ব্যর্থতাগুলি হ'ল অতিমাত্রায় পোয়েসন ডিবিএন হিসাবে বিবেচিত হতে পারে সাফল্য এবং ব্যর্থতার ট্রায়ালগুলির অনেকগুলি সম্ভাব্য অনুমানের ফলস্বরূপ, ঠিক যেমন কে পর্যবেক্ষণ করা সাফল্য এবং r পর্যবেক্ষণ ব্যর্থতা, যা একটি সংগ্রহ হিসাবে বর্ণনা করা যেতে পারে আলাদা ডিবিএন?
রবার্টএফ

2

আমি একটি সরল যান্ত্রিক ব্যাখ্যা দেওয়ার চেষ্টা করব যা এই সম্পর্কে চিন্তা করার সময় আমি দরকারী বলে মনে করি।

μpμ1ppNB(μ1pp,p)

μ1ppp1p=μσ2=μ(1p)1

(1p)1

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.