এটি একটি আকর্ষণীয় প্রশ্ন। আমার গবেষণা গোষ্ঠীটি আমাদের প্রকাশ্যে উপলভ্য বায়োইনফরম্যাটিকস সফ্টওয়্যারটিতে আপনি যে বিতরণটি উল্লেখ করেছেন তা কয়েক বছর ধরে ব্যবহার করে আসছে। আমি যতদূর জানি, বিতরণটির কোনও নাম নেই এবং এটিতে কোনও সাহিত্য নেই। যদিও চন্দ্র এট আল দ্বারা প্রকাশিত কাগজটি আকসকল দ্বারা উদ্ধৃত হয়েছে খুব ঘনিষ্ঠভাবে সম্পর্কিত, তারা যে বিতরণটিকে বিবেচনা করে তা জন্য পূর্ণসংখ্যার মানগুলিতে সীমাবদ্ধ বলে মনে হয় এবং তারা পিডিএফের জন্য একটি স্পষ্ট প্রকাশ প্রকাশ করে বলে মনে হয় না।r
আপনাকে কিছু পটভূমি দেওয়ার জন্য, আরএনএ-সেক এবং সম্পর্কিত প্রযুক্তি থেকে উদ্ভূত জিনের এক্সপ্রেশন ডেটা মডেল করতে জিনোমিক গবেষণায় এনবি বিতরণ খুব ভারীভাবে ব্যবহৃত হয়। একটি জৈবিক নমুনা যা প্রতিটি জিনে ম্যাপ করা যায় সেগুলি থেকে ডিএনএ বা আরএনএ অনুক্রমের পাঠের সংখ্যা হিসাবে গণনা তথ্য উত্থাপিত হয়। সাধারণত প্রায় 25,000 জিনে ম্যাপ করা প্রতিটি জৈবিক নমুনা থেকে কয়েক মিলিয়ন পাঠ রয়েছে। বিকল্পভাবে একটিতে ডিএনএ নমুনা থাকতে পারে যা থেকে জিনোম উইন্ডোতে ম্যাপ করা হয়। আমরা এবং অন্যান্যরা একটি পদ্ধতির জনপ্রিয়তা অর্জন করেছি যার মাধ্যমে প্রতিটি জিনের জন্য পাঠানো অনুক্রমের সাথে এনবি গ্লামগুলি লাগানো হয়েছে, এবং বংশের বায়স পদ্ধতিগুলি জেনওয়াই বিচ্ছুরণের অনুমানকে নিয়ন্ত্রণ করতে ব্যবহৃত হয় (বিচ্ছুরণϕ=1/r)। জেনোমিক সাহিত্যে কয়েক হাজার জার্নাল নিবন্ধে এই পদ্ধতির উদ্ধৃতি দেওয়া হয়েছে, সুতরাং আপনি এটি কতটা ব্যবহৃত হয় তার একটি ধারণা পেতে পারেন।
আমার গ্রুপ প্রান্ত আর সফটওয়্যার প্যাকেজটি বজায় রাখে। কয়েক বছর আগে আমরা পুরো প্যাকেজটি সংশোধন করেছিলাম যাতে এটি এনবি পিএমএফের অবিচ্ছিন্ন সংস্করণ ব্যবহার করে ভগ্নাংশ গণনাগুলির সাথে কাজ করে। আমরা কেবল এনবি পিএমএফ-এর সমস্ত দ্বিপদী সহগকে গামা ফাংশনগুলির অনুপাতগুলিতে রূপান্তরিত করে এটিকে (মিশ্রিত) অবিচ্ছিন্ন পিডিএফ হিসাবে ব্যবহার করি। এর জন্য অনুপ্রেরণা ছিল সিকোয়েন্স রিডের গণনাগুলি মাঝে মাঝে ভগ্নাংশ হতে পারে কারণ (1) ট্রান্সক্রিপ্টম বা জিনোমে পাঠের অস্পষ্ট ম্যাপিং এবং / বা (2) প্রযুক্তিগত প্রভাবগুলি সংশোধন করার জন্য গণনাগুলির স্বাভাবিককরণ। সুতরাং গণনাগুলি কখনও কখনও পর্যবেক্ষিত গণনাগুলির চেয়ে প্রত্যাশিত গণনা বা আনুমানিক গণনা হয়। এবং অবশ্যই পঠিত সংখ্যাগুলি ধনাত্মক সম্ভাবনার সাথে ঠিক শূন্য হতে পারে। আমাদের পদ্ধতিটি নিশ্চিত করে যে আমাদের সফ্টওয়্যার থেকে অনুমানের ফলাফলগুলি গণনাগুলিতে অবিচ্ছিন্ন থাকে, আনুমানিক গণনাগুলি যখন পূর্ণসংখ্যা হিসাবে ঘটে তখন আলাদা এনবি ফলাফলের সাথে হুবহু মিলে যায়।
যতদূর আমি জানি, পিডিএফ-এ নিয়মিতকরণের জন্য কোনও বদ্ধ ফর্ম নেই, বা গড় বা বৈকল্পিকতার জন্য কোনও বদ্ধ ফর্ম নেই। যখন কেউ বিবেচনা করে যে অবিচ্ছেদ্য
(ফ্রান্সেস-রবিনসন ধ্রুবক) এর জন্য কোনও বদ্ধ ফর্ম নেই
তা পরিষ্কার হয়ে যায় যে অবিচ্ছিন্ন অবিচ্ছেদের জন্য সেখানে থাকতে পারে না এনবি পিডিএফ হয়। তবে এটি আমার কাছে মনে হয় যে Bতিহ্যবাহী গড় এবং পৃথক সূত্রগুলিকে NB এর জন্য ধারাবাহিক এনবি-র জন্য ভাল অনুমান হিসাবে চলতে হবে। তবুও স্বাভাবিককরণের ধ্রুবকটি প্যারামিটারগুলির সাথে ধীরে ধীরে পরিবর্তিত হওয়া উচিত এবং তাই সর্বাধিক সম্ভাবনার গণনায় নগণ্য প্রভাব হিসাবে উপেক্ষা করা যায়।
∫∞01Γ(x)dz
সংখ্যার একীকরণের মাধ্যমে এই অনুমানগুলি নিশ্চিত করা যায়। পোইসন বিতরণের গামা মিশ্রণ হিসাবে জৈববৈজ্ঞানিকগুলিতে এনবি বিতরণ দেখা দেয় (নীচে উইকিপিডিয়া নেতিবাচক দ্বিপদী নিবন্ধ বা ম্যাকার্থি এট দেখুন)। অবিচ্ছিন্ন এনবি বিতরণ পিডিএফ সাথে অবিচ্ছিন্ন এনালগের সাথে কেবল পোয়েসন বিতরণকে প্রতিস্থাপনের মাধ্যমে উত্থিত হয়
জন্য যেখানে ঘনত্ব 1 টি একীভূত হয়েছে তা নিশ্চিত করার জন্য হ'ল একটি স্বাভাবিক ধ্রুবক। উদাহরণস্বরূপ ধরুন । পোইসন বিতরণে pm সহ অ-নেতিবাচক পূর্ণসংখ্যার উপরের পিডিএফ সমান পিএমএফ রয়েছে এক্স≥0একটি(λ)λ=10λ=10একটি(10)=1/0.999875-1/2∞
f(x;λ)=a(λ)e−λλxΓ(x+1)
x≥0a(λ)λ=10λ=10, গড় এবং 10 এর সমান একীকরণ দেখায় যে এবং গড় এবং 10 থেকে 4 প্রায় গুরুত্বপূর্ণ চিত্রের সমান। সুতরাং স্বাভাবিককরণের ধ্রুবকটি ভার্চুয়াল 1 এবং গড় এবং বৈচিত্রটি প্রায় বিচ্ছিন্ন পোইসন বিতরণের মতো একই। পড়তা আরও বেশি আমরা ধারাবাহিকতা সংশোধন যোগ যদি উন্নত হয়, থেকে একীভূত করার পরিবর্তে 0. ধারাবাহিকতা সংশোধন থেকে, সবকিছু সঠিক (স্বাভাবিক ধ্রুবক 1 এবং মুহূর্ত বিযুক্ত পইসন সাথে একমত) 6 সম্পর্কে হয় পরিসংখ্যান।
a(10)=1/0.999875−1/2∞
আমাদের এজআর প্যাকেজে, আমাদের শূন্যের উপরে ভর রয়েছে তার জন্য আমাদের কোনও সমন্বয় করার দরকার নেই, কারণ আমরা সর্বদা শর্তাধীন লগ-সম্ভাবনা বা লগ-সম্ভাবনা পার্থক্য এবং কোনও ব-দ্বীনের ফাংশন গণনা থেকে বাতিল করে কাজ করি। মিশ্র সম্ভাব্যতা বন্টন সহ গ্ল্যামসের জন্য এটি আদর্শ বিটিডাব্লু। বিকল্পভাবে, আমরা শূন্যে কোনও ভর না করে বিতরণটি শূন্যের পরিবর্তে -1/2 থেকে শুরু করে সমর্থন বিবেচনা করতে পারি। হয় তাত্ত্বিক দৃষ্টিভঙ্গি বাস্তবে একই গণনার দিকে নিয়ে যায়।
যদিও আমরা অবিচ্ছিন্ন এনবি বিতরণ সক্রিয়ভাবে ব্যবহার করি, আমরা এ বিষয়ে স্পষ্ট করে কিছু প্রকাশ করি নি। নীচে উদ্ধৃত নিবন্ধগুলি জিনোমিক তথ্যগুলিতে NB পদ্ধতির ব্যাখ্যা দেয় তবে ধারাবাহিক এনবি বিতরণকে স্পষ্টভাবে আলোচনা করে না।
সংক্ষেপে, আমি অবাক হই না যে আপনি যে নিবন্ধটি অধ্যয়ন করছেন তা এনবি পিডিএফের একটি নিয়মিত সংস্করণ থেকে যুক্তিসঙ্গত ফলাফল পেয়েছে, কারণ এটি আমাদের অভিজ্ঞতাও। মূল প্রয়োজনীয়তাটি হ'ল আমাদের উপায়গুলি এবং বৈকল্পিকগুলি সঠিকভাবে মডেলিং করা উচিত এবং এটি এনটেবি বিতরণ করে যেমন চতুষ্কোণিক গড়-ভেরিয়েন্স সম্পর্কের একই রূপটি প্রদর্শন করে তবে পূর্ণসংখ্যক বা না হওয়া তথ্য সরবরাহ করা ঠিক হবে।
তথ্যসূত্র
রবিনসন, এম।, এবং স্মিথ, জিকে (২০০৮)। AGEণাত্মক দ্বিপদী বিচ্ছুরণের ছোট নমুনা অনুমান, এসএজ ডেটাতে অ্যাপ্লিকেশন সহ । বায়োস্ট্যাটিকস 9, 321-332।
রবিনসন, এমডি, এবং স্মিথ, জিকে (2007)। ট্যাগ প্রাচুর্যে পার্থক্য নির্ধারণের জন্য পরিমিত পরিসংখ্যান পরীক্ষা । বায়োইনফরম্যাটিকস 23, 2881-2887।
ম্যাকার্থি, ডিজে, চেন, ওয়াই, স্মিথ, জিকে (২০১২)। জৈবিক প্রকরণের প্রতি শ্রদ্ধার সাথে মাল্টিফ্যাক্টর আরএনএ-সেক পরীক্ষাগুলির পৃথক প্রকাশ বিশ্লেষণ । নিউক্লিক অ্যাসিড গবেষণা 40, 4288-4297।
চেন, ওয়াই, লুন, এটিএল, এবং স্মিথ, জিকে (2014)। এজ আরআর ব্যবহার করে জটিল আরএনএ-সেক পরীক্ষাগুলির স্বতন্ত্র প্রকাশ বিশ্লেষণ। ইন: নেক্সট জেনারেশন সিকোয়েন্স ডেটা সম্পর্কিত পরিসংখ্যান বিশ্লেষণ, সোমনাথ দত্ত এবং ড্যানিয়েল এস নেটলেটন (এডিএস), স্প্রিংগার, নিউ ইয়র্ক, পৃষ্ঠা --১---74৪। উদ্ভাবনের
লুন, এটিএল, চেন, ওয়াই এবং স্মিথ, জিকে (2016)। এটি ডি-লিজিয়াস: আরএনএ-সেক পরীক্ষাগুলির বিভেদযুক্ত অভিব্যক্তি বিশ্লেষণের একটি রেসিপি এজ-অর্ধে সম্ভাবনার পদ্ধতিগুলি ব্যবহার করে। আণবিক জীববিজ্ঞানের পদ্ধতিগুলি 1418, 391-416। উদ্ভাবনের
চেন ওয়াই, লুন এটিএল, এবং স্মিথ, জিকে (2016)। পাঠ থেকে জিন পর্যন্ত পাথের পথে: আরউএনএ-সেক পরীক্ষাগুলির বিস্তৃত এক্সপ্রেশন বিশ্লেষণ রুপুব্রেড এবং প্রান্তআর-কোয়াস্ট-সম্ভাবনা পাইপলাইন ব্যবহার করে । F1000 রিসার্চ 5, 1438।