অজানা পি-মান গণনা

আমি সম্প্রতি একটি আর স্ক্রিপ্ট ডিবাগ করছি এবং আমি খুব অদ্ভুত কিছু পেয়েছি, লেখক তাদের নিজস্ব পি-মান ফাংশনটি সংজ্ঞায়িত করেছেন

pval <- function(x, y){
    if (x+y<20) { # x + y is small, requires R.basic
        p1<- nChooseK(x+y,x) * 2^-(x+y+1);
        p2<- nChooseK(x+y,y) * 2^-(x+y+1);
        pvalue = max(p1, p2)
    }
    else { # if x+y is large, use approximation
        log_p1 <- (x+y)*log(x+y) - x*log(x) - y*log(y) - (x+y+1)*log(2);
        pvalue<-exp(log_p1);
    }
    return(pvalue)
}

যেখানে এক্স এবং ওয়াই মান 0 এর চেয়ে বেশি ধনাত্মক মান রয়েছে <<20 কেস কিছু ধরণের হাইপারজিমেট্রিক বিতরণের (ফিশার পরীক্ষার অনুরূপ কিছু?) গণনা বলে মনে হচ্ছে এবং অন্য গণনাটি কি কেউ জানেন? একটি সাইডনোট হিসাবে, আমি এই কোডটি অপ্টিমাইজ করার চেষ্টা করছি যাতে এটির সাথে কল করতে এবং এটির সাথে প্রতিস্থাপনের জন্য যথাযথ আর ফাংশনটি বের করার চেষ্টা করছি।

সম্পাদনা: পি-মান গণনার জন্য কাগজ বিশদ সূত্র এখানে পাওয়া যাবে (সূত্রগুলি দেখতে পিডিএফ ক্লিক করতে হবে ) পিডিএফের 8 পৃষ্ঠায় পদ্ধতিগুলি সূচনা হয়েছে এবং প্রশ্নের সূত্রটি (1) এর অধীনে 9 পৃষ্ঠায় পাওয়া যাবে। তারা যে বিতরণটি ধরে নেয় তা পইসন।

r hypothesis-testing p-value

— yingw
সূত্র

দ্বিতীয় জিনিসটি দেখে মনে হচ্ছে এটি কেসটির জন্য ব্যবহৃত গণনাটির একটি সান্নিধ্য x+y < 20, তবে স্ট্রিলিংয়ের প্রায় কাছাকাছি ।

সাধারণত যখন এটি পড়তা এই সাজানোর জন্য ব্যবহার করা হচ্ছে, মানুষ অন্তত ব্যবহার করেন পরবর্তী অতিরিক্ত শব্দ (এর ফ্যাক্টর জন্য পড়তা মধ্যে ), যা ছোট যথেষ্ট আপেক্ষিক পড়তা উন্নতি হবে । $\sqrt{2\pi n}$ $n!$ $n$

উদাহরণস্বরূপ, যদি এবং উভয়ই 10 হয় তবে প্রথম গণনাটি প্রায় 0.088 দেয় যখন of এর ফ্যাক্টরটি সমস্ত পদে অন্তর্ভুক্ত করা হয় প্রায় 0.089, বেশিরভাগ উদ্দেশ্যে যথেষ্ট বন্ধ ... তবে আনুমানিকভাবে এই পদটি বাদ দেওয়া 0.5 দেয় - যা সত্যই যথেষ্ট পরিমাণে খুব কাছাকাছি নয়! এই ফাংশনের লেখক স্পষ্টতই সীমানা ক্ষেত্রে তাঁর সান্নিধ্যের যথার্থতা পরীক্ষা করতে বিরক্ত করেননি। $x$ $y$ $\sqrt{2\pi n}$

এই উদ্দেশ্যে, লেখকের সম্ভবত বিল্ট ইন lgammaফাংশনটি বলা উচিত ছিল - বিশেষত, তার যা আছে তার পরিবর্তে এটি ব্যবহার করে log_p1:

log_p1 <- lgamma(x+y+1)-lgamma(x+1)-lgamma(y+1)-(x+y+1)*log(2)

যার ফলাফল তিনি আনুমানিক করার চেষ্টা করছেন (যেহেতু lgamma(x+1)প্রকৃতপক্ষে প্রত্যাবর্তন করছে, ফলাফলটি সে প্রায় আনুষ্ঠানিকভাবে চেষ্টা করার চেষ্টা করছে - খারাপভাবে - স্ট্র্লিং আনুমানিকতার মাধ্যমে)। $\log(x!)$

একইভাবে, আমি নিশ্চিত নই কেন লেখক chooseপ্রথম ভাগে বিল্ট ইন ফাংশনটি ব্যবহার করবেন না , এটি একটি ফাংশন যা আর এর মানক বিতরণে আসে that এই ক্ষেত্রে, প্রাসঙ্গিক বিতরণ ফাংশনটি সম্ভবত অন্তর্নির্মিতও।

আপনার সত্যিকার অর্থে দুটি পৃথক মামলা দরকার নেই; একমাত্র lgammaক্ষুদ্রতম মানগুলিতে ঠিক কাজ করে। অন্যদিকে, chooseফাংশনটি বেশ বড় মূল্যবোধের জন্য কাজ করে (উদাঃ choose(1000,500)ঠিক কাজ করে)) নিরাপদ বিকল্প সম্ভবত lgammaযদিও আপনি বেশ বড় থাকা দরকার চাই, এবং আগেই একটি সমস্যা হয়েছে। $x$ $y$

আরও তথ্যের সাথে পরীক্ষার উত্স সনাক্ত করা সম্ভব হওয়া উচিত। আমার অনুমান যে লেখক এটিকে কোথাও থেকে নিয়ে এসেছেন, সুতরাং এটি সন্ধান করা উচিত। আপনার কি এর জন্য কিছু প্রসঙ্গ আছে?

আপনি যখন 'অপ্টিমাইজ' বলছেন তখন আপনার অর্থ কি দ্রুত, খাটো, আরও রক্ষণাবেক্ষণযোগ্য বা অন্য কিছু করা যায়?

দ্রুত কাগজ পড়ার পরে সম্পাদনা করুন:

লেখকরা বেশ কয়েকটি পয়েন্টে ভুল বলে মনে করছেন। ফিশারের সঠিক পরীক্ষাটি মার্জিনগুলি স্থির বলে ধরে নেয় না , এটি কেবল তাদের উপর শর্ত দেয়, যা মোটেও একই জিনিস নয়, যেমনটি আলোচনা করা হয়েছে, উদাহরণস্বরূপ, এখানে , উল্লেখ সহ। প্রকৃতপক্ষে, তারা মার্জিনগুলিতে কন্ডিশনার এবং কেন এটি করা হচ্ছে তা নিয়ে বিতর্ক সম্পর্কে বেশ সম্পূর্ণ অজানা বলে মনে হয়। সেখানকার লিঙ্কগুলি পড়ার মতো।

[তারা ফিশারের পরীক্ষা থেকে সর্বদা আরও রক্ষণশীল যে আমাদের 'এই দাবিতে ফিশারের পরীক্ষা খুব রক্ষণশীল ... যা শর্তে ভুল না হলে অগত্যা তা অনুসরণ করে না । তাদের এটি প্রতিষ্ঠিত করতে হবে, তবে এটি প্রায় 80০ বছর ধরে পরিসংখ্যানবিদদের নিয়ে বিতর্ক করে চলেছে এবং কন্ডিশনার কেন করা হচ্ছে তা এই লেখকরা অজানা বলে মনে করছেন, আমি মনে করি না যে এই ছেলেরা এই ইস্যুটির তলানিতে পৌঁছেছে I ।]

কাগজের লেখকরা কমপক্ষে বুঝতে পেরেছেন যে তারা যে সম্ভাব্যতা দেয় তা পি-ভ্যালু দেওয়ার জন্য সংঘবদ্ধ হতে হবে; উদাহরণস্বরূপ পৃষ্ঠা 5 এর প্রথম কলামের মাঝখানে (জোর দেওয়া খনি):

এই জাতীয় ফলাফলের জন্য ফিশারের সঠিক পরীক্ষা অনুযায়ী পরিসংখ্যানগত তাত্পর্য হ'ল 4.6% (দ্বি-পুচ্ছ পি-মান, অর্থাত, অ্যাক্টিন ইএসটি ফ্রিকোয়েন্সি সিডিএনএ গ্রন্থাগারগুলির থেকে পৃথক যে অনুমানের মধ্যে এই জাতীয় টেবিলের সম্ভাবনা থাকে)। তুলনায়, সমীকরণ 2 এর সংশ্লেষিত ফর্ম (সমীকরণ 9, পদ্ধতিগুলি দেখুন) থেকে গণনা করা পি-মানটি (যেমন, অ্যাক্টিন ইএসটিএসগুলির আপেক্ষিক ফ্রিকোয়েন্সি উভয় গ্রন্থাগারে সমান হওয়ার জন্য, প্রদত্ত যে কমপক্ষে 11 টি জ্ঞানীয় EST গুলি এতে পর্যবেক্ষণ করা হয়েছে) মস্তিষ্কের গ্রন্থাগারে দু'জনের পরে লিভারের গ্রন্থাগারটি পর্যবেক্ষণ করা হয়েছে) ১.6%।

(যদিও আমি নিশ্চিত নই যে আমি সেখানে তাদের মূল্য নির্ধারণের সাথে একমত আছি; তারা অন্য লেজের সাথে আসলে কী করছে তা দেখার জন্য আমাকে সাবধানে যাচাই করতে হবে।)

আমি মনে করি না প্রোগ্রামটি এটি করে।

সতর্ক থাকুন, তবে, যে তাদের বিশ্লেষণ না একটি প্রমিত দ্বিপদ পরীক্ষা; অন্যথায় ঘন ঘন ঘন পরীক্ষায় পি-মান অর্জন করার জন্য তারা একটি বায়সিয়ান যুক্তি ব্যবহার করে। এগুলি আরও মনে হয় - কিছুটা অদ্ভুতরূপে, আমার মনের কাছে - পরিবর্তে শর্তে । এর অর্থ হ'ল তাদের অবশ্যই দ্বিপদী না হয়ে নেতিবাচক দ্বিপদী জাতীয় কিছু দিয়ে শেষ করা উচিত , তবে আমি কাগজটি সত্যই খারাপভাবে সংগঠিত এবং ভয়াবহভাবে খারাপ ব্যাখ্যা পেয়েছি (এবং আমি পরিসংখ্যানের কাগজগুলিতে কী ঘটছে তা কাজে লাগাতে অভ্যস্ত), তাই আমি আমি সাবধানতার সাথে যেতে না হলে নির্দিষ্ট হতে হবে না। $x$ $x+y$

আমি এমনকি নিশ্চিত নই যে এই মুহুর্তে তাদের সম্ভাবনার যোগফল 1।

এখানে আরও অনেক কিছু বলা দরকার, তবে প্রশ্নটি কাগজটি নিয়ে নয়, এটি প্রোগ্রামটিতে বাস্তবায়ন সম্পর্কে।

যাইহোক, আপশটটি হ'ল, কমপক্ষে কাগজটি সঠিকভাবে সনাক্ত করে যে পি-মানগুলি সমীকরণ 2 এর মতো সংখ্যক সম্ভাবনার সমন্বয়ে গঠিত তবে প্রোগ্রামটি তা করে না । (কাগজের পদ্ধতি বিভাগে একন 9 এ এবং 9 বি দেখুন।)

কোডটি কেবল এতে ভুল।

[আপনি pbinom@ whuber এর মন্তব্যে ইঙ্গিত দিয়েছিলেন যে, পৃথক সম্ভাবনাগুলি কার্যকর করতে (তবে লেজ নয়, যেহেতু এটি কাঠামোটি দ্বি-সংক্রান্ত পরীক্ষা নয়) তবে তার সমীকরণ 2 তে 1/2 এর অতিরিক্ত কারণ রয়েছে তাই আপনি যদি কাগজে ফলাফলগুলি প্রতিলিপি করতে চান তবে আপনাকে সেগুলি পরিবর্তন করতে হবে]]

আপনি এটিকে কিছু ঝাঁকুনির সাহায্যে পেতে পারেন pnbinom-

নেতিবাচক দ্বিপদ হয় বিচারের সংখ্যা স্বাভাবিকের ফরম সাফল্য বা সংখ্যা ব্যর্থতা থেকে সাফল্য। দুটি সমান; উইকিপিডিয়া এখানে দ্বিতীয় ফর্ম দেয় । সম্ভাব্যতা ফাংশনটি হ'ল: $k^\rm{th}$ $k^\rm{th}$

(\binom{ট + + R - 1}{ট}) \cdot (1 - পি)^{R} {পি}^{ট},

${k+r-1 \choose k}\cdot (1-p)^r p^k,\!$

পি 4 এর সমীকরণ 2 (এবং একইভাবে পি 3 এ একন 1) একটি নেতিবাচক দ্বিপদী, তবে 1 দ্বারা স্থানান্তরিত করা যাক , এবং । $p = N_1/(N_1+N_2)$ $k=x$ $r = y+1$

এটি আমাকে উদ্বিগ্ন করে তোলে যেহেতু এর সীমাগুলি একইভাবে স্থানান্তরিত হয়নি, যেহেতু তাদের সম্ভাব্যতাগুলিও 1-এ যোগ করতে পারে না। $y$

এটা খারাপ হবে।

— গ্লেন_বি -রাইনস্টেট মনিকা
সূত্র

+1 সুন্দর ব্যাখ্যা। এই কোডটিতে কিছু অতিরিক্ত সমস্যা রয়েছে। একেবারে গণনা করা অপ্রয়োজনীয় p2; ছোট p1এবং p2ছোট সাথে সঙ্গতিপূর্ণ xএবং yযথাক্রমে - একটি অযোগ্যতা যে। একটি সম্ভাব্য বাগটি হ'ল শর্তসাপেক্ষে দ্বিতীয় শাখাটি গণনা করতে ব্যর্থ হয় p2এবং কেবল ব্যবহার করে p1। আমি সন্দেহজনক যে কোডটি পুরোপুরি ভ্রান্ত হতে পারে, কারণ এটি কোনও পি-মান গণনা করে বলে মনে হয় না: এটি কেবলমাত্র দেড়-দ্বিপদী সম্ভাবনা এবং সম্ভবত একটি লেজের সম্ভাবনা হওয়া উচিত। কেন কেবল ব্যবহার pbinom/ dbinomএবং এটি দিয়ে করা হবে না?

— whuber

দুর্দান্ত উত্তরের জন্য ধন্যবাদ, আমি সূত্রটির উত্সটি জানতে পেরেছি : জিনোম.সি.এস.এল.পি. / কনটেন্ট / /10/১০/ ৯86.. শর্ট আমি এটিকে দ্রুত এবং সহজ বজায় রাখা / পড়ার পক্ষে পরিবর্তন করতে চেয়েছিলাম।

— ইয়ংউ

কাগজের জন্য ধন্যবাদ; কোডটিতে কী চলছে তা নির্ধারণে এটি সহায়ক ছিল। কি শেমজল।

— গ্লেন_বি -রিনস্টেট মনিকা

+1 টি। এটি এমন একটি পোস্ট যা সম্প্রদায়ের উইকি হওয়া উচিত নয়! আমি মনে করি এটি 14 রেভের কারণে হয়েছে তবে এই ক্ষেত্রে তারা আপনার দ্বারা সমস্ত কিছু রয়েছে। আপনার পরিশ্রমের শাস্তি দেওয়া হয়েছে!

— ড্যারেন কুক

আস্থা ভোট করার জন্য ধন্যবাদ। হ্যাঁ, আমি কাগজের মাধ্যমে পড়তে গিয়ে ফিরে আসছি এবং উন্নতি করতে থাকি, তবে আমি অনুমান করি যে শেষের ফলাফলটি আরও দক্ষতার সাথে অর্জন না করার জন্য এটি আমার আংশিক নিজস্ব দোষ।

— গ্লেন_বি -রিনস্টেট মনিকা