অযৌক্তিকভাবে বড় জেড-স্কোরগুলির সাথে যুক্ত সম্ভাবনাটি কীভাবে গণনা করবেন?


14

নেটওয়ার্ক মোটিফ সনাক্তকরণের জন্য সফ্টওয়্যার প্যাকেজগুলি প্রচুর পরিমাণে জেড স্কোরগুলি ফিরে আসতে পারে (আমি দেখেছি সর্বোচ্চ 600,000+, তবে 100 এরও বেশি জেড-স্কোর বেশ সাধারণ)। আমি দেখানোর পরিকল্পনা করছি যে এই জেড স্কোরগুলি বোগাস।

বিশাল জেড-স্কোর অত্যন্ত কম সম্পর্কিত সম্ভাবনার সাথে মিলে যায়। সম্পর্কিত সম্ভাব্যতার মানগুলি দেওয়া হয় উদাহরণস্বরূপ সাধারণ বিতরণ উইকিপিডিয়া পৃষ্ঠাতে (এবং সম্ভবত প্রতিটি পরিসংখ্যান পাঠ্যপুস্তক) 6. অবধি জেড স্কোরের জন্য So

প্রশ্ন : একজনের কীভাবে ত্রুটি ফাংশনটি হিসাবে 1,000,000 অবধি গণনা করতে পারে?1erf(n/2)

আমি বিশেষত এর জন্য ইতিমধ্যে বাস্তবায়িত প্যাকেজটির পরে আছি (যদি সম্ভব হয়)। আমি এখনও অবধি সবচেয়ে ভাল খুঁজে পেয়েছি ওল্ফ্রামআল্ফা, যিনি এটি n = 150 ( এখানে ) এর জন্য গণনা পরিচালনা করে ।


6
সম্ভবত এটি জিজ্ঞাসা করা সঠিক প্রশ্ন নয়। এই জেড-স্কোরগুলি বোগাস কারণ তারা ধরে নেয় যে সাধারণ বিতরণটি এটির তুলনায় আরও ভাল একটি সন্নিকট বা মডেল। এটি নিউটোনীয় যান্ত্রিকগুলি 600,000 দশমিক জায়গায় ভাল বলে ধরে নেওয়ার মতো like যদি আপনি প্রকৃতপক্ষে চূড়ান্ত মানগুলির জন্য কেবল গণনা করতে আগ্রহী হন , তবে এই প্রশ্নটি এখানে নয়, গণিতের উপর নির্ভর করে SEএসই। n
শুশুক

6
"অযৌক্তিকভাবে" বড় মানগুলির জন্য, আপনি উপরের সীমানা ব্যবহার করার চেয়ে ভাল করতে পারবেন না ডাবল-স্পষ্টতা ভাসমান পয়েন্টের জন্য । এই আনুষঙ্গিকতা এবং অন্যান্যদের স্ট্যাটাস.এসইতে অন্যত্র আলোচনা করা হয়। Pr(Z>z)(z2π)1ez2/2
অঙ্কবাচক

ধন্যবাদ কার্ডিনাল, এটি সীমাটি যথেষ্ট সঠিক বলে মনে হচ্ছে। কেন আপনি এটিকে উত্তর দেবেন না?
ডগলাস এস স্টোনস

@ ডগলাস: আপনি যদি এখনও আগ্রহী হন তবে আমি পরের দিন বা একসাথে কিছু কিছু রাখতে পারি এবং আরও সম্পূর্ণ উত্তর হিসাবে পোস্ট করতে পারি।
কার্ডিনাল

1
ভাল ... আমি মনে করি এটি উত্তর হিসাবে যুক্ত করা সার্থক হবে। সম্ভবত বাঁধাই প্রোব + পরিসংখ্যানগুলিতে সাধারণ জ্ঞান, তবে আমি এটি জানতাম না। এছাড়াও, এখানে কিউ এবং এগুলি কেবলমাত্র ওপি-র জন্য নয়।
ডগলাস এস স্টোনস

উত্তর:


19

প্রশ্ন পরিপূরক ত্রুটি ফাংশন উদ্বেগ

erfc(x)=2πxexp(t2)dt

"বৃহত্তর" মানগুলির জন্য ( মূল প্রশ্নে) - যা, 100 এবং 700,000 বা এর মধ্যে। (বাস্তবে, প্রায় 6 টির চেয়ে বেশি যে কোনও মানকে আমরা "বড়," হিসাবে বিবেচনা করব)) নোট করুন যেহেতু এটি পি-ভ্যালুগুলি গণনা করতে ব্যবহৃত হবে, তাই তিনটিরও বেশি (দশমিক) বেশি সংখ্যার প্রাপ্তির ক্ষেত্রে সামান্য মান রয়েছে ।= n / x=n/2

শুরু করতে, @ ইটেটর দ্বারা প্রস্তাবিত আনুমানিকতা বিবেচনা করুন,

f(x)=11exp(x2(4+ax2π+ax2)),

কোথায়

a=8(π3)3(4π)0.439862.

যদিও এই ত্রুটি ফাংশন নিজেই একটি চমৎকার পড়তা, এটা করার জন্য একটি ভয়ানক পড়তা এর । তবে পদ্ধতিগতভাবে এটি ঠিক করার একটি উপায় রয়েছে।erfc

বৃহত মানের সাথে যুক্ত পি-মানগুলির জন্য আমরা আপেক্ষিক ত্রুটি আমরা আশা করি যে এর পরম মান তিনটি উল্লেখযোগ্যতার জন্য 0.001 এর চেয়ে কম হবে নির্ভুলতার সংখ্যা দুর্ভাগ্যক্রমে এই এক্সপ্রেশনটি ডাবল-স্পষ্টতা গণনায় ডুবে যাওয়ার কারণে বড় জন্য অধ্যয়ন করা কঠিন । এখানে একটি প্রচেষ্টা রয়েছে, যা জন্য এর তুলনায় আপেক্ষিক ত্রুটিটি প্লট করে :f ( x ) / erfc ( x ) - 1 x x 0 x 5.8x f(x)/erfc(x)1xx0x5.8

প্লট 1

একবার 5.3 বা তার বেশি হয়ে গেলে গণনাটি অস্থিতিশীল হয়ে যায় এবং 5.8 ছাড়িয়ে একটি উল্লেখযোগ্য অঙ্ক সরবরাহ করতে পারে না। এটি কোনও আশ্চর্যের নয়: । ডাবল-স্পষ্টতা পাটিগণিতের সীমাটি চাপছে। যেহেতু কোনও প্রমাণ নেই যে আপেক্ষিক ত্রুটি বৃহত্তর জন্য গ্রহণযোগ্যভাবে ছোট হতে চলেছে , আমাদের আরও ভাল করা দরকার।এক্সপ্রেস ( - 5.8 2 ) 10 - 14.6 এক্সxexp(5.82)1014.6x

বর্ধিত গাণিতিক ( গণিতের সাথে ) গণনা সম্পাদন কী হচ্ছে তার চিত্রের উন্নতি করে:

প্লট 2

সহ ত্রুটি দ্রুত বৃদ্ধি পায় এবং সমতলকরণের লক্ষণগুলি দেখায় না। গত বা তারও বেশি, এই আনুমানিকতা এমনকি একটি নির্ভরযোগ্য অঙ্কের তথ্য সরবরাহ করে না!x = 10xx=10

যাইহোক, প্লটটি লিনিয়ার দেখতে শুরু করছে। আমরা অনুমান হতে পারে আপেক্ষিক ত্রুটি সরাসরি সমানুপাতিক । (এটি তাত্ত্বিক ভিত্তিতে অনুধাবন করে: manifest স্পষ্টতই একটি বিজোড় ফাংশন এবং স্পষ্টতই সমান হয়, সুতরাং তাদের অনুপাতটি একটি বিজোড় ফাংশন হওয়া উচিত Thus সুতরাং আমরা যদি আপেক্ষিক ত্রুটিটি বাড়িয়ে তবে এটির মতো আচরণ করার আশা করব বিজোড় শক্তি ।) এটি আমাদের দ্বারা দ্বারা বিভাজিত আপেক্ষিক ত্রুটি অধ্যয়ন করতে পরিচালিত করে । সমানভাবে, আমি করতে পছন্দ করি, কারণ আশা একটি স্থির সীমিত মান হওয়া উচিত। এটির গ্রাফটি এখানে:এরফসি f x x x erfc ( x ) / f ( x )xerfcfx xxerfc(x)/f(x)

প্লট 3

আমাদের অনুমানটি বহন করা হয়েছে বলে মনে হয়: এই অনুপাতটি 8 বা ততোধিক সীমাতে পৌঁছেছে বলে মনে হচ্ছে। জিজ্ঞাসা করা হলে, গণিতিকা এটি সরবরাহ করবে:

a1 = Limit[x (Erfc[x]/f[x]), x -> \[Infinity]]

মান । এটি আমাদের অনুমানটি উন্নত করতে সক্ষম করে: আমরা গ্রহণ করিa1=2πe3(4+π)28(3+π)7.94325

f1(x)=f(x)a1x

আনুমানিক প্রথম পরিশোধন হিসাবে। যখন সত্যিই বড় হয় - কয়েক হাজারেরও বেশি - এই আনুমানিক পরিমাণ ঠিক fine এটি এখনও থেকে বা এর মধ্যে একটি আকর্ষণীয় পরিসীমা যুক্তিগুলির পক্ষে যথেষ্ট ভাল হতে পারে না, আসুন প্রক্রিয়াটি পুনরাবৃত্তি করুন। এবার, বিপরীত আপেক্ষিক ত্রুটি - বিশেষত, এক্সপ্রেশন বড় জন্য মতো আচরণ করবে (পূর্ববর্তী সমতুল্য বিবেচনার ভিত্তিতে) । তদনুসারে, আমরা দ্বারা গুন করি এবং পরবর্তী সীমাটি পাই :5.3 2000 1 - এরফসি ( এক্স ) / এফ 1 ( এক্স ) 1 / এক্স 2 এক্স এক্স 2x5.320001erfc(x)/f1(x)1/x2xx2

a2 = Limit[x^2 (a1 - x (Erfc[x]/f[x])), x -> \[Infinity]] 

মান হয়

a2=132πe3(4+π)28(3+π)(329(4+π)3π(3+π)2)114.687.

আমরা যতক্ষণ চাই এই প্রক্রিয়াটি এগিয়ে যেতে পারে। আমি এটি আরও একটি পদক্ষেপ নিয়েছিলাম, খুঁজেছি

a3 = Limit[x^2 (a2 - x^2 (a1 - x (Erfc[x]/f[x]))), x -> \[Infinity]] 

মান সহ প্রায় 1623.67। (সম্পূর্ণ এক্সপ্রেশনটি এর একটি ডিগ্রি-আট যুক্তিযুক্ত ফাংশন জড়িত এবং এখানে দরকারী হতে খুব দীর্ঘ।)π

এই ক্রিয়াকলাপগুলি আনওয়াইন্ড করা আমাদের চূড়ান্ত আনুমানিকতা দেয়

f3(x)=f(x)(a1a2/x2+a3/x4)/x.

ত্রুটি সমানুপাতিক । আমদানির মধ্যে আনুপাতিকতার ধ্রুবক, তাই আমরা :x6x6(1erfc(x)/f3(x))

প্লট 4

এটি দ্রুত 2660.59 এর কাছাকাছি একটি সীমাবদ্ধ মানের কাছে পৌঁছে যায়। ব্যবহার করে , আমরা অনুমান যার যার আপেক্ষিক যথার্থতা সমস্ত জন্য চেয়ে ভাল । একবার 20 বা তার বেশি হয়ে গেলে আমাদের তিনটি উল্লেখযোগ্য অঙ্ক থাকে (বা আরও বেশি, বড় হওয়ার সাথে সাথে)। একটি চেক হিসাবে, এখানে একটি টেবিলটি থেকে মধ্যে সমীকরণের সাথে সঠিক মানগুলির তুলনা করছে :f3erfc(x)2661/x6x>0xxx1020

 x  Erfc    Approximation      
10  2.088*10^-45    2.094*10^-45
11  1.441*10^-54    1.443*10^-54
12  1.356*10^-64    1.357*10^-64
13  1.740*10^-75    1.741*10^-75
14  3.037*10^-87    3.038*10^-87
15  7.213*10^-100   7.215*10^-100
16  2.328*10^-113   2.329*10^-113
17  1.021*10^-127   1.021*10^-127
18  6.082*10^-143   6.083*10^-143
19  4.918*10^-159   4.918*10^-159
20  5.396*10^-176   5.396*10^-176

প্রকৃতপক্ষে, এই অনুমানটি জন্য কমপক্ষে দু'টি যথাযথ পরিসংখ্যান সরবরাহ করে, যা কেবল পথচারীদের গণনা (যেমন এক্সেলের ফাংশন) পিটার আউট করে aboutx=8NormSDist

শেষ অবধি, কেউ প্রাথমিক অনুমানের গণনা করার আমাদের দক্ষতা সম্পর্কে চিন্তিত হতে পারে । যাইহোক, এটি কঠিন নয়: যখন খুব বেশি পরিমাণে ঘাতক মধ্যে আন্ডারফ্লো প্রবাহের জন্য বড় হয় , তখন বর্গমূলটি অর্ধেক সূচক দ্বারা সূচিত হয়,fx

f(x)12exp(x2(4+ax2π+ax2)).

এর লগারিদম গণনা করা (বেস 10 তে) সহজ, এবং সহজেই কাঙ্ক্ষিত ফলাফল দেয়। উদাহরণস্বরূপ, । এই আনুমানিক সাধারণ লোগারিদম হয়x=1000

log10(f(x))(10002(4+a10002π+a10002)log(2))/log(10)434295.63047.

ফলন ঘটাচ্ছে

f(1000)2.3416910434296.

সংশোধন প্রয়োগ করে ( ) উত্পাদন করেf3

erfc(1000)1.86003 70486 3232810434298.

নোট করুন যে সংশোধনটি 99% এর বেশি দ্বারা মূল সীমাবদ্ধতা হ্রাস করে (এবং সত্যই, ।) (এই সান্নিধ্যটি কেবলমাত্র শেষ অঙ্কে সঠিক মান থেকে পৃথক Another আর একটি সুপরিচিত সমীকরণ, , , সমান , ষষ্ঠ তাত্পর্যপূর্ণ অঙ্কের মধ্যে ভুল হয়েছে I'm আমি নিশ্চিত আমরা যদি উন্নতি করতে পারি তবে আমরা একই কৌশল ব্যবহার করে চেয়েছিলেন।)a1/x1%exp(x2)/(xπ)1.86003810434298


1
+1 এটি দুর্দান্ত উত্তর, কোনওভাবে আমি এই থ্রেডটি আগে কখনও পাইনি।
অ্যামিবা বলছেন মনিকাকে

15

একটি সাধারণ উপরের আবদ্ধ

কোনও স্বাভাবিকের উপরের লেজের সম্ভাবনার গণনায় আর্গুমেন্টের খুব বড় মানগুলির জন্য, দুর্দান্ত সীমানা উপস্থিত রয়েছে যেগুলি সম্ভবত ডাবল-স্পষ্টতা ভাসমান পয়েন্ট সহ অন্য কোনও পদ্ধতি ব্যবহার করার মতো উত্তম। জন্য যাক যেখানে হল আদর্শ পিডিএফ। বেঁচে থাকার বিশ্লেষণে আমি স্বীকৃতি ব্যবহার করেছি not ইঞ্জিনিয়ারিং প্রসঙ্গে, তারা এই ফাংশনটিকে Function বলে এবং দ্বারা এটিকে বোঝায় ।z>0

S(z):=P(Z>z)=zφ(z)dz,
φ(z)=(2π)1/2ez2/2S(z)QQ(z)

তারপরে, খুব সরল, প্রাথমিক উপরের যেখানে ডানদিকের স্বরলিপিটি ইঙ্গিত করে এটি এটি একটি উপরের-আবদ্ধ অনুমান। এই উত্তরটি সীমাবদ্ধতার প্রমাণ দেয়।

S(z)φ(z)z=:S^u(z),

পাশাপাশি বেশ কয়েকটি দুর্দান্ত পরিপূরক নিম্ন সীমানা রয়েছে। সর্বাধিক সর্বাধিক সহজ ও সহজ ব্যয়গুলির মধ্যে একটি হ'ল সীমাবদ্ধ এই সীমাটি প্রাপ্ত করার জন্য কমপক্ষে তিনটি পৃথক পদ্ধতি রয়েছে। সম্পর্কিত প্রশ্নের উত্তরে এই জাতীয় একটি পদ্ধতির রুক্ষ স্কেচ পাওয়া যাবে ।

S(z)zz2+1φ(z)=:S^(z).

একটি ছবি

নীচে আসল ফাংশন সাথে দুটি ধাপের (ধূসর বর্ণের) একটি প্লট রয়েছে ।S(z)

স্বাভাবিক এবং সীমাগুলির উপরের লেজ

এটা কত ভাল?

প্লটটি থেকে মনে হয়, মাঝারি আকারে বড় জন্যও সীমাগুলি বেশ শক্ত হয়ে যায় । আমরা নিজেদেরকে জিজ্ঞাসা করতে পারি যে তারা কতটা কড়া এবং কীভাবে এই পরিমাণে পরিমাণগত বিবৃতি দেওয়া যেতে পারে।z

একটি কার্যকর পরিমাপ হ'ল চূড়ান্ত আপেক্ষিক ত্রুটি এটি আপনাকে অনুমানের আনুপাতিক ত্রুটি দেয়।

E(z)=|S^u(z)S(z)S(z)|.

এখন, দ্রষ্টব্য, যেহেতু জড়িত সমস্ত ক্রিয়াকলাপগুলি ne এবং এর সীমাবদ্ধ বৈশিষ্ট্যগুলি ব্যবহার করে আমরা পাই এবং সুতরাং এটি একটি প্রমাণ সরবরাহ করে যে জন্য উপরের- 1% এর মধ্যে সঠিক, এটি 0.1% এর মধ্যে এবং এটি 0.01% এর মধ্যে সঠিক।S^u(z)S^(z)

E(z)=S^u(z)S(z)S(z)S^u(z)S^(z)S^(z)=z2,
z10z28z100

আসলে, সীমানাগুলির সরল রূপটি অন্যান্য "অনুমানের" উপর একটি ভাল চেক সরবরাহ করে। যদি আরও জটিল অনুমানের সংখ্যার গণনায় আমরা এই সীমাগুলির বাইরে একটি মান পাই তবে আমরা এখানে প্রদত্ত উপরের সীমাটির মান নিতে কেবল এটি "সংশোধন" করতে পারি।

এই সীমাবদ্ধতা অনেক পরিশোধিত আছে। Laplace সীমা উল্লেখ এখানে উপর উচ্চ এবং নিম্ন সীমার একটা চমৎকার ক্রম প্রদান ফর্মের যেখানে একটি মূলদ ফাংশন।আর ( জেড ) φ ( জেড ) আর (S(z)R(z)φ(z)R(z)

অবশেষে, এখানে আরও কিছুটা সম্পর্কিত প্রশ্নোত্তর।


1
সমস্ত "স্ব-উদ্ধৃতি" এর জন্য ক্ষমাপ্রার্থী। একবার, বেশ কয়েক বছর আগে, আমি সম্পর্কিত প্রশ্নগুলির জন্য একটি তীব্র, দুই-সপ্তাহ দীর্ঘ আগ্রহ নিয়েছি এবং এই বিষয়টি সম্পর্কে যতটা পারি তার চেষ্টা করার চেষ্টা করেছি।
কার্ডিনাল

+1 তীব্র সাথে সম্মত হন। খুব সুন্দর, এবং আমি অন্যান্য উত্তরের লিঙ্কগুলি প্রশংসা করি।
Iterator

5

আপনি এটি আরও সহজ ফাংশন দিয়ে আনুমানিক করতে পারেন - আরও তথ্যের জন্য এই উইকিপিডিয়া বিভাগটি দেখুন। মূল আনুমানিকতা হ'লerf(x)sgn(x)1exp(x24/π+ax21+ax2)

নিবন্ধটি বিভাগের জন্য একটি ভুল লিঙ্ক আছে। পিডিএফ উল্লেখ করা সের্গেই উইনিতজকির ফাইলগুলিতে - বা এই লিঙ্কটিতে পাওয়া যাবে


1
এর কয়েকটি প্রশস্তকরণ দুটি কারণে স্বাগত হবে। প্রথমত, উত্তম যখন উত্তরগুলি একা থাকতে পারে। দ্বিতীয়ত, এই নিবন্ধটি "অসীমের আশেপাশের অঞ্চলে" সান্নিধ্যের গুণমান সম্পর্কে অস্পষ্টভাবে লিখেছেন: "খুব নির্ভুল" কতটা সঠিক? (আপনার স্পষ্টতই এটি সম্পর্কে ভাল ধারণা রয়েছে তবে সমস্ত আগ্রহী পাঠকের কাছে এটি আশা করা অনেকটাই বেশি)) ".0003535" এর বর্ণিত মানটি এখানে নিরর্থক।
whuber

ধন্যবাদ। আমি লক্ষ্য করিনি যে টেক্স ব্যবহারের জন্য জাভাস্ক্রিপ্ট-ভিত্তিক সমর্থন রয়েছে, যা এটি লেখার ক্ষেত্রে পার্থক্য তৈরি করেছিল।
Iterator 21

1
ঘটনাচক্রে, সেই অনুমানের উইকিপিডিয়া উল্লেখটি ভাঙা। গাণিতিক আবিষ্কার করে যে আপেক্ষিক ত্রুটি (1 - প্রায় (x) / এরফ (এক্স)) । 2exp(x2+3(π4)2/(8(π3)))
শুক্রবার

@ হুবুহু, আপনি কি তার জন্য গণিত কোড পোস্ট করতে পারেন? :) আমি 15+ বছরে ম্যাথেমেটিকাকে দেখিনি, এবং কখনও এই ধরণের উদ্দেশ্যে দেখিনি।
ইলেটর 22

আমি এটি একটি পৃথক জবাব পোস্ট।
হোবার
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.