যদি আমি ৯৯% চান্স পেতে চাই যে ১% এরও কম বস্তু ত্রুটিযুক্ত থাকে তবে আমার কতটি নমুনা দরকার?


9

আমার এক্সএমএল সাইটম্যাপটি এর চেয়ে কম আছে তা নিশ্চিত করা দরকার 1%আবর্জনা (ভাঙা লিঙ্ক) ইউআরএলটির তালিকা কয়েক হাজারে রয়েছে এবং অনেকগুলি কারণে 1 টি করে 1 টি দ্বারা এটি সমস্ত পরীক্ষা করা সম্ভব হলেও:

1 - Saved bandwidth
2 - Faster traffic for real clients
3 - Less noise in visitor statistics (because my test would count as a visit)
5 - I could go on...

সুতরাং আমি মনে করি একটি এলোমেলো উপসেট গ্রহণ করা যথেষ্ট হবে, সমস্যাটি আমি জানি না সম্ভাবনাগুলি।

আমি ব্যবহার করতে পারি এমন কোন সাধারণ কাজ আছে?

যদি এটি সহায়তা করে তবে আমরা ধরে নিতে পারি যে কোনও লিঙ্কের রান কেটে ফেলার সম্ভাবনা সম্পর্কে প্রাথমিক ধারণা আছে । ধরা যাক রান জুড়ে একটি আছে0.75% যে কোনও প্রদত্ত লিঙ্কটি নষ্ট হওয়ার জন্য।


আপনার কতগুলি ইউআরএল আছে? (একটি সীমাবদ্ধ জনসংখ্যার বিষয়ে অনুমিতি অসীম জনসংখ্যার বিষয়ে অনুমানের সাধারণ ক্ষেত্রে থেকে কিছুটা আলাদা))
কোডিওলজিস্ট

?? একটি নির্দিষ্ট নম্বর স্পষ্টত
gurghet

তা না বলে চলে যায় তবে কোন সীমাবদ্ধ সংখ্যা?
কোডিওলজিস্ট

হাজার হাজার শত এ, যে প্রতিদিন একটু ভিন্ন
gurghet

আপনার সাইটের মানচিত্রে এটি কী ঘটছে যা এটি পরিবর্তন করছে? আপনার কি প্রতিদিন পুরোপুরি আলাদা সাইট ম্যাপ থাকে, বা কিছু ইউআরএল যুক্ত এবং সরানো হয়? পরে যদি আপনি কোনটি যুক্ত বা সরানো হয়েছে তার উপর নজর রাখতে পারেন, যাতে আপনার কেবল নতুন পরীক্ষা করা দরকার?
কোডিওলজিস্ট

উত্তর:


4

সুতরাং এটি ভাঙ্গার হার সম্পর্কে আপনার পূর্ব বিশ্বাসের বিতরণের উপর নির্ভর করে তবে: প্রায় 3600।

import scipy as sp

p = 0.0075
threshold = .01
confidence = .95

f = lambda n: sp.stats.beta(a=n*p, b=n*(1-p)).cdf(threshold) - confidence
print(sp.optimize.fsolve(f, 1000)[0])

>> 3627.45119614

এখানে ধারণাটি হ'ল বার্নৌল্লি ট্রায়াল হিসাবে লিঙ্ক ব্রেকগুলি মডেল করা এবং বিটা বন্টন হিসাবে ভাঙ্গার হার সম্পর্কে আপনার বিশ্বাসের মডেল করা। বিটা বিতরণটি বের্নোল্লি বিতরণে সম্মিলিত এবং আপনি যখন কোনও ট্রায়াল চালাবেন তখন বিটা বিতরণ আপডেট করার উপায়টি বেশ সহজ:

  • যদি এটি ব্যর্থ হয় তবে আপনি প্রথম প্যারামিটারে একটি যুক্ত করুন, α
  • যদি এটি সাফল্য হয়, আপনি দ্বিতীয় প্যারামিটারে একটি যুক্ত করুন, β

সুতরাং আমরা যদি একটি দিয়ে শুরু বিটা(0,0)বিতরণ এবং সময় সম্পর্কে প্রায় 75% ব্যর্থতা দেখুন, বিতরণ এর ভর 95% এর আগে 95% এর আগে কত ট্রায়াল লাগবে? প্রায় 3600।


পূর্ববর্তী কেবল বন্য গাধা অনুমান করা বা কারচুপি করার আরও খারাপ উদ্দেশ্য নয়, সেগুলির মধ্যে বায়েসীয় বিশ্লেষণ আরও অর্থবোধ করে। তবে সম্ভবত আপনি এটি উপর একটি ঝাড়ু সঞ্চালন করতে পারেপি প্যারামিটারটি 0.5 থেকে 0.9% পর্যন্ত বলে এবং প্রয়োজনীয় প্রয়োজনীয় প্লট করুন এন
ডেভিড আর্নস্ট

1

জন্য এন সঙ্গে নমুনা পি=0,0075 ব্যর্থতার সম্ভাবনা, ব্যর্থতার সংখ্যার বৈকল্পিকতা এনপি(1-পি)। তাই কেন্দ্রীয় সীমাবদ্ধ উপপাদ্যটি ব্যবহার করেজেড একটি আদর্শ সাধারণ,

পি(ব্যর্থতা<.01এন)পি(জেড<এন(.01-পি)এনপি(1-পি))পি(জেড<এন.02898)
এখন আমরা উপরেরটি 95% এর সাথে সমান করতে চাই, যা এটির সাথে মিল রয়েছে জেড=1,645। জন্য সমাধানএন.02898=1,645, আমি পাই এন=3222
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.