বিন্যস্ত পর্যবেক্ষণগুলির স্ট্যান্ডার্ড বিচ্যুতি


25

আমার কাছে নমুনা পর্যবেক্ষণের একটি ডেটাসেট রয়েছে, এটি পরিসীমা বিন্যাসের মধ্যে গণনা হিসাবে সঞ্চিত। উদাহরণ:

min/max  count
40/44    1
45/49    2
50/54    3
55/59    4
70/74    1

এখন, এ থেকে গড়ের একটি অনুমানের সন্ধান করা বেশ সোজা এগিয়ে। ওজন হিসাবে পর্যবেক্ষণ এবং গণনা হিসাবে প্রতিটি রেঞ্জ বিনের গড় (বা মিডিয়ান) কেবলমাত্র ব্যবহার করুন এবং ওজনযুক্ত গড়টি আবিষ্কার করুন:

x¯=1i=1Nwii=1এনWআমিএক্সআমি

আমার পরীক্ষার ক্ষেত্রে, এটি আমাকে 53.82 দেয়।

আমার প্রশ্ন এখন, স্ট্যান্ডার্ড বিচ্যুতি (বা বৈকল্পিক) সন্ধানের সঠিক পদ্ধতিটি কী?

আমার অনুসন্ধানের মাধ্যমে আমি বেশ কয়েকটি উত্তর পেয়েছি তবে আমি নিশ্চিত নই যে আমার ডেটাসেটের জন্য কোনটি যদি আসলেই উপযুক্ত। আমি এখানে অন্য প্রশ্নের এবং একটি এলোমেলো এনআইএসটি ডকুমেন্ট উভয়ই নীচের সূত্রটি খুঁজে পেতে সক্ষম হয়েছি ।

গুলি2*=Σআমি=1এনWআমি(এক্সআমি-এক্স¯*)2(এম-1)এমΣআমি=1এনWআমি

যা আমার পরীক্ষার ক্ষেত্রে 8.35 এর মানক বিচ্যুতি দেয়। যাইহোক, ভারিত উপায় সম্পর্কিত উইকিপিডিয়া নিবন্ধটি উভয় সূত্র দেয়:

গুলি2*=Σআমি=1এনWআমি(Σআমি=1এনWআমি)2-Σআমি=1এনWআমি2Σআমি=1এনWআমি(এক্সআমি-এক্স¯*)2

এবং

গুলি2*=1(Σআমি=1এনWআমি)-1Σআমি=1এনWআমি(এক্সআমি-এক্স¯*)2

যা আমার পরীক্ষার ক্ষেত্রে যথাক্রমে 8.66 এবং 7.83 স্ট্যান্ডার্ড বিচ্যুতি দেয়।

হালনাগাদ

@ হুবুয়ারকে ধন্যবাদ যিনি শেপার্ডের সংশোধনগুলি অনুসন্ধান করার পরামর্শ দিয়েছেন এবং তাদের সাথে সম্পর্কিত আপনার সহায়ক মন্তব্যগুলি। দুর্ভাগ্যক্রমে, আমি যে সংস্থাগুলি সম্পর্কে এটি পেতে পারি তা বুঝতে সমস্যা হচ্ছিল (এবং আমি কোনও ভাল উদাহরণ খুঁজে পাচ্ছি না)। যদিও পুনরুদ্ধার করতে, আমি বুঝতে পারি যে নিম্নলিখিতটি বৈষম্যের একটি পক্ষপাতিত্বমূলক অনুমান:

গুলি2*=1Σআমি=1এনWআমিΣআমি=1এনWআমি(এক্সআমি-এক্স¯*)2

আমি আরও বুঝতে পারি যে পক্ষপাতের জন্য বেশিরভাগ মানক সংশোধনগুলি একটি সাধারণ বন্টনের প্রত্যক্ষ এলোমেলো নমুনার জন্য। অতএব, আমি আমার জন্য দুটি সম্ভাব্য সমস্যা দেখছি:

  1. এগুলি বিন্যস্ত এলোমেলো নমুনাগুলি (যা আমি নিশ্চিত নিশ্চিত যে শেপার্ডের সংশোধনগুলি এখানে আসে))
  2. তথ্যটি সাধারণ বিতরণের জন্য কিনা তা অজানা (এইভাবে আমি ধরে নিচ্ছি না, যা আমি নিশ্চিত যে শেপার্ডের সংশোধনকে বাতিল করে দেয়।)

সুতরাং, আমার আপডেট করা প্রশ্নটি হল; একটি সাধারণ অস্বাভাবিক বিতরণে "সাধারণ" ওজনযুক্ত স্ট্যান্ডার্ড বিচ্যুতি / ভেরিয়েন্স সূত্র দ্বারা আরোপিত পক্ষপাতটি পরিচালনা করার উপযুক্ত পদ্ধতি কী? সর্বাধিক বিশেষত বিন্যস্ত তথ্য সম্পর্কিত।

দ্রষ্টব্য: আমি নিম্নলিখিত পদগুলি ব্যবহার করছি:

  • গুলি2* হল ভারযুক্ত বৈকল্পিক
  • এন পর্যবেক্ষণ সংখ্যা। (অর্থাত্ বিনের সংখ্যা)
  • এম ননজারো ওজনের সংখ্যা। (যেমন গণনা সহ বিনের সংখ্যা)
  • Wআমি ওজন (যেমন গণনা)
  • এক্সআমি হল পর্যবেক্ষণগুলি are (যেমন বিন মানে)
  • এক্স¯* হ'ল ওজনযুক্ত গড়।

5
এই সমস্যার স্ট্যান্ডার্ড সমাধানের জন্য গুগল "শেপার্ডের সংশোধন"।
হোবার

@ হুবুহু, আমি ভয় করি যে আমার গুগল-ফু আমাকে ব্যর্থ করছে ... আমি শেপার্ডের সংশোধন কীভাবে ব্যবহার করব সে সম্পর্কে খুব বেশি সন্ধান পাচ্ছি না। আমি যতদূর বলতে পারি, এটি ডেটা বিভক্ত প্রকৃতির জন্য একটি সংশোধন, এবং আমার পরীক্ষার ক্ষেত্রে s 2 - c 2 এর মতো ব্যবহার করা হবে , যেখানেসিবিনের আকার (আমার পরীক্ষার ক্ষেত্রে, 4)। এটা কি সঠিক? যাই হোক, কি আমি এখনও খোঁজার করছি আমার সাথে কম্পিউটিং সাহায্য বলে মনে হচ্ছে নাগুলি2*গুলি2*-212গুলি2*
chezy525

দ্বিতীয় হিট আমার মধ্যে গুগল সার্চ একটি সুনির্দিষ্ট সূত্র (সমীকরণ 9) প্রদান করে।
শুক্র

@ হুবুহু, কয়েক মাস কেটে গেছে এবং আপনি দু'বার লিঙ্ক করেছেন এমন নথিটি পড়ার চেষ্টা করেছি। আমি মনে করি আমি এখনও কিছু মিস করছি তবে আমি যে সর্বোত্তম সমীকরণটি নিয়ে এসেছি তা হল নিরপেক্ষ অনুমানক হিসাবে সঠিক listed এটা কী ঠিক?
chezy525

শেপার্ডের সংশোধনগুলি স্বাভাবিকতা গ্রহণ করে না।
গ্লেন_বি -রিনস্টেট মনিকা

উত্তর:


18

এই উত্তরটি দুটি সমাধান উপস্থাপন করে: শেপার্ডের সংশোধন এবং সর্বাধিক সম্ভাবনার অনুমান। উভয়ই স্ট্যান্ডার্ড বিচ্যুতির একটি অনুমানের সাথে ঘনিষ্ঠভাবে একমত: প্রথমটির জন্য এবং দ্বিতীয়টির জন্য .6..6৯ (যখন সাধারণ "নিরপেক্ষ" অনুমানের সাথে তুলনীয় হওয়ার জন্য সামঞ্জস্য করা হয়)।7,707.69


শেপার্ডের সংশোধন

"শেপার্ডের সংশোধনগুলি" এমন সূত্রগুলি যেখানে বিন্যাসিত ডেটা (এইগুলির মতো) থেকে গণনা করা মুহুর্তগুলিকে সামঞ্জস্য করে

  • ডেটাগুলি একটি সীমাবদ্ধ অন্তর [ a , b ] এ সমর্থিত কোনও বিতরণ দ্বারা পরিচালিত বলে ধরে নেওয়া হয়[একটি,]

  • যে বিরতিটি ক্রমান্বয়ে সাধারণ প্রস্থের এর সমান বিন্দুতে বিভক্ত যা তুলনামূলকভাবে ছোট (কোনও বিনে সমস্ত ডেটার একটি বৃহত অনুপাত থাকে না)

  • বিতরণ একটি অবিচ্ছিন্ন ঘনত্ব ফাংশন আছে।

এগুলি এলিউর-ম্যাক্লাউরিন সমষ্টি সূত্র থেকে উদ্ভূত হয়েছে, যা নিয়মিত ব্যবধানযুক্ত পয়েন্টগুলিতে ইন্টিগ্রেন্ডের মানগুলির রৈখিক সংমিশ্রণের ক্ষেত্রে অখণ্ডগুলির নিকটবর্তী হয়, এবং তাই সাধারণত প্রযোজ্য (এবং কেবলমাত্র সাধারণ বিতরণে নয়)।

যদিও সাধারণ বিতরণকে কঠোরভাবে বলা সীমাবদ্ধ বিরতিতে সমর্থিত নয় , এটি খুব কাছের কাছাকাছি। মূলত এর সমস্ত সম্ভাব্যতাটি সাতটি সাতটি মানের বিচরণের মধ্যে রয়েছে। সুতরাং শেপার্ডের সংশোধনগুলি কোনও সাধারণ বিতরণ থেকে আসা ডেটা ধরে প্রযোজ্য।

প্রথম দুটি শেপার্ডের সংশোধনগুলি

  1. ডেটা গড়ের জন্য বিন্যাসিত ডেটার গড় ব্যবহার করুন (অর্থাত্ কোনও অর্থ সংশোধনের প্রয়োজন নেই)।

  2. 2/12

2/12-/2/22/12

গণনা করা যাক। Rগণনা এবং বিনগুলি নির্দিষ্ট করে শুরু করে আমি তাদের চিত্রিত করতে ব্যবহার করি :

counts <- c(1,2,3,4,1)
bin.lower <- c(40, 45, 50, 55, 70)
bin.upper <- c(45, 50, 55, 60, 75)

গণনাগুলির জন্য ব্যবহারের উপযুক্ত সূত্রটি গণনা দ্বারা প্রদত্ত পরিমাণের দ্বারা বিন প্রস্থের প্রতিরূপকরণ থেকে আসে ; অর্থাৎ, বিন্যস্ত তথ্য সমান

42.5, 47.5, 47.5, 52.5, 52.5, 57.5, 57.5, 57.5, 57.5, 72.5

এক্সএক্স2

bin.mid <- (bin.upper + bin.lower)/2
n <- sum(counts)
mu <- sum(bin.mid * counts) / n
sigma2 <- (sum(bin.mid^2 * counts) - n * mu^2) / (n-1)

mu1195/2254.32sigma2675/1161.367.83h=5h2/12=25/122.08675/1152/127.70


সর্বাধিক সম্ভাবনার প্রাক্কলন

Fθθ(x0,x1]kFθ

logi=1k(Fθ(x1)Fθ(x0))=klog(Fθ(x1)Fθ(x0))

( এমএলই / লগনের সাধারণভাবে বিতরণ ব্যবধানের সম্ভাবনা দেখুন )।

Λ(θ)θ^Λ(θ)θR

sigma <- sqrt(sigma2) # Crude starting estimate for the SD
likelihood.log <- function(theta, counts, bin.lower, bin.upper) {
  mu <- theta[1]; sigma <- theta[2]
  -sum(sapply(1:length(counts), function(i) {
    counts[i] * 
      log(pnorm(bin.upper[i], mu, sigma) - pnorm(bin.lower[i], mu, sigma))
  }))
}
coefficients <- optim(c(mu, sigma), function(theta) 
  likelihood.log(theta, counts, bin.lower, bin.upper))$par

(μ^,σ^)=(54,32,7,33)

σএন/(এন-1)σএন/(এন-1)σ^=11/10×7,33=7.697,70

অনুমান যাচাই করা

এই ফলাফলগুলি কল্পনা করতে আমরা কোনও হিস্টোগ্রামের উপর লাগানো সাধারণ ঘনত্বের প্লট করতে পারি:

hist(unlist(mapply(function(x,y) rep(x,y), bin.mid, counts)),
     breaks = breaks, xlab="Values", main="Data and Normal Fit")
curve(dnorm(x, coefficients[1], coefficients[2]), 
      from=min(bin.lower), to=max(bin.upper), 
      add=TRUE, col="Blue", lwd=2)

ব্যক্তিত্ব

11

χ2χ2R

breaks <- sort(unique(c(bin.lower, bin.upper)))
fit <- mapply(function(l, u) exp(-likelihood.log(coefficients, 1, l, u)),
              c(-Inf, breaks), c(breaks, Inf))
observed <- sapply(breaks[-length(breaks)], function(x) sum((counts)[bin.lower <= x])) -
  sapply(breaks[-1], function(x) sum((counts)[bin.upper < x]))
chisq.test(c(0, observed, 0), p=fit, simulate.p.value=TRUE)

আউটপুট হয়

Chi-squared test for given probabilities with simulated p-value (based on 2000 replicates)

data:  c(0, observed, 0) 
X-squared = 7.9581, df = NA, p-value = 0.2449

0,245

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.