সীমা দ্বারা আবদ্ধ 0 টি দিয়ে 2 ডি স্ট্যান্ডার্ড বিচ্যুতি কীভাবে গণনা করা যায়


10

আমার সমস্যাটি নিম্নরূপ: আমি ফ্লোর থেকে কয়েক মিটার উপরে একটি নির্দিষ্ট বিন্দু থেকে একবারে 40 বল ফেলেছি। বলগুলি রোল করে, এবং বিশ্রামে আসে। কম্পিউটার ভিশন ব্যবহার করে, আমি এক্সওয়াই বিমানের ভর কেন্দ্রের গণনা করি। আমি কেবলমাত্র ভর কেন্দ্রে থেকে প্রতিটি বলের দূরত্বে আগ্রহী, যা সাধারণ জ্যামিতি ব্যবহার করে গণনা করা হয়। এখন, আমি কেন্দ্র থেকে একতরফা মানক বিচ্যুতি জানতে চাই। সুতরাং, আমি জানতে সক্ষম হব যে একটি নির্দিষ্ট সংখ্যক বল একটি স্টাড রেডিয়াসের মধ্যে থাকে, আরও বেশি বল 2 * স্টেডিয়াম ব্যাসার্ধের মধ্যে থাকে এবং আরও অনেক কিছু। আমি কীভাবে একতরফা স্ট্যান্ডার্ড বিচ্যুতি গণনা করব? একটি সাধারণ পন্থা বলবে যে বলগুলির অর্ধেকটি 0 টির "নেতিবাচক দিকে" থাকে। এটি অবশ্যই এই পরীক্ষায় কোনও ধারণা রাখে না। আমার কি নিশ্চিত করতে হবে যে বলগুলি স্ট্যান্ডার্ড বিতরণের সাথে সামঞ্জস্য হয়? কোন সাহায্যের জন্য আপনাকে ধন্যবাদ।

উত্তর:


13

সেন্ট্রয়েডের চারপাশে 2D বিস্তারের পরিমাণ চিহ্নিত করতে, আপনি কেবল (মূল) মানে বর্গাকার দূরত্ব চান,

σ^=RMS=1ni((xix¯)2+(yiy¯)2).

এই সূত্রে, হল বিন্দু স্থানাঙ্ক এবং তাদের সেন্ট্রয়েড (গড়ের বিন্দু) হ'ল(xi,yi),i=1,2,,n(x¯,y¯).


প্রশ্নটি দূরত্বগুলি বিতরণের জন্য জিজ্ঞাসা করে। বলগুলি যখন তাদের সেন্ট্রয়েডের চারপাশে একটি আইসোট্রপিক দ্বিবিভক্ত স্বাভাবিক বিতরণ থাকে - যা একটি মানক এবং শারীরিকভাবে যুক্তিসঙ্গত অনুমান হয় - স্কোয়ার দূরত্বটি দুটি ডিগ্রি স্বাধীনতার সাথে চি-স্কোয়ার বিতরণের আনুপাতিক হয় (প্রতিটি সমন্বয়ের জন্য একটি)। এটি স্বাধীন স্ট্যান্ডার্ড সাধারণ ভেরিয়েবলগুলির বর্গক্ষেত্রের যোগফল হিসাবে চি-স্কোয়ার ডিস্ট্রিবিউশনের একটি সংজ্ঞাের প্রত্যক্ষ পরিণতি, কারণ হ'ল প্রত্যাশা vari th সহ স্বতন্ত্র স্বাভাবিক পরিবর্তনের একটি লিনিয়ার সংমিশ্রণ এর সাধারণ বৈকল্পিক রচনা

xix¯=n1nxiji1nxj
E[xix¯]=n1nE[xi]ji1nE[xj]=0.
xiযেমন , অ্যানিসোট্রপির অনুমানটি হ'ল এর এর সমান বন্টন রয়েছে এবং সেগুলি থেকে স্বতন্ত্র, সুতরাং একটি অনন্য ফলাফল এর বিতরণ করে । এটি আনুপাতিকতার স্থিরত্বকে প্রতিষ্ঠিত করে: দূরত্বগুলির স্কোয়ারগুলিতে দুটি ডিগ্রি স্বাধীনতার সাথে চি-স্কোয়ার বিতরণ থাকে, যা দ্বারা মাপা হয় σ2
E[(xix¯)2]=Var(xix¯)=(n1n)2Var(xi)+ji(1n)2Var(xj)=n1nσ2.
yjxi(yjy¯)2n1nσ2

এই সমীকরণগুলির সবচেয়ে গুরুতর পরীক্ষাটি হল কেস , তারপরে ভগ্নাংশ থেকে সবচেয়ে বেশি পৃথক । পরীক্ষার অনুকরণ করে, এবং উভয়ের জন্য , এবং স্কেলযুক্ত চি-স্কোয়ার ডিস্ট্রিবিউশনের (লাল রঙের) বর্গক্ষেত্রের দূরত্বের হিস্টোগ্রামগুলি ওভারপ্লিট করে আমরা এই তত্ত্বটি যাচাই করতে পারি।n=2n1n1n=2n=40

ব্যক্তিত্ব

প্রতিটি সারি একই ডেটা দেখায়: বামদিকে এক্স-অক্ষটি লোগারিথমিক; ডানদিকে এটি প্রকৃত স্কোয়ার দূরত্ব দেখায়। এই জন্য আসল মান নির্ধারণ করা হয়েছিল ।σ1

এই ফলাফলগুলি সহ 100,000 পুনরাবৃত্তির জন্য এবং সহ 50,000 পুনরাবৃত্তির জন্য । হিস্টোগ্রাম এবং চি-স্কোয়ার ঘনত্বগুলির মধ্যে চুক্তিগুলি দুর্দান্ত।n=2n=40


যদিও অজানা, এটি বিভিন্ন উপায়ে অনুমান করা যায়। উদাহরণস্বরূপ, গড় বর্গক্ষেত্রের দূরত্ব এর গড় , যা । উদাহরণস্বরূপ, দিয়ে হিসাবে গড় বর্গক্ষেত্রের দূরত্বের গুণ অনুমান করুন । এভাবে একটি অনুমান হবে বার আরএমএস দূরত্ব। বিতরণের মানগুলি ব্যবহার করে আমরা তখন এটি বলতে পারি:σ2n1nσ2χ222n=40σ24039/2σ40/78χ22

  • প্রায় 39% দূরত্ব কম হবে কারণ একটি বিতরণের 39% অংশ চেয়ে কম ।39/40σ^χ221

  • দূরত্বের প্রায় 78% গুণ , কারণ বিতরণের 78% চেয়ে কম ।339/40σ^χ223

এবং ঠিক তেমন, কোনও একাধিকের জন্য আপনার বা জায়গায় ব্যবহার করা যত্নশীল । একটি পরীক্ষা হিসাবে, পূর্বে প্লট করা সিমুলেশনগুলিতে চেয়ে কম স্কোয়ার দূরত্বের প্রকৃত অনুপাত গুণ ছিল13n=401,2,,10n1nσ^2

0.3932 0.6320 0.7767 0.8647 0.9178 0.9504 0.9700 0.9818 0.9890 0.9933

তাত্ত্বিক অনুপাত হয়

0.3935 0.6321 0.7769 0.8647 0.9179 0.9502 0.9698 0.9817 0.9889 0.9933

চুক্তিটি দুর্দান্ত।


Rসিমুলেশন পরিচালনা ও বিশ্লেষণের কোড এখানে ।

f <- function(n, n.iter, x.min=0, x.max=Inf, plot=TRUE) {
  #
  # Generate `n.iter` experiments in which `n` locations are generated using
  # standard normal variates for their coordinates.
  #
  xy <- array(rnorm(n*2*n.iter), c(n.iter,2,n))
  #
  # Compute the squared distances to the centers for each experiment.
  #
  xy.center <- apply(xy, c(1,2), mean)
  xy.distances2 <- apply(xy-array(xy.center, c(n.iter,2,n)), c(1,3), 
                         function(z) sum(z^2))
  #
  # Optionally plot histograms.
  #
  if(plot) {
    xy.plot <- xy.distances2[xy.distances2 >= x.min & xy.distances2 <= x.max]

    hist(log(xy.plot), prob=TRUE, breaks=30,
         main=paste("Histogram of log squared distance, n=", n),
         xlab="Log squared distance")
    curve(dchisq(n/(n-1) * exp(x), df=2) * exp(x) * n/(n-1), 
          from=log(min(xy.plot)), to=log(max(xy.plot)), 
          n=513, add=TRUE, col="Red", lwd=2)

    hist(xy.plot, prob=TRUE, breaks=30,
         main=paste("Histogram of squared distance, n=", n),
         xlab="Squared distance")
    curve(n/(n-1) * dchisq(n/(n-1) * x, df=2), 
          from=min(xy.plot), to=max(xy.plot), 
          n=513, add=TRUE, col="Red", lwd=2)  
  }
  return(xy.distances2)
}
#
# Plot the histograms and compare to scaled chi-squared distributions.
#
par(mfrow=c(2,2))
set.seed(17)
xy.distances2 <- f(2, 10^5, exp(-6), 6)
xy.distances2 <- f(n <- 40, n.iter <- 50000, exp(-6), 12)
#
# Compare the last simulation to cumulative chi-squared distributions.
#
sigma.hat <- sqrt((n / (2*(n-1)) * mean(xy.distances2)))
print(cumsum(tabulate(cut(xy.distances2, 
                    (0:10) * (n-1)/n * sigma.hat^2))) / (n*n.iter), digits=4)
print(pchisq(1:10, df=2), digits=4)

2
একটি খুব ব্যাপক উত্তরের জন্য আপনাকে ধন্যবাদ। আরএমএস সূত্রটি বলের সংখ্যা দ্বারা ভাগ না করে কীভাবে স্ট্যান্ডার্ড বিচ্যুতি বর্ণনা করতে পারে তা আমি বেশ বুঝতে পারি না। আপনি যদি এটির সাথে তুলনা করেন http://en.wikedia.org/wiki/Root-mean-square_deedia_( জৈব ইনফরম্যাটিক্স তারা এন দ্বারা যোগফলকে ভাগ করেছেন the যোগটি N বা N-1 দ্বারা ভাগ করা উচিত (যেহেতু 40 বল কেবল একটি বলের জনসংখ্যা থেকে নির্বাচন?)
কে_শিক্ষক

আবার গণনাগুলি করার পরে, মনে হয় স্কয়ার্ট (এসডিএক্স ^ 2 + এসডি ^ 2) আমি পরে যাচ্ছি। এটি আমাকে এমন একটি বৃত্তের জন্য একটি ব্যাসার্ধ দেবে যা balls৫% এর সম্ভাব্যতা সহ সমস্ত বল রয়েছে, তাই না?
কে_শিক্ষক

এটি আরএমএসের জন্য সমতুল্য সূত্র, তবে এই উত্তরে বর্ণিত হিসাবে 65% মানটি ভুল।
শুশুক

2
@ নালি এই সমস্ত পয়েন্টগুলি এখানে আমার উত্তরটিতে স্পষ্টভাবে তৈরি করা হয়েছে।
whuber

4
@ নালি আপনার পোস্টগুলি এখানে অসভ্যতা এবং বিজ্ঞাপন হোমেনিম আক্রমণগুলিতে স্বীকৃতি সীমা ছাড়িয়ে গেছে । যদিও আমি অজ্ঞ বা বোকা হিসাবে বিবেচিত হওয়ার বিষয়ে উদ্বিগ্ন নই, তবে এই সাইটের একজন পরিচালক হিসাবে আমাকে বক্তৃতাটি নাগরিক রাখার বিষয়ে উদ্বিগ্ন থাকতে হবে এবং তাই আপনার পোস্টিংয়ের যে কুটিলতা সহ্য করা যায় না তা সহ্য করতে পারি না। সেই অনুসারে, আমি আপনার সর্বশেষ মন্তব্য মুছে ফেলেছি। যদি আমি আপনার কাছ থেকে এমন মন্তব্যগুলি দেখতে পাই যা একইভাবে অসভ্য, কারও প্রতি, তবে আমি কোনও বিজ্ঞপ্তি ছাড়াই এগুলি মুছব এবং আমি (বা অন্যান্য মডারেটর) এই সাইটে আপনার মিথস্ক্রিয়া সীমাবদ্ধ করার জন্য অবিলম্বে পদক্ষেপ নেব।
হোবার

4

আমার মনে হয় আপনার কিছু জিনিস কিছুটা বিভ্রান্ত হয়েছে। এটি সত্য যে দূরত্ব negativeণাত্মক হতে পারে না, তবে এটি স্ট্যান্ডার্ড বিচ্যুতির গণনাকে প্রভাবিত করে না। যদিও এর অর্থ হ'ল দূরত্বের বন্টন হুবহু স্বাভাবিক হতে পারে না , এটি এখনও কাছাকাছি হতে পারে; তবে এটি স্বাভাবিক থেকে দূরে থাকলেও এখনও একটি মানক বিচ্যুতি রয়েছে।

এছাড়াও, কোনও "একতরফা" মানক বিচ্যুতি নেই - আপনি হাইপোথিসিস টেস্টগুলি (যা একতরফা বা দ্বিমুখী হতে পারে) সম্পর্কে ভাবতে পারেন। আপনার শিরোনামে, আপনি বলছেন যে গড়টি 0, তবে গড় দূরত্ব 0 হবে না (যদি বল 40 টি উচ্চ বলের স্ট্যাকের মধ্যে না থাকে!) এবং আপনি বলে থাকেন যে সীমাবদ্ধতা রয়েছে - যদি বলগুলিতে ফেলে দেওয়া হয় তবে সীমাবদ্ধতা থাকতে পারে একটি ঘর তখন তারা নিকটবর্তী প্রাচীরের দূরত্বের চেয়ে কেন্দ্র থেকে আরও দূরে হতে পারে না। তবে কিছু বল যদি কোনও দেয়ালের বিরুদ্ধে ঝাঁকুনি না দেয় তবে জিনিসগুলি প্রভাবিত করে না।

সুতরাং, একবার আপনার 40 টি দূরত্ব থাকলে আপনি স্ট্যান্ডার্ড পদ্ধতিগুলি ব্যবহার করে স্ট্যান্ডার্ড বিচ্যুতি গণনা করেন (এবং তার অর্থ, মিডিয়ান, ইন্টারকোটারিল রেঞ্জ ইত্যাদি)। আপনি প্রায় দূরত্বের প্লটও তৈরি করতে পারেন (যেমন কোয়ান্টাইল নরমাল প্লট, বক্স প্লট) এটি দেখতে দেখতে প্রায় সাধারণভাবে বিতরণ করা হয় কিনা (যদি আগ্রহের বিষয় হয়)।


আপনাকে ধন্যবাদ পিটার, আমি নিজেকে সঠিকভাবে প্রকাশ করিনি। আমাকে স্পষ্ট করার চেষ্টা করুন: উপরের দৃশ্যটি কল্পনা করুন। আপনি গড় দূরত্ব গণনা করুন, এটি ভর কেন্দ্রের (যেমন দূরত্ব = ব্যাসার্ধ) কাছাকাছি একটি বৃত্ত হিসাবে চিত্রিত করা হবে। এখন, এ থেকে +/- স্ট্যান্ডের বিচ্যুতিটি একটি ছোট বৃত্ত এবং বৃহত্তর বৃত্তের ফল দেবে। আমি ভর কেন্দ্রে মধ্যবর্তী দূরত্বের মানক বিচ্যুতি জানতে চাই না, বরং গণকেন্দ্রের বাইরের দিক থেকে মানক বিচ্যুতিটি জানতে চাই। অন্য কথায়, ভর কেন্দ্রে থেকে ব্যাসার্ধের মধ্যে বলগুলি অবস্থিত 68৮.২% (এক মান বিচ্যুতি)।
কে_শিক্ষক

ওহ ঠিক আছে. তখন আমি মনে করি এটি কোনও পরিসংখ্যানের সমস্যা নয় বরং গণিতের সমস্যা; 68.2% কোথায় পড়বে তা জানা যায় ... আমি উত্তরটি ভুলে যাই তবে এতে জড়িত । । π
পিটার ফ্লুম

আপনি আপনার প্রথম উত্তরে সঠিক হতে পারে। আমি যা পেয়েছি তা থেকে, রেডিয়াল স্ট্যান্ডার্ড বিচ্যুতি ব্যবহার করে কৌশলটি করা উচিত। আরএসডি = স্কয়ার্ট (এসডিএক্স ^ 2 + এসডি ^ 2)
কে_শিক্ষক

1

এটি জিজ্ঞাসা করার পরে এটির বেশিরভাগ সময় হয়ে গেছে, তবে প্রশ্নের উত্তর হ'ল এটি হ'ল 2 ডি বিতরণ যার নাম রায়লেহ বিতরণ। এখানে অনুমান করা যায় যে রায়লেহ আকৃতির ফ্যাক্টরটি এক্স এবং ওয়াই স্থানাঙ্কের উভয় স্ট্যান্ডার্ড বিচ্যুতির সমান। অনুশীলনে শেপ ফ্যাক্টরের মানটি এক্স এবং ওয়াইয়ের স্ট্যান্ডার্ড বিচ্যুতিটির পুলযুক্ত গড় থেকে গণনা করা হবে।

দিয়ে শুরু , এবং

XN(μx,σx2)
YN(μy,σy2)

বিভাজনযুক্ত সাধারণ বিতরণ ব্যবহার করুন।

f(x,y)=12πσxσy1ρ2exp(12(1ρ2)[(xμx)2σx2+(yμy)2σy22ρ(xμx)(yμy)σxσy])

বিন্দুতে অনুবাদ করুন এবং ধরে নিন ।

(μx,μy)
ρ=0

এছাড়াও ধরে নিন যে তাই উভয়কে দিয়ে প্রতিস্থাপন করুন

σx2=σy2
σ2

তারপরে 2-ডি বিতরণটি বিন্দুর চারপাশে ব্যাসার্ধ হিসাবে প্রকাশ করা হয় যা বিতরণ হিসাবে পরিচিত ।

(μx,μy)

PDF(r;σ)=rσ2exp(r22σ2)
যেখানে এবং
σ=σx=σy
ri=(xiμx)2+(yiμy)2

CDF(r;σ)=1exp(r22σ2)

অবশ্যই এটি অবিচ্ছিন্ন বিতরণের জন্য। মাত্র 40 বলের নমুনার জন্য কোনও সঠিক সমাধান নেই। আপনাকে 40 বলের একটি নমুনা সহ একটি মন্টি কার্লো বিশ্লেষণ করতে হবে। টেলর, এমএস এবং গ্রুবস, ফ্রাঙ্ক ই। (1975)। "এক্সট্রিম স্প্রেডের আনুমানিক সম্ভাব্যতা বিতরণ" চি বিতরণের জন্য অনুমান এবং এর জন্য লগ-নরমাল একটি নমুনার বিতরণের উপযুক্ত হবে found


সম্পাদনা করুন - ওউবারের সন্দেহ সত্ত্বেও, তিনি গণনা করেছেন তাত্ত্বিক অনুপাতগুলি হ'ল:

0.3935 0.6321 0.7769 0.8647 0.9179 0.9502 0.9698 0.9817 0.9889 0.9933

সিডিএফ ফাংশন থেকে আর (সিগমাসে) এর সমষ্টিগত সিগমা মানগুলি থেকে রেঞ্জের সমান:

0-1, 0-2, 0-3, ..., 0-10

আছেন:

0.3935, 0.6321, 0.7769, 0.8647, 0.9179, 0.9502, 0.9698, 0.9817, 0.9889, 0.9933


বিতরণ নামকরণ করার জন্য আপনাকে ধন্যবাদ। তবে (১) বিতরণের প্যারামিটার এবং তথ্য থেকে প্রাপ্ত প্যারামিটারের অনুমানের মধ্যে পার্থক্য না করে, (২) বলগুলির বিতরণ সম্পর্কে প্রয়োজনীয় (শক্তিশালী) অনুমানগুলি উল্লেখ না করে এবং (৩) অস্পষ্ট হয়ে ঝুঁকিপূর্ণ পাঠকদের বিভ্রান্ত করছে। প্রকৃতপক্ষে, আপনার "এটি" এর রেফারেন্সটি কী তা পরিষ্কার নয়: এটি বলগুলির অবস্থানগুলির বিতরণ হবে? (নং) ভর কেন্দ্র কেন্দ্রের বিতরণ? (হ্যাঁ, তবে একটি স্কেল প্যারামিটার যা বলের স্ট্যান্ডার্ড বিচ্যুতি থেকে পৃথক)) আপনি কি নিজের উত্তরটি পরিষ্কার করতে চান?
হোবার

শূন্যস্থান পূরণ করেছে ....
ম্যাক্সডাব্লু

স্পষ্টির জন্য আপনাকে ধন্যবাদ, ম্যাক্স। আপনার উত্তরের যথার্থতার সাধারণ চেক হিসাবে, আসুন পরিবর্তে একটি বল বিবেচনা করুন । আপনার উত্তরটি এই বল এবং সমস্ত বলের ভর কেন্দ্রের মধ্যবর্তী দূরত্বের বন্টন দাবি করে বলে মনে হচ্ছে একটি রায়লেহ বিতরণ। দুর্ভাগ্যক্রমে, এই ক্ষেত্রে দূরত্ব সর্বদা শূন্য থাকে। (প্রশ্নটি বিশেষত এটিকে "গণকের কেন্দ্র থেকে প্রতিটি বলের দূরত্ব, যা সাধারণ জ্যামিতি ব্যবহার করে গণনা করা হয়" হিসাবে বর্ণনা করে)) এটি নির্দেশ করে যে উত্তর সহ আপনার উত্তর প্রতিটি ক্ষেত্রেই ভুল হতে পারে । 4040
হোবার

বিতরণটি ভর কেন্দ্রকে কেন্দ্র করে।
ম্যাক্সডাব্লু

সিডিএফ অবশ্যই একটি বলের জন্য সেটআপ করে। সিডিএফ থেকে 39% বল ব্যাসার্ধের বৃত্তের মধ্যে পড়বে σ 86% 2σ এর মধ্যে এবং 99% 3σ এর মধ্যে σ
ম্যাক্সডাব্লু

-1

ইতিবাচক এবং নেতিবাচক মান উভয়ই সাধারণ বিতরণটি বোধগম্য হয় যদি আপনি বুঝতে পারেন যে এই সাধারণ বিতরণটি ব্যাসার্ধের জন্য বা "সেন্ট্রয়েড থেকে দূরত্ব" for অন্যান্য পরিবর্তনশীল, কোণ, এলোমেলো এবং 0-পাই থেকে অভিন্নভাবে বিতরণ করা হয়


ব্যাসার্ধ, যা কখনই নেতিবাচক হতে পারে না, অবশ্যই কোনও সাধারণ বিতরণ হবে না !
whuber
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.