আমি কি নমুনা আকার এবং নূন্যতম এবং সর্বাধিক মান থেকে একটি সাধারণ বিতরণ পুনর্গঠন করতে পারি? আমি মাঝারি পয়েন্টটি প্রক্সি করতে ব্যবহার করতে পারি


14

আমি জানি এটি পরিসংখ্যানগতভাবে কিছুটা দড়ি হতে পারে তবে এটি আমার সমস্যা।

আমার কাছে প্রচুর পরিসীমা তথ্য রয়েছে, এটি একটি ভেরিয়েবলের ন্যূনতম, সর্বাধিক এবং নমুনার আকার বলতে say এই ডেটা কিছু জন্য আমি একটি গড় আছে, কিন্তু অনেক না। প্রতিটি পরিসরের পরিবর্তনের পরিমাণ নির্ধারণের জন্য এবং উপায়গুলির সাথে তুলনা করতে আমি এই ব্যাপ্তিকে একে অপরের সাথে তুলনা করতে চাই। এই ধারণাটি গ্রহণের আমার কাছে যুক্তিসঙ্গত কারণ রয়েছে যে বিতরণটি মাঝারিদিকে প্রায় প্রতিসম হয় এবং ডেটাতে গাউসীয় বিতরণ হবে। এই কারণে আমি ভাবছি আমি বিতরণের মধ্য-পয়েন্টটি প্রকৃতপক্ষে প্রক্সি হিসাবে যখন এটি অনুপস্থিত থাকে তখন ব্যবহার করে ন্যায়সঙ্গত করতে পারি।

আমি যা করতে চাই তা হ'ল প্রতিটি পরিসরের জন্য একটি বিতরণ পুনর্গঠন করা, এবং তারপরে সেই বিতরণের জন্য একটি প্রমিত বিচ্যুতি বা মান ত্রুটি সরবরাহ করতে এটি ব্যবহার করুন। আমার কাছে কেবলমাত্র তথ্যটি হ'ল একটি নমুনা থেকে সর্বাধিক এবং ন্যূনতম পর্যবেক্ষণ করা হয়, এবং এর জন্য প্রক্সি হিসাবে মিড-পয়েন্ট।

এইভাবে আমি আশা করি যে প্রতিটি গ্রুপের জন্য ওজনযুক্ত মাধ্যমগুলি গণনা করতে সক্ষম হব এবং প্রতিটি গ্রুপের জন্য তারতম্যের সহগের পাশাপাশি আমার কাছে থাকা পরিসীমা ডেটা এবং আমার অনুমানগুলি (একটি প্রতিসম ও স্বাভাবিক বিতরণ) এর উপর ভিত্তি করে কাজ করতে পারব।

আমি আর এটি করার জন্য আর ব্যবহার করার পরিকল্পনা করছি, তাই কোনও কোড সহায়তাও প্রশংসা করবে।


2
আমি ভাবছিলাম যে আপনি কেন ন্যূনতম ও সর্বাধিক ও সর্বাধিক মানগুলির জন্য ডেটা রেখেছেন বলে আমি ভাবছি; তারপরে আপনার কাছে কেবল প্রত্যাশিত ন্যূনতম এবং সর্বাধিক সর্বাধিক তথ্য রয়েছে। এটি কোনটি পর্যবেক্ষণ বা প্রত্যাশিত?
স্কর্চচি - মনিকা পুনরায় ইনস্টল করুন

দুঃখিত, এটি আমার ভুল। সর্বাধিক এবং সর্বনিম্ন ডেটা পর্যবেক্ষণ করা হয় (বাস্তব জীবনের বস্তু থেকে পরিমাপ করা হয়)। পোস্টটি সংশোধন করেছি।
সবুজ_থিনলকে

উত্তর:


11

ন্যূনতম যৌথ ক্রমবর্ধমান বণ্টনের ফাংশনের ও সর্বোচ্চ এক্স ( এন ) একটি নমুনা জন্য এন গড় সঙ্গে একটি গসিয়ান বন্টন থেকে μ & স্ট্যানডার্ড ডেভিয়েশন σ হয়এক্স(1)এক্স(এন)এনμσ

F(x(1),x(n);μ,σ)=Pr(X(1)<x(1),X(n)<x(n))=Pr(X(n)<x(n))Pr(X(1)>x(1),X(n)<x(n)=Φ(x(n)μσ)n[Φ(x(n)μσ)Φ(x(1)μσ)]n

যেখানে হ'ল মানক গাউসিয়ান সিডিএফ। থেকে সম্মান সঙ্গে পার্থক্য এক্স ( 1 )এক্স ( এন ) যৌথ সম্ভাব্যতা ঘনত্ব ফাংশন দেয়Φ()x(1)x(n)

(এক্স(1),এক্স(এন);μ,σ)=এন(এন-1)[Φ(এক্স(এন)-μσ)-Φ(এক্স(1)-μσ)]এন-2φ(এক্স(এন)-μσ)φ(এক্স(1)-μσ)1σ2

যেখানে হ'ল মানক গাউসিয়ান পিডিএফ। পরামিতিগুলি নেই এমন লগ এবং ড্রপিং পদগুলি নেওয়া লগ-সম্ভাবনা ফাংশন দেয়φ()

(μ,σ;x(1),x(n))=(n2)log[Φ(x(n)μσ)Φ(x(1)μσ)]+logϕ(x(n)μσ)+logϕ(x(1)μσ)2logσ

এটি খুবই নম্র দেখাচ্ছে না কিন্তু এটি দেখতে এটি বড় হচ্ছে সহজ যাই হোক না কেন এর মান দ্বারা সেটিং μ = μ = এক্স ( এন ) + + এক্স ( 1 )σ , অর্থাত্ মিডপয়েন্ট term প্রথম সিডিএফের যুক্তি যখন অন্যটির যুক্তির নেতিবাচক হয় তখন প্রথম শব্দটি সর্বাধিক হয়; দ্বিতীয় এবং তৃতীয় পদ দুটি স্বতন্ত্র স্বাভাবিক পরিবর্তনের যৌথ সম্ভাবনা উপস্থাপন করে।μ=μ^=x(n)+x(1)2

বদলে μ লগ-সম্ভাবনা মধ্যে & লেখা R = এক্স ( এন ) - এক্স ( 1 ) দেয় ( σ ; এক্স ( 1 ) , এক্স ( এন ) , μ ) = ( N - 2 ) লগ [ 1 - 2 Φ ( - আরμ^r=x(n)x(1)

(σ;x(1),x(n),μ^)=(n2)log[12Φ(r2σ)]r24σ22logσ

এই অভিব্যক্তি (সঙ্গে যেমন সংখ্যাসূচকভাবে বড় করা হয়েছে optimizeআর এর থেকে statপ্যাকেজ) এটি σ । (এটা দেখা যাচ্ছে যে σ = ( এন ) , যেখানে শুধুমাত্র উপর নির্ভর করে একটি ধ্রুবক এন -perhaps কেউ আরো গাণিতিকভাবে নিপুণ চেয়ে আমি কেন দেখাতে পারে।)σ^σ^=k(n)rkn

নির্ভুলতার সহিত পরিমাপ ব্যতীত অনুমানগুলি কোনও ব্যবহার হয় না। পর্যবেক্ষিত ফিশার তথ্যগুলি সংখ্যাগতভাবে মূল্যায়ন করা যেতে পারে (যেমন hessianআর এর numDerivপ্যাকেজ থেকে প্রাপ্ত) এবং আনুমানিক স্ট্যান্ডার্ড ত্রুটিগুলি গণনা করতে ব্যবহৃত হয়:

আমি(σ)=-2(σ; μ )

I(μ)=2(μ;σ^)(μ)2|μ=μ^
I(σ)=2(σ;μ^)(σ)2|σ=σ^

এটা তোলে সম্ভাবনা & জন্য পদ্ধতি অফ মুহূর্ত অনুমান তুলনা আকর্ষণীয় হবে পক্ষপাত নিরিখে ভ্যারিয়েন্স, & গড়-বর্গক্ষেত্র ত্রুটি (MLE সামঞ্জস্যপূর্ণ?) হয়। সেই গ্রুপগুলির জন্য অনুমানের বিষয়টিও রয়েছে যেখানে ন্যূনতম ও সর্বাধিক ছাড়াও স্যাম্পল গড়টি জানা যায়।σ


1
+1 টি। লগ-সম্ভাবনার সাথে ধ্রুবক করা এটির সর্বাধিক অবস্থান পরিবর্তন করবে না, তবে এটি σ / r এবং n এর ক্রিয়ায় রূপান্তর করবে , যেখানে σ / r এর মান যেহেতু এটি সর্বাধিক করে তোলে কিছু ফাংশন n k ( n )সমতুল্যভাবে, σ = ( এন ) হিসাবে আপনি দাবি করুন। অন্য কথায়, কাজ করার জন্য প্রাসঙ্গিক পরিমাণ হ'ল (পরিলক্ষিত) পরিসরের মান বিচ্যুতির অনুপাত বা সমানভাবে এর পরস্পর সম্পর্কিত - যা ঘনিষ্ঠভাবে সম্পর্কিত2log(r)σ/rnσ/rnk(n)σ^=k(n)rঅধ্যয়ন পরিসীমা
whuber

@ শুভ: ধন্যবাদ! অন্ধত্বের সাথে সুস্পষ্ট বলে মনে হচ্ছে। আমি এটি উত্তরে অন্তর্ভুক্ত করব।
স্কর্চচি - মনিকা পুনরায় ইনস্টল করুন

1

μσR=x(n)x(1)99.7

μ+3σx(n)

μ3σx(1)

আমরা প্রাপ্ত প্রথমটি থেকে দ্বিতীয়টি বিয়োগ করা

6σএক্স(এন)-এক্স(1)=আর
(এটি, শিল্পের ক্ষেত্রে "ছয় সিগমা" মানের আশ্বাসের পদ্ধতিটি কোথা থেকে আসে)। তারপরে আপনি স্ট্যান্ডার্ড বিচ্যুতির জন্য একটি অনুমান পেতে পারেন
σ^=16(এক্স¯(এন)-এক্স¯(1))
যেখানে বারটি গড়কে বোঝায়। আপনি যখন ধরে নেন যে সমস্ত উপ-নমুনা একই বিতরণ থেকে আসে (আপনি প্রত্যাশিত ব্যাপ্তি সম্পর্কে লিখেছিলেন )। যদি প্রতিটি নমুনা আলাদা গড় এবং ভিন্নতার সাথে আলাদা হয় তবে আপনি প্রতিটি নমুনার সূত্রটি ব্যবহার করতে পারেন তবে স্ট্যান্ডার্ড বিচ্যুতির আনুমানিক মানের অনিশ্চয়তা / সম্ভাব্য অসম্পূর্ণতা আরও বড় হবে।

গড় এবং মানক বিচ্যুতির জন্য একটি মান থাকা সম্পূর্ণরূপে সাধারণ বন্টনকে চিহ্নিত করে।


3
এটি ক্ষুদ্রের নিকটবর্তীও নয় এন বা বৃহত্তর জন্য একটি asympotic ফলাফল এন
স্কর্চচি - মনিকা পুনরায় ইনস্টল করুন

1
@ স্টোর্তচি ওয়েল, আমি এটি বলিনি যে এটি একটি ভাল অনুমান - তবে আমি বিশ্বাস করি যে সমস্যার সমাধানের পাশাপাশি আরও কয়েকটি সমস্যা সমাধানের জন্য খুব সহজেই সমাধানগুলি কার্যকরভাবে প্রয়োগ করা ভাল is পরিশীলিত এবং দক্ষ পদ্ধতির যেমন উদাহরণস্বরূপ এই প্রশ্নের অন্য উত্তরে বর্ণিত একটি।
অ্যালেকোস পাপাদোপল্লোস

আমি কার্প করতাম না "স্যাম্পল রেঞ্জের প্রত্যাশা মানগুলির মানগুলির থেকে প্রায় 6 গুণ স্ট্যান্ডার্ড বিচ্যুতিতে পরিণত হয় এন1000 200 থেকে "কিন্তু আমি তোমার শিক্ষাদীক্ষা কিছু সূক্ষ্ম অনুপস্থিত, অথবা এটি ঠিক যেমন ভাল কোন সংখ্যা দ্বারা পরিসর বিভাজক ন্যায্যতা কাজ করবে না করছি।?
Scortchi - পুনর্বহাল মনিকা

@ স্কোর্টচি আচ্ছা, পদ্ধতির মনোভাবটি "যদি আমরা আশা করি যে প্রায় সমস্ত উপলব্ধি 6 টি সিগমাসের মধ্যে নেমে আসে, তবে চূড়ান্ত উপলব্ধি সীমান্তের কাছাকাছি হবে" এমনটাই প্রত্যাশা করা যুক্তিযুক্ত যে এটি সত্যই আছে। সম্ভবত আমি অত্যন্ত অসম্পূর্ণ তথ্যের অধীনে অপারেশন করতে ব্যবহৃত হয়েছি এবং এটি সম্পর্কে পরিমাণগত কিছু বলতে বাধ্য ... :)
অ্যালেকোস পাপাদোপল্লো

4
আমি উত্তর দিতে পারি যে আরও বেশি পর্যবেক্ষণের মধ্যে পড়বে 10σ গড়, আরও ভাল অনুমান দেওয়া σ^=আর10। আমি বাজে কথা বলছি না কারণ এটা বোকা। যে কোনও সংখ্যা শেষ1.13এর কিছু মূল্যের জন্য মোটামুটি অনুমান হবেএন
স্কর্চচি - মনিকা পুনরায় ইনস্টল করুন

1

সর্বোচ্চ বিতরণের সর্বাধিক বিতরণ কার্যকারিতা পাওয়া সহজ (কোডে "P.max.norm" দেখুন)। এটি থেকে (কিছু ক্যালকুলাস সহ) আপনি কোয়ান্টাইল ফাংশনটি পেতে পারেন (দেখুন "Q.max.norm"))

"Q.max.norm" এবং "Q.min.norm" ব্যবহার করে আপনি এন এর সাথে সম্পর্কিত পরিসীমাটির মধ্যস্থতা পেতে পারেন অ্যালেকোস পাপাদোপ্লোস (পূর্ববর্তী উত্তরে) উপস্থাপিত ধারণাটি ব্যবহার করে আপনি এসডি গণনা করতে পারেন।

এটা চেষ্টা কর:

N = 100000    # the size of the sample

# Probability function given q and N
P.max.norm <- function(q, N=1, mean=0, sd=1){
    pnorm(q,mean,sd)^N
} 
# Quantile functions given p and N
Q.max.norm <- function(p, N=1, mean=0, sd=1){
    qnorm(p^(1/N),mean,sd)
} 
Q.min.norm <- function(p, N=1, mean=0, sd=1){
    mean-(Q.max.norm(p, N=N, mean=mean, sd=sd)-mean)
} 

### lets test it (takes some time)
Q.max.norm(0.5, N=N)  # The median on the maximum
Q.min.norm(0.5, N=N)  # The median on the minimum

iter = 100
median(replicate(iter, max(rnorm(N))))
median(replicate(iter, min(rnorm(N))))
# it is quite OK

### Lets try to get estimations
true_mean = -3
true_sd = 2
N = 100000

x = rnorm(N, true_mean, true_sd)  # simulation
x.vec = range(x)                  # observations

# estimation
est_mean = mean(x.vec)
est_sd = diff(x.vec)/(Q.max.norm(0.5, N=N)-Q.min.norm(0.5, N=N))

c(true_mean, true_sd)
c(est_mean, est_sd)

# Quite good, but only for large N
# -3  2
# -3.252606  1.981593

2
এই পদ্ধতির ধারাবাহিকতা, (আর)=σ-1-(1-Φ(এক্স))এন-Φ(এক্স)এনএক্স=σ2(এন), কোথায় আর পরিসীমা এবং Φ()স্ট্যান্ডার্ড সাধারণ ক্রম বিতরণ ফাংশন। এর ট্যাবুলেটেড মানগুলি খুঁজে পেতে পারেন2 ছোট জন্য এন পরিসংখ্যান প্রক্রিয়া নিয়ন্ত্রণ সাহিত্যে, সংখ্যার সাথে অবিচ্ছেদ্য মূল্যায়ন করুন বা আপনার জন্য অনুকরণ করুন এন
স্কর্চচি - মনিকা পুনরায় ইনস্টল করুন
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.