ভারী লেজযুক্ত বিতরণের আদেশের পরিসংখ্যানের এ্যাসিম্পোটিক স্বাভাবিকতা


9

পটভূমি: আমার একটি নমুনা রয়েছে যা আমি ভারী লেজযুক্ত বিতরণ দিয়ে মডেল করতে চাই। আমার কিছু চরম মান রয়েছে যেমন পর্যবেক্ষণগুলির বিস্তারটি তুলনামূলকভাবে বড়। আমার ধারণাটি ছিল সাধারণ পেরেটো বিতরণ দিয়ে এটির মডেল করা এবং তাই আমি করেছি। এখন, আমার অভিজ্ঞতাভিত্তিক তথ্যগুলির 0.975 কোয়ান্টাইল (প্রায় 100 ডেটাপপয়েন্ট) আমি আমার তথ্যগুলিতে ফিট করে এমন জেনারেলাইজড পেরেটো বিতরণের ০.৯975 কোয়ান্টাইলের চেয়ে কম। এখন, আমি ভেবেছিলাম, এই পার্থক্যটি চিন্তার কিছু আছে কিনা তা পরীক্ষা করার কোনও উপায় আছে?

আমরা জানি যে কোয়ান্টাইলগুলির অ্যাসিম্পটোটিক বিতরণ নিম্নরূপ দেওয়া হয়েছে:

কোয়ান্টাইলগুলির অসম্পূর্ণ স্বাভাবিকতা

সুতরাং আমি ভেবেছিলাম যে আমার ডেটা ফিটিং থেকে যে পরিমাণ প্যারামিটার পেয়েছি ঠিক একই প্যারামিটার দিয়ে 0.975 কোয়ান্টাইলের প্রায় 95% আত্মবিশ্বাস ব্যান্ডের প্লট করার চেষ্টা করে আমার কৌতূহল বজায় রাখা ভাল ধারণা হবে।

GPD

আপনি দেখতে হিসাবে, আমরা এখানে কিছু চরম মান সঙ্গে কাজ করছি। এবং যেহেতু বিস্তারটি এত বিশাল, তাই ঘনত্বের ফাংশনটির খুব ছোট মান রয়েছে, আত্মবিশ্বাস ব্যান্ডগুলি উপরের অ্যাসিম্পটোটিক স্বাভাবিকতার সূত্রের বৈকল্পিকতা ব্যবহার করে the এর ক্রম হিসাবে চলেছে:±1012

±1.960.9750.025n(fGPD(q0.975))2

সুতরাং, এটি কোনও ধারণা রাখে না। আমার কেবলমাত্র ইতিবাচক ফলাফল সহ একটি বিতরণ রয়েছে এবং আত্মবিশ্বাসের বিরতিতে নেতিবাচক মান অন্তর্ভুক্ত। তাই এখানে কিছু চলছে। যদি আমি 0.5 কোয়ান্টাইলের চারপাশে ব্যান্ডগুলি গণনা করি তবে ব্যান্ডগুলি এত বিশাল নয়, তবে এখনও বিশাল।

আমি কীভাবে এটি অন্য বিতরণে চলে যায় তা দেখতে এগিয়ে , যথা বিতরণ। বিতরণ থেকে পর্যবেক্ষণ অনুকরণ করুন এবং কোয়ান্টাইলগুলি আত্মবিশ্বাস ব্যান্ডের মধ্যে রয়েছে কিনা তা পরীক্ষা করুন। আমি আত্মবিশ্বাস ব্যান্ডের মধ্যে থাকা সিমুলেটেড পর্যবেক্ষণগুলির 0.975 / 0.5 কোয়ান্টাইলের অনুপাত দেখতে 10000 বার এটি করি।N(1,1)n=100N(1,1)

    ################################################
# Test at the 0.975 quantile
################################################

#normal(1,1)

#find 0.975 quantile
q_norm<-qnorm(0.975, mean=1, sd=1)
#find density value at 97.5 quantile:
f_norm<-dnorm(q_norm, mean=1, sd=1)
#confidence bands absolute value:
band=1.96*sqrt((0.975*0.025)/(100*(f_norm)^2))
u=q_norm+band
l=q_norm-band

hit<-1:10000
for(i in 1:10000){
  d<-rnorm(n=100, mean=1, sd=1)
  dq<-quantile(d, probs=0.975)

  if(dq[[1]]>=l & dq[[1]]<=u) {hit[i]=1} else {hit[i]=0} 

}
sum(hit)/10000

#################################################################3
# Test at the 0.5 quantile  
#################################################################
#using lower quantile:

#normal(1,1)

#find 0.7 quantile
q_norm<-qnorm(0.7, mean=1, sd=1)
#find density value at 0.7 quantile:
f_norm<-dnorm(q_norm, mean=1, sd=1)
#confidence bands absolute value:
band=1.96*sqrt((0.7*0.3)/(100*(f_norm)^2))
u=q_norm+band
l=q_norm-band

hit<-1:10000
for(i in 1:10000){
  d<-rnorm(n=100, mean=1, sd=1)
  dq<-quantile(d, probs=0.7)

  if(dq[[1]]>=l & dq[[1]]<=u) {hit[i]=1} else {hit[i]=0} 

} 
sum(hit)/10000

সম্পাদনা : আমি কোডটি স্থির করেছি এবং উভয় কোয়ান্টাইলই প্রায় = 95% হিট দেয় এন = 100 এবং । যদি আমি dev স্ট্যান্ডার্ড বিচ্যুতিটি ক্র্যাঙ্ক করি তবে খুব কম হিটগুলি ব্যান্ডের মধ্যে রয়েছে। প্রশ্ন এখনও দাঁড়িয়ে।σ=1σ=2

সম্পাদনা 2 : উপরের প্রথম EDIT এ আমি যে দাবি করেছি তা প্রত্যাহার করি, যেমনটি একজন সহায়ক ভদ্রলোকের মন্তব্যগুলিতে উল্লেখ করেছেন। এটিকে দেখতে আসলে এই সিআইগুলি সাধারণ বিতরণের জন্য ভাল।

আদেশের পরিসংখ্যানের এই অ্যাসিম্পোটিক স্বাভাবিকতা কি ব্যবহারের জন্য খুব খারাপ ব্যবস্থা, যদি কেউ পরীক্ষা করে দেখতে চান যে কিছু পর্যবেক্ষিত কোয়ান্টাইল নির্দিষ্ট প্রার্থীর বন্টন প্রদানে সম্ভাব্য কিনা?

স্বজ্ঞাতভাবে, আমার কাছে মনে হয় বিতরণের বিভিন্নতা (যা কেউ মনে করেন যে ডেটা তৈরি করেছে, বা আমার আর উদাহরণে, যা আমরা ডেটা তৈরি করে জানি) এবং পর্যবেক্ষণের সংখ্যার মধ্যে একটি সম্পর্ক রয়েছে। আপনার যদি 1000 টি পর্যবেক্ষণ এবং অসাধারণ বৈকল্পিকতা থাকে তবে এই ব্যান্ডগুলি খারাপ। কারও কাছে যদি 1000 টি পর্যবেক্ষণ এবং একটি ছোট বৈকল্পিকতা থাকে, তবে এই ব্যান্ডগুলি বোধগম্য হবে।

কেউ কি আমার জন্য এটি পরিষ্কার করতে যত্নশীল?


2
আপনার ব্যান্ড অ্যাসিম্পটোটিক সাধারণ বিতরণের পরিবর্তনের উপর ভিত্তি করে, তবে অ্যাসিপটোটিক সাধারণ বিতরণ (ব্যান্ড = 1.96 * স্কয়ার্ট ((0.975 * 0.025) / (100 * (f_norm) ^ 2)) এর স্ট্যান্ডার্ড বিচ্যুতির ভিত্তিতে হওয়া উচিত) এবং একইভাবে সাধারণ পেরেটো ডিজন'এর জন্য)) এর পরিবর্তে চেষ্টা করে দেখুন কী ঘটে।
jboman

@ জবোম্যান এটি নির্দেশ করার জন্য আপনাকে ধন্যবাদ! আমি এটা ঠিক করব !
এরোসেনিন

@ জবোম্যান যা ব্যান্ডটিকে আরও ছোট করে এবং উদাহরণস্বরূপ আমার আর-কোড দিয়ে যা আসলে কয়েকটি কম হিট দেয়। এটি অন্য একটি ত্রুটিও ছিল, এটি গণনাটিকে ভুল করেছিল, তবে আমি এখনই এটি স্থির করেছি। আপনি আমাকে এর দিকে চালিত করেছিলেন, তাই আমি এটির খুব প্রশংসা করি! জিডিপির ক্ষেত্রে ছোট ব্যান্ডগুলি খুব সুসংবাদ, তবে আমি ভয় করি যে তারা এখনও এত বিশাল যে তারা ব্যবহার করা অসম্ভব। সম্পর্কের নমুনার আকার এবং প্রকরণটি কেবল বড় আকারের হওয়া উচিত, একমাত্র নমুনার আকার নয় I
ইরোসেননিন

কোন চিন্তা করো না! আমি লক্ষ্য করেছি যে আপনি আপনার প্রথম সূত্রের সামনে সঠিকভাবে একটি পেয়েছেন ; যদি আপনি উভয় পক্ষকে এর দ্বারা ভাগ করে থাকেন তবে হিসাবে এটি সাহায্য করতে পারে। দুঃখিত আমি প্রথমবারের মাধ্যমে এটি মিস করেছি। (সম্ভবত আপনি এটিও ঠিক করেছেন তবে প্রশ্নের প্রাসঙ্গিক অংশগুলি আপডেট (n)band = 1.96*sqrt((0.975*0.025)/(100*n*(f_norm)^2))
করেননি

1
হ্যাঁ এটা করে, আমি মনোযোগ দিলাম না। ওটিওএইচ, আমি যখন আপনার কোডটি চালাচ্ছি, এসডি = 1 থেকে এসডি = 2 পরিবর্তন করে সর্বত্রই, আমি যথাক্রমে 0.975 কোয়ান্টাইল: 0.9683 এবং 0.9662 উভয় সময়ে হিটগুলির প্রায় একই ভগ্নাংশ পাই। আমি অবাক হয়েছি আপনি somewhere রান কোথাও একটি এসডি = 1 মিস করেছেন ? σ=2
জোবোম্যান

উত্তর:


3

আমি অনুমান করছি যে আপনার উত্সটি এই পৃষ্ঠার মতো কিছু থেকে এসেছে ।

আমার কেবলমাত্র ইতিবাচক ফলাফল সহ একটি বিতরণ রয়েছে এবং আত্মবিশ্বাসের বিরতিতে নেতিবাচক মান অন্তর্ভুক্ত।

ঠিক আছে, সাধারণ অনুমান দেওয়া যা বোঝায়। আপনাকে নেতিবাচক মান প্রদান থেকে কোনও সাধারণ আনুমানিকতা থামিয়ে দেওয়ার কিছুই নেই, এ কারণেই যখন নমুনার আকার ছোট হয় এবং / বা বৈকল্পিকতা বড় হয় তখন এটি একটি সীমাবদ্ধ মানের জন্য খারাপ অনুমান। আপনি যদি নমুনা আকারটি ক্র্যাঙ্ক করেন তবে অন্তরগুলি সঙ্কুচিত হবে কারণ ব্যবধানের প্রস্থের জন্য নমুনার আকারটি প্রকাশের ডিনোমিনেটরে রয়েছে। বৈকল্পিকতা ঘনত্বের মাধ্যমে সমস্যার মধ্যে প্রবেশ করে: একই কারণে, উচ্চতর বৈকল্পিকতার একটি আলাদা ঘনত্ব থাকবে, মার্জিনগুলিতে উচ্চতর এবং কেন্দ্রের নিকটে নিম্নতর। একটি নিম্ন ঘনত্বের অর্থ বৃহত্তর আত্মবিশ্বাসের ব্যবধান কারণ ঘনত্বটি প্রকাশের বিভাজনে থাকে।

কিছুটা গুগল এই পৃষ্ঠাটি খুঁজে পেয়েছিল , অন্যদের মধ্যে, যা আত্মবিশ্বাসের সীমা তৈরি করতে দ্বিপদী বিতরণে সাধারণ সান্নিধ্য ব্যবহার করে। মূল ধারণাটি হ'ল প্রতিটি পর্যবেক্ষণ কোয়ান্টাইলের নীচে সম্ভাব্যতা Q এর সাথে পড়ে , যাতে বিতরণ দ্বিপদী হয়। যখন নমুনার আকারটি যথেষ্ট পরিমাণে বড় হয় (এটি গুরুত্বপূর্ণ), দ্বিপদী বিতরণটি স্বাভাবিক বন্টন দ্বারা গড় এবং ভেরিয়েন্স দিয়ে খুব ভালভাবে প্রায় হয় । তাই কম আস্থা সীমা সূচক থাকবে এবং উপরের আস্থা সীমা সূচক থাকবে । একটি সম্ভাবনা রয়েছে যে হয় বা হয়nqnq(1q)j=nq1.96nq(1q)k=nq1.96nq(1q)k>nj<1 যখন প্রান্তের কাছে কোয়ান্টাইলগুলি নিয়ে কাজ করার সময় এবং আমি যে রেফারেন্সটি পেয়েছি সে বিষয়ে নীরব। আমি সর্বাধিক বা সর্বনিম্নটিকে প্রাসঙ্গিক মান হিসাবে বিবেচনা করতে পছন্দ করেছি।

আপনার কোডটি নীচে পুনরায় লেখার ক্ষেত্রে আমি অভিজ্ঞতাবাদী তথ্যের উপর আত্মবিশ্বাসের সীমা তৈরি করেছি এবং তাত্ত্বিক কোয়ান্টাইলটি এর ভিতরে পড়ে কিনা তা পরীক্ষা করে দেখেছি। এটি আমার কাছে আরও অর্থবোধ করে, কারণ পর্যবেক্ষণ করা ডেটা সেটের পরিমাণটি এলোমেলো পরিবর্তনশীল। এন> 1000 এর কভারেজটি 0.95 ডলার। এন = 100 এর জন্য এটি 0.85 এর চেয়ে খারাপ, তবে এটি ছোট নমুনা আকারের লেজের কাছে কোয়ান্টাইলগুলির জন্য প্রত্যাশিত।

#find 0.975 quantile
q <- 0.975
q_norm <- qnorm(q, mean=1, sd=1)

#confidence bands absolute value (note depends on sample size)
n <- 10000
band <- 1.96 * sqrt(n * q * (1 - q))

hit<-1:10000
for(i in 1:10000){
  d<-sort(rnorm(n, mean=1, sd=1))
  dq<-quantile(d, probs=q)
  u <- ceiling(n * q + band)
  l <- ceiling(n * q - band)
  if (u > n) u = n
  if (l < 1) l = 1
  if(q_norm>=d[l] & q_norm<=d[u]) {hit[i]=1} else {hit[i]=0} 

}
sum(hit)/10000

যতটা নমুনার আকার "যথেষ্ট পরিমাণে" বড় তা নির্ধারণ করার ক্ষেত্রে, ভাল, আরও ভাল। কোনও নির্দিষ্ট নমুনা "যথেষ্ট বড়" কিনা তা হাতের সমস্যার উপর দৃ strongly়তার সাথে নির্ভর করে এবং আপনি নিজের আত্মবিশ্বাসের সীমা কভারেজ করার মতো বিষয় সম্পর্কে কতটা উদ্বেগ প্রকাশ করেছেন।


অবদানের জন্য আপনাকে ধন্যবাদ! আমি উল্লেখ করেছিলাম যে কোনও পরম "বৃহত" নমুনা কীভাবে বিদ্যমান তা আমি দেখতে পাচ্ছি না এবং তার মধ্যে কোনও বৈকল্পিকতার জন্য অ্যাকাউন্ট করতে হবে। আমি কীভাবে এটি সিআই এর নির্মাণের আমার পদ্ধতির সাথে সম্পর্কিত, তবে সাধারণভাবেও উত্সাহিত। ডেরাইভেশন হিসাবে, আপনি উদাহরণস্বরূপ এখানে দেখতে পারেন: math.mcgill.ca/~dstephens/OldCourses/556-2006/… আমি যে সিআই তৈরি করেছি সেই লিঙ্কটির উদাহরণ থেকে নীচে অনুসরণ করুন। আপনি লিখেছেন যে "আমি অভিজ্ঞতা অভিজ্ঞতাতে আত্মবিশ্বাসের সীমাটি তৈরি করেছি ..." এবং এটি আপনার কাছে আরও অর্থবোধ করে। আপনি কি আমার সিআই এর এই স্কার্ট সম্পর্কে আরও কিছুটা বিস্তারিত বলতে পারেন?
ইরোজেনিন

আহ, হ্যাঁ, আপনার সঠিক ডাইরিভেশন লিঙ্ক ছিল। দুঃখিত আমার খারাপ.
এরোসেনিন

ঠিক আছে, বিতরণটির বৈচিত্র্য আপনি কীভাবে ব্যবহার করছেন তার সান্নিধ্যকে কীভাবে প্রভাবিত করে এবং "বৃহত" নমুনাটির অর্থ কী তা নিয়ে আরও কিছুটা আলোচনা করার জন্য এটি আবার সম্পাদনা করেছি। আপনার সিআই তাত্ত্বিক মানকে কেন্দ্র করে, যখন খনিটি অনুভূতিকর উপর ভিত্তি করে। আমি মনে করি একটি তাত্ত্বিক একের সাথে একটি অভিজ্ঞতাগত কোয়ান্টাইলের তুলনা করার জন্য অনুভূমিক কোয়ান্টাইলের উপর অন্তরগুলি তৈরি করা উচিত। এছাড়াও আমি যে অনুমানটি ব্যবহার করেছি তা আরও একটি "সাধারণ" প্রায় অনুমান করে কারণ কেন্দ্রীয় সীমাবদ্ধ তত্ত্বটি শুরু করার জন্য এখানে কোনও আবেদন নেই।
আতিরেতু

আমি চেষ্টাটির প্রশংসা করি, আমার প্রশ্নটি আরও পরিষ্কার হতে পারে। আমি ইতিমধ্যে বুঝতে পেরেছি যে ঘনত্ব এবং নমুনার আকার বৈচিত্রকে কীভাবে প্রভাবিত করে, এটি আমার স্থানে ছিল প্রথম স্থানে। তবে, আমার খারাপ, আমি আরও পরিষ্কার হতে পারে। এটি "অ্যাসিপটোটিক" যা আমার মনে হয় যে বৈকল্পিকতাটিকে বিবেচনায় নিয়ে এমন কোনও কিছু দিয়ে স্যুইচ করা উচিত। ঠিক আছে, আপনি তাত্ত্বিক মানগুলির চারপাশে আপনার সিআইকে কেন্দ্রিকও করেছেন। n * q হ'ল আপনার তাত্ত্বিক মান। আপনার ব্যান্ডগুলি তৈরির ক্ষেত্রে, আপনি মূলত আমার মতো একই কাজটি করেছেন, কেবল একটি ভিন্ন পদ্ধতি দিয়ে।
ইরোজেনিন
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.