পটভূমি: আমার একটি নমুনা রয়েছে যা আমি ভারী লেজযুক্ত বিতরণ দিয়ে মডেল করতে চাই। আমার কিছু চরম মান রয়েছে যেমন পর্যবেক্ষণগুলির বিস্তারটি তুলনামূলকভাবে বড়। আমার ধারণাটি ছিল সাধারণ পেরেটো বিতরণ দিয়ে এটির মডেল করা এবং তাই আমি করেছি। এখন, আমার অভিজ্ঞতাভিত্তিক তথ্যগুলির 0.975 কোয়ান্টাইল (প্রায় 100 ডেটাপপয়েন্ট) আমি আমার তথ্যগুলিতে ফিট করে এমন জেনারেলাইজড পেরেটো বিতরণের ০.৯975 কোয়ান্টাইলের চেয়ে কম। এখন, আমি ভেবেছিলাম, এই পার্থক্যটি চিন্তার কিছু আছে কিনা তা পরীক্ষা করার কোনও উপায় আছে?
আমরা জানি যে কোয়ান্টাইলগুলির অ্যাসিম্পটোটিক বিতরণ নিম্নরূপ দেওয়া হয়েছে:
সুতরাং আমি ভেবেছিলাম যে আমার ডেটা ফিটিং থেকে যে পরিমাণ প্যারামিটার পেয়েছি ঠিক একই প্যারামিটার দিয়ে 0.975 কোয়ান্টাইলের প্রায় 95% আত্মবিশ্বাস ব্যান্ডের প্লট করার চেষ্টা করে আমার কৌতূহল বজায় রাখা ভাল ধারণা হবে।
আপনি দেখতে হিসাবে, আমরা এখানে কিছু চরম মান সঙ্গে কাজ করছি। এবং যেহেতু বিস্তারটি এত বিশাল, তাই ঘনত্বের ফাংশনটির খুব ছোট মান রয়েছে, আত্মবিশ্বাস ব্যান্ডগুলি উপরের অ্যাসিম্পটোটিক স্বাভাবিকতার সূত্রের বৈকল্পিকতা ব্যবহার করে the এর ক্রম হিসাবে চলেছে:
সুতরাং, এটি কোনও ধারণা রাখে না। আমার কেবলমাত্র ইতিবাচক ফলাফল সহ একটি বিতরণ রয়েছে এবং আত্মবিশ্বাসের বিরতিতে নেতিবাচক মান অন্তর্ভুক্ত। তাই এখানে কিছু চলছে। যদি আমি 0.5 কোয়ান্টাইলের চারপাশে ব্যান্ডগুলি গণনা করি তবে ব্যান্ডগুলি এত বিশাল নয়, তবে এখনও বিশাল।
আমি কীভাবে এটি অন্য বিতরণে চলে যায় তা দেখতে এগিয়ে , যথা বিতরণ। বিতরণ থেকে পর্যবেক্ষণ অনুকরণ করুন এবং কোয়ান্টাইলগুলি আত্মবিশ্বাস ব্যান্ডের মধ্যে রয়েছে কিনা তা পরীক্ষা করুন। আমি আত্মবিশ্বাস ব্যান্ডের মধ্যে থাকা সিমুলেটেড পর্যবেক্ষণগুলির 0.975 / 0.5 কোয়ান্টাইলের অনুপাত দেখতে 10000 বার এটি করি।
################################################
# Test at the 0.975 quantile
################################################
#normal(1,1)
#find 0.975 quantile
q_norm<-qnorm(0.975, mean=1, sd=1)
#find density value at 97.5 quantile:
f_norm<-dnorm(q_norm, mean=1, sd=1)
#confidence bands absolute value:
band=1.96*sqrt((0.975*0.025)/(100*(f_norm)^2))
u=q_norm+band
l=q_norm-band
hit<-1:10000
for(i in 1:10000){
d<-rnorm(n=100, mean=1, sd=1)
dq<-quantile(d, probs=0.975)
if(dq[[1]]>=l & dq[[1]]<=u) {hit[i]=1} else {hit[i]=0}
}
sum(hit)/10000
#################################################################3
# Test at the 0.5 quantile
#################################################################
#using lower quantile:
#normal(1,1)
#find 0.7 quantile
q_norm<-qnorm(0.7, mean=1, sd=1)
#find density value at 0.7 quantile:
f_norm<-dnorm(q_norm, mean=1, sd=1)
#confidence bands absolute value:
band=1.96*sqrt((0.7*0.3)/(100*(f_norm)^2))
u=q_norm+band
l=q_norm-band
hit<-1:10000
for(i in 1:10000){
d<-rnorm(n=100, mean=1, sd=1)
dq<-quantile(d, probs=0.7)
if(dq[[1]]>=l & dq[[1]]<=u) {hit[i]=1} else {hit[i]=0}
}
sum(hit)/10000
সম্পাদনা : আমি কোডটি স্থির করেছি এবং উভয় কোয়ান্টাইলই প্রায় = 95% হিট দেয় এন = 100 এবং । যদি আমি dev স্ট্যান্ডার্ড বিচ্যুতিটি ক্র্যাঙ্ক করি তবে খুব কম হিটগুলি ব্যান্ডের মধ্যে রয়েছে। প্রশ্ন এখনও দাঁড়িয়ে।
সম্পাদনা 2 : উপরের প্রথম EDIT এ আমি যে দাবি করেছি তা প্রত্যাহার করি, যেমনটি একজন সহায়ক ভদ্রলোকের মন্তব্যগুলিতে উল্লেখ করেছেন। এটিকে দেখতে আসলে এই সিআইগুলি সাধারণ বিতরণের জন্য ভাল।
আদেশের পরিসংখ্যানের এই অ্যাসিম্পোটিক স্বাভাবিকতা কি ব্যবহারের জন্য খুব খারাপ ব্যবস্থা, যদি কেউ পরীক্ষা করে দেখতে চান যে কিছু পর্যবেক্ষিত কোয়ান্টাইল নির্দিষ্ট প্রার্থীর বন্টন প্রদানে সম্ভাব্য কিনা?
স্বজ্ঞাতভাবে, আমার কাছে মনে হয় বিতরণের বিভিন্নতা (যা কেউ মনে করেন যে ডেটা তৈরি করেছে, বা আমার আর উদাহরণে, যা আমরা ডেটা তৈরি করে জানি) এবং পর্যবেক্ষণের সংখ্যার মধ্যে একটি সম্পর্ক রয়েছে। আপনার যদি 1000 টি পর্যবেক্ষণ এবং অসাধারণ বৈকল্পিকতা থাকে তবে এই ব্যান্ডগুলি খারাপ। কারও কাছে যদি 1000 টি পর্যবেক্ষণ এবং একটি ছোট বৈকল্পিকতা থাকে, তবে এই ব্যান্ডগুলি বোধগম্য হবে।
কেউ কি আমার জন্য এটি পরিষ্কার করতে যত্নশীল?
band = 1.96*sqrt((0.975*0.025)/(100*n*(f_norm)^2))