তথ্য থেকে বিতরণ অনুমান করা

আমার Rদ্বারা উত্পন্ন ডেটার একটি নমুনা রয়েছে rnorm(50,0,1), সুতরাং ডেটা স্পষ্টভাবে একটি সাধারণ বিতরণ গ্রহণ করে। যাইহোক, Rডেটা সম্পর্কে এই বিতরণযোগ্য তথ্য "জানেন না"।

এর মধ্যে কী এমন কোনও পদ্ধতি Rঅনুমান করতে পারে যে আমার নমুনাটি কোন ধরণের বিতরণ থেকে আসে? যদি তা না হয় তবে আমি shapiro.testফাংশনটি ব্যবহার করব এবং সেভাবেই এগিয়ে যাব ।

r distributions

— জেমস হাইব্রাইট
সূত্র

আমি নিশ্চিত না যে আমি এই প্রশ্নের উপরের অংশটি চিনতে পারি। এটি সত্য যে আপনি যদি আর-তে কেবল সংখ্যার ভেক্টর রাখেন তবে এর সাথে প্রচুর মেটাডেটা যুক্ত নেই, তবে কেন এটি আপনাকে বিরক্ত করবে? আপনার কেন এটি প্রয়োজন হবে / আপনি এটি দিয়ে কী করতে চান? মনে করুন এটির যদি এটি থাকে তবে এটি কেবল সেই পরিমাণে সহায়ক হবে যে আপনি সেই ভেক্টরকে গাউসিয়ান ডেটা বনাম অন্যগুলির জন্য নির্দিষ্ট পদ্ধতির সাথে কোনও ফাংশনে যেতে পেরেছিলেন। আমি কারও সম্পর্কে জানি না (যদিও আমি খুব সম্ভবত বিশ্বের সবচেয়ে অভিজ্ঞ আর ব্যবহারকারী)।

— গুং - মনিকা পুনরায়

যদি আপনি কেবল পরীক্ষা করতে চান যে কোনও প্রদত্ত নমুনা স্বাভাবিক বলে মনে হচ্ছে কিনা, শাপিরো-উইলক পরীক্ষাটি একটি শালীন বিকল্প (যদিও এই প্রশ্নটি এবং সেখানে দেওয়া উত্তরগুলি পড়ার জন্য এটি আপনার মূল্যবান )। আমি দেখতে পাচ্ছি যে এটি সিমুলেশন স্টাডিতে কীভাবে উঠে আসতে পারে তবে অধ্যয়ন সম্পর্কে আরও বিশদ ছাড়াই কার্যকর কোনও উত্তর দেওয়া শক্ত।

— গুং - মনিকা পুনরায়

আপনাকে কেন ডেটার জন্য বিতরণ শনাক্ত করতে হবে? স্বয়ংক্রিয় বিতরণ পছন্দ প্রায়শই একটি আকর্ষণীয় ধারণা, তবে এটি এটি ভাল ধারণা দেয় না।

— গ্লেন_বি -রিনস্টেট মনিকা

নেই fitdistrফাংশন ভর প্যাকেজ বা ফাংশন কিছু fitdistrplus প্যাকেজ । পরবর্তীকালের কিছু উদাহরণ এখানে দেওয়া হল।

require(fitdistrplus)

set.seed(1)
dat <- rnorm(50,0,1)
f1 <- fitdist(dat,"norm")
f2 <- fitdist(dat,"logis")
f3 <- fitdist(dat,"cauchy")

উদাহরণস্বরূপ

> f1
Fitting of the distribution ' norm ' by maximum likelihood 
Parameters:
      estimate Std. Error
mean 0.1004483 0.11639515
sd   0.8230380 0.08230325

এবং আপনি প্লট দেখতে পারেন

plotdist(dat,"norm",para=list(mean=f1$estimate[1],sd=f1$estimate[2]))
plotdist(dat,"logis",para=list(location=f2$estimate[1],scale=f2$estimate[2]))
plotdist(dat,"cauchy",para=list(location=f3$estimate[1],scale=f3$estimate[2]))

সুতরাং এটি সাধারণ বিতরণ হিসাবে প্রশংসনীয় বলে মনে হচ্ছে

এখানে চিত্র বর্ণনা লিখুন

তবে সম্ভবত একটি লজিস্টিক বিতরণ হিসাবে (আপনার পুচ্ছগুলিতে আলাদা করার জন্য আপনার আরও বৃহত্তর নমুনার প্রয়োজন হবে)

এখানে চিত্র বর্ণনা লিখুন

যদিও একটি কিউকিপ্লট দিয়ে এবং সিডিএফটির দিকে তাকিয়ে আপনি বলতে পারেন যে এটি সম্ভবত কচির বিতরণ নয়

এখানে চিত্র বর্ণনা লিখুন

— হেনরি
সূত্র

একটি সুন্দর ওভারভিউ জন্য হেনরি ধন্যবাদ। আমাকে জিজ্ঞাসা করা হয়েছে যে এমন কোনও প্যাকেজ রয়েছে যা ডেটা নেয় এবং কোন ডিস্ট্রিবিউশন (এবং পরামিতি) ভালভাবে থুথু দেয়। আপনি কি কোনও প্যাকেজে এই জাতীয় কার্যকারিতা সম্পর্কে সচেতন?

— রোমান Luštrik

fitdistপরামিতিগুলির অনুমান সরবরাহ করে। ডিস্ট্রিবিউশনগুলি ফাংশনগুলি থেকে কী হতে পারে সে সম্পর্কে কিছু ইঙ্গিত রয়েছে descdist(dat, boot = 1000)তবে তারাও একটি বৃহত্তর নমুনা থেকে উপকৃত হবে।

— হেনরি

নমুনা প্রতিনিধিত্বমূলক না হলে এই শেষ ফাংশনগুলির কোনওটিই আপনার শেষ প্রশ্নে উত্থাপিত সমস্যার সমাধান করবে না।

— জন

@ স্কট কায়সার: আমি তা মনে করি না। fitdist()ফিটডিসট্রপ্লাস প্যাকেজে একটি ফাংশন এবং এটি আমি ব্যবহার করছিলাম। ইতোমধ্যে fitdistr()MASS প্যাকেজে একটি ফাংশন রয়েছে এবং এই ফর্মটিতে এখানে কাজ করবে না।

— হেনরি

এটিকে মন্তব্য হিসাবে যুক্ত করার মতো পর্যাপ্ত পয়েন্ট আমার কাছে নেই, তবে উপরের থ্রেডে প্রদত্ত তথ্যগুলিতে যেমন অতিরিক্ত নোট হিসাবে রয়েছে, plot(f1)plotdist(dat,"norm",para=list(mean=f1$estimate[1],sd=f1$estimate[2]))

— ততক্ষণে