এর হিস্টোগ্রাম দ্বারা একটি বিতরণ সনাক্তকরণে সহায়তা প্রয়োজন


13

আমার কাছে একটি নির্দিষ্ট সিগন্যালের নিবন্ধিত প্রশস্ততা ম্যাক্সিমার নমুনা জনসংখ্যা রয়েছে। জনসংখ্যা প্রায় 15 মিলিয়ন নমুনা। আমি জনসংখ্যার একটি হিস্টোগ্রাম তৈরি করেছি, তবে এই ধরনের হিস্টোগ্রাম দিয়ে বিতরণ অনুমান করতে পারি না।

EDIT1: কাঁচা নমুনা মান সহ ফাইলটি এখানে: কাঁচা ডেটা

নিম্নোক্ত হিস্টোগ্রাম দিয়ে বিতরণ অনুমান করতে যে কেউ সহায়তা করতে পারে: এখানে চিত্র বর্ণনা লিখুন


1
এটি নাটকীয়ভাবে গুরুত্বপূর্ণ তা নয় তবে হিস্টোগ্রামগুলি ব্যবহার করার সময় এটি সাধারণত y- অক্ষের উপর পরম ফ্রিকোয়েন্সি পরিবর্তে আপেক্ষিক ফ্রিকোয়েন্সি রাখতে সহায়তা করে।
পোস্টেফ

অর্থাৎ 120000/15000000 = 0.008 এর পরিবর্তে উল্লম্ব অক্ষের উপর 120000 সরবরাহ করতে হবে?
এমবাইটফ

@ এমবাইটফ: সংক্ষিপ্ত বিবরণীর উত্তরের আপনার মন্তব্যগুলি ইঙ্গিত দেয় যে আপনি বিতরণের নাম পেতে আগ্রহী নন তবে মানগুলি কেন এইভাবে বিতরণ করা হয়েছে তা সন্ধান করতে। এটা কি সঠিক ?
স্টেফেন

1
@ এমবাইটফ, আমি নিশ্চিত নই যে এটি আপনার অ্যাপ্লিকেশনটি বেশ ফিট করে, তবে সম্পর্কিত অ্যাপ্লিকেশন ক্ষেত্রে, উত্স এবং রিসিভারের মধ্যে (অনেকগুলি) এলোমেলো প্রতিবিম্বের মধ্য দিয়ে আসা বিভিন্ন তরঙ্গগুলির একটি রায়লেহ বিতরণ বা এর সাধারণীকরণের একটি দ্বারা মডেল করা হয়েছে, যেমন, ভাত বা নাকাগামি- বিতরণ। m
কার্ডিনাল

2
এই ডেটাগুলির মধ্যে আসল আগ্রহটি ডজন বা তার বেশি স্পাইকগুলির মধ্যে রয়েছে: তথ্যের পরিমাণ যথেষ্ট পরিমাণে যেগুলি আসল , এই অর্থে যে এগুলি প্রকৃত স্থানীয় পদ্ধতির প্রমাণ। এখানে প্রচুর পরিমাণে তথ্যের সমৃদ্ধ তথ্য রয়েছে যা উপেক্ষা করা হবে বলে তাদের বিতরণের সংক্ষিপ্তসার হিসাবে ব্যবহৃত একটি সাধারণ প্যারাম্যাট্রিক সূত্র ছিল।
whuber

উত্তর:


23

ফিটডিজারপ্লাস ব্যবহার করুন:

Fitdistrplus এর CRAN লিঙ্কটি এখানে ।

Fitdistrplus এর জন্য পুরানো ভিগনেট লিঙ্কটি এখানে ।

যদি উইগনেট লিঙ্কটি কাজ না করে, তবে "ডেটা থেকে বিতরণ নির্দিষ্ট করার জন্য লাইব্রেরি ফিটডিসট্রপ্লাস ব্যবহার করুন" অনুসন্ধান করুন।

উইগনেট প্যাকেজটি কীভাবে ব্যবহার করতে হয় তার ব্যাখ্যা করার জন্য একটি ভাল কাজ করে। আপনি স্বল্প সময়ে বিভিন্ন বিতরণ কীভাবে ফিট করতে পারেন তা দেখতে পারেন। এটি একটি কুলেন / ফ্রে ডায়াগ্রাম উত্পাদন করে।

#Example from the vignette
library(fitdistrplus)
x1 <- c(6.4, 13.3, 4.1, 1.3, 14.1, 10.6, 9.9, 9.6, 15.3, 22.1, 13.4, 13.2, 8.4, 6.3, 8.9, 5.2, 10.9, 14.4)
plotdist(x1)
descdist(x1)

f1g <- fitdist(x1, "gamma")
plot(f1g)
summary(f1g)      

এখানে চিত্র বর্ণনা লিখুন

এখানে চিত্র বর্ণনা লিখুন


(+1): প্যাকেজটি আগে জানত না।
স্টিফেন

1
(+1 টি (জানেন না যে একটি কালেন / ফ্রে ডায়াগ্রাম বলা হত আমি এক পর্যায়ে যে নিজেকে সঙ্গে আসা পর্যন্ত করতে
Glen_b -Reinstate মনিকা

দ্বিতীয় চিত্র plotdistকোমন্ডের সাথে আছে? আমি কীভাবে কুলেন / ফ্রে ডায়াগ্রাম পেতে পারি?
janpablo

1
@juanpablo - চেষ্টা করুন descdist()। আমি কিছু কোড এবং পুরানো চিত্রের লিঙ্ক অন্তর্ভুক্ত করতে উপরের পোস্টটি আপডেট করেছি। কাজের জন্য উপরের ভিগনেট লিঙ্কটি আমি পাইনি। সুতরাং, গুগল নিম্নলিখিতটি: "ডেটা থেকে বিতরণ নির্দিষ্ট করতে লাইব্রেরি ফিটডিসট্রপ্লাস ব্যবহার করুন"। এটি একটি .pdf ফাইল।
বিল_080

3
@ জুয়ানপাবলো - বিবৃতিটি f1g <- fitdist(x1, "gamma")মূল উপাত্তগুলিতে গামা বিতরণের সাথে খাপ খায় x1এবং এটি সংরক্ষণ করে f1g। উপরের বাম গ্রাফটি বার হিসাবে plot(f1g)মূল ডেটার জন্য একটি হিস্টোগ্রাম এবং অবিচ্ছিন্ন রেখা হিসাবে x1লাগানো গামা ঘনত্বের প্লট দেখায় f1g। "ফিট" কীভাবে ডেটা উপস্থাপন করে তার ইঙ্গিত হিসাবে হিস্টোগ্রামের উপরে ঘনত্বের প্লট (ধারাবাহিক রেখা) আঁকা হয়।
বিল 8080 15

6

জনসংখ্যা প্রায় 15 মিলিয়ন নমুনা।

তারপরে আপনি খুব সম্ভবত কোনও সাধারণ, বদ্ধ ফর্মের কোনও নির্দিষ্ট বিতরণ প্রত্যাখ্যান করতে সক্ষম হবেন।

এমনকি গ্রাফের বাম দিকের সেই ছোট্ট গোঁফটি সম্ভবত আমাদের 'পরিষ্কারভাবে এমন এবং এরকম নয়' বলার কারণ হতে পারে।

অন্যদিকে, এটি সম্ভবত বেশ কয়েকটি সাধারণ বিতরণ দ্বারা প্রায় ভালভাবে অনুমান করা হয়েছে; সুস্পষ্ট প্রার্থীরা লগনরমাল এবং গামার মতো জিনিস, তবে অন্য অনেকের হোস্ট রয়েছে। এটি আপনি এক্স-ভেরিয়েবলের লগটি দেখেন, আপনি সম্ভবত সিদ্ধান্ত নিতে পারেন যে লগনরমাল দৃষ্টিতে ঠিক আছে কিনা (লগগুলি নেওয়ার পরে, হিস্টগ্রামটি প্রতিসম দেখতে হবে)।

লগটি যদি স্কুতে ছেড়ে যায় তবে গামা ঠিক আছে কিনা তা বিবেচনা করুন, যদি এটি ডান স্কু হয় তবে বিবেচনা করুন যে বিপরীত গামা বা (আরও বেশি স্ক্যু) বিপরীত গাউসিয়ান ঠিক আছে কিনা consider তবে এই অনুশীলনটি এমন একটি বিতরণ সন্ধানের আরও একটি যা এর সাথে বেঁচে থাকার যথেষ্ট কাছে রয়েছে; এই প্রস্তাবগুলির কোনওটিতেই উপস্থিত সমস্ত উপস্থিত বৈশিষ্ট্য উপস্থিত নেই।

কোনও পছন্দকে সমর্থন করার জন্য আপনার কাছে যদি কোনও তত্ত্ব থাকে তবে এই সমস্ত আলোচনা টস করে তা ব্যবহার করুন।


বাহ, বিষয়টি সম্পর্কে কী প্রবণতা; চমৎকার! :)
অনুরকানবিকতাস

1

আমি নিশ্চিত নই আপনি কেন এত বড় একটি নমুনা আকারের সাথে একটি নির্দিষ্ট বিতরণে একটি নমুনাকে শ্রেণিবদ্ধ করতে চান; পার্সিমনি, একে অন্য নমুনার সাথে তুলনা করে, প্যারামটারগুলির শারীরিক ব্যাখ্যা খুঁজছেন?

বেশিরভাগ পরিসংখ্যান প্যাকেজ (আর, এসএএস, মিনিতাব) কোনও নির্দিষ্ট বন্টন থেকে ডেটা আসে তবে কোনও গ্রাফের উপর ডেটা প্লট করার অনুমতি দেয় যা একটি সরলরেখা দেয়। আমি গ্রাফগুলি দেখেছি যেগুলি যদি ডেটা স্বাভাবিক হয় (লগের স্বাভাবিক-লগের রূপান্তরের পরে), ওয়েইবুল এবং চি-স্কোয়ারটি তাত্ক্ষণিকভাবে আমার কাছে আসে। এই কৌশলটি আপনাকে আউটলিয়ারগুলি দেখার অনুমতি দেয় এবং ডেটা পয়েন্ট কেন বিদেশী হয় তার কারণগুলি নির্ধারণ করার সম্ভাবনা দেয়। আর-তে, সাধারণ সম্ভাবনার প্লটকে কিউকনরম বলা হয়।


ভাল ধারণা QQplot পরামর্শ। তবে আমি মনে করি যে কৌশলটির আপনার ব্যাখ্যাটি কিছুটা অস্পষ্ট / বোঝা শক্ত is আপনি কিছু অনুকরণীয় আর-কোড সরবরাহ করতে পারেন? এটি উত্তরের মানকে মারাত্মকভাবে বাড়িয়ে তুলবে।
স্টিফেন

আমি প্রত্যাশা করি যে কেউ আমার মতো ছবিটির মুখোমুখি হয়েছিল এবং অন্তর্নিহিত বিতরণটি তদন্ত করেছে, কারণ মানগুলির শারীরিক ভিত্তি রয়েছে।
এমবাইটফ 23'11

আমি নমুনা বিতরণের শারীরিক পটভূমি - এটি কীভাবে বিতরণ করা হয় এবং কেন তা তদন্ত করছি।
এম্বেইটফ
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.