একটি হিস্টোগ্রামের ভিত্তিতে ডেটা আনুমানিক বিতরণ মূল্যায়ন করা


111

ধরুন আমি দেখতে চাই যে আমার ডেটা হিস্টগ্রামের উপর ভিত্তি করে ক্ষতিকারক কিনা (অর্থাত্ ডান দিকে স্কুঙ্ক হয়েছে)।

আমি কীভাবে ডেটা গ্রুপ করব বা বিন করব তার উপর নির্ভর করে আমি বুনোভাবে আলাদা হিস্টোগ্রাম পেতে পারি।

হিস্টোগ্রামগুলির একটি সেট মনে হবে যে ডেটাটি এক্সপেনশনাল। অন্য সেটটি দেখে মনে হবে যে ডেটা এক্সফেনশনাল নয়। আমি হিস্টোগ্রামগুলি থেকে বিতরণগুলি কীভাবে সংজ্ঞায়িত করতে পারি?


20
হিস্টোগ্রামগুলি সম্পর্কে কেন ভুলে যাবেন না, কারণ আপনি যে সমস্যাগুলি বর্ণনা করেছেন তা ভালভাবে প্রতিষ্ঠিত হয়েছে এবং কিউকি প্লট এবং ফিট টেস্টের সদ্ব্যবহারের মতো বিকল্প সরঞ্জামগুলি বিবেচনা করছেন?
whuber

উত্তর:


163

আকার নির্ধারণ করতে হিস্টোগ্রাম ব্যবহারে সমস্যা

যদিও হিস্টোগ্রামগুলি প্রায়শই কার্যকর এবং কখনও কখনও দরকারী হয় তবে এগুলি বিভ্রান্তিকর হতে পারে। বিন সীমানার অবস্থানগুলিতে পরিবর্তনগুলির সাথে তাদের উপস্থিতি বেশ কিছুটা পরিবর্তন করতে পারে।

এই সমস্যাটি দীর্ঘকাল ধরে জানা গেছে, যদিও এটি যতটা বিস্তৃত হওয়া উচিত তা সম্ভবত নয় - এটি প্রাথমিক স্তরের আলোচনায় আপনি খুব কমই উল্লেখ করেছেন (যদিও ব্যতিক্রম রয়েছে)।

* উদাহরণস্বরূপ, পল রুবিন [1] এটিকে এভাবে লিখেছেন: " এটি সর্বজনবিদিত যে একটি হিস্টোগ্রামের শেষ পয়েন্টগুলি পরিবর্তন করে এর উপস্থিতি উল্লেখযোগ্যভাবে পরিবর্তন করতে পারে "। ।

আমি মনে করি এটি এমন একটি বিষয় যা হিস্টোগ্রামগুলি প্রবর্তন করার সময় আরও ব্যাপকভাবে আলোচিত হওয়া উচিত। আমি কিছু উদাহরণ এবং আলোচনা দেব।

আপনার কোনও ডেটা সেটের একক হিস্টোগ্রামের উপর নির্ভর করতে কেন সতর্ক থাকতে হবে

এই চারটি হিস্টোগ্রামটি একবার দেখুন:

চারটি হিস্টোগ্রাম

এটি চারটি ভিন্ন ভিন্ন হিস্টোগ্রামে।

আপনি যদি নিম্নলিখিত ডেটাগুলি পেস্ট করেন (আমি এখানে আর ব্যবহার করছি):

Annie <- c(3.15,5.46,3.28,4.2,1.98,2.28,3.12,4.1,3.42,3.91,2.06,5.53,
5.19,2.39,1.88,3.43,5.51,2.54,3.64,4.33,4.85,5.56,1.89,4.84,5.74,3.22,
5.52,1.84,4.31,2.01,4.01,5.31,2.56,5.11,2.58,4.43,4.96,1.9,5.6,1.92)
Brian <- c(2.9, 5.21, 3.03, 3.95, 1.73, 2.03, 2.87, 3.85, 3.17, 3.66, 
1.81, 5.28, 4.94, 2.14, 1.63, 3.18, 5.26, 2.29, 3.39, 4.08, 4.6, 
5.31, 1.64, 4.59, 5.49, 2.97, 5.27, 1.59, 4.06, 1.76, 3.76, 5.06, 
2.31, 4.86, 2.33, 4.18, 4.71, 1.65, 5.35, 1.67)
Chris <- c(2.65, 4.96, 2.78, 3.7, 1.48, 1.78, 2.62, 3.6, 2.92, 3.41, 1.56, 
5.03, 4.69, 1.89, 1.38, 2.93, 5.01, 2.04, 3.14, 3.83, 4.35, 5.06, 
1.39, 4.34, 5.24, 2.72, 5.02, 1.34, 3.81, 1.51, 3.51, 4.81, 2.06, 
4.61, 2.08, 3.93, 4.46, 1.4, 5.1, 1.42)
Zoe <- c(2.4, 4.71, 2.53, 3.45, 1.23, 1.53, 2.37, 3.35, 2.67, 3.16, 
1.31, 4.78, 4.44, 1.64, 1.13, 2.68, 4.76, 1.79, 2.89, 3.58, 4.1, 
4.81, 1.14, 4.09, 4.99, 2.47, 4.77, 1.09, 3.56, 1.26, 3.26, 4.56, 
1.81, 4.36, 1.83, 3.68, 4.21, 1.15, 4.85, 1.17)

তারপরে আপনি এগুলি নিজে তৈরি করতে পারেন:

opar<-par()
par(mfrow=c(2,2))
hist(Annie,breaks=1:6,main="Annie",xlab="V1",col="lightblue")
hist(Brian,breaks=1:6,main="Brian",xlab="V2",col="lightblue")
hist(Chris,breaks=1:6,main="Chris",xlab="V3",col="lightblue")
hist(Zoe,breaks=1:6,main="Zoe",xlab="V4",col="lightblue")
par(opar)

এখন এই স্ট্রিপ চার্টটি দেখুন:

x<-c(Annie,Brian,Chris,Zoe)
g<-rep(c('A','B','C','Z'),each=40)
stripchart(x~g,pch='|')
abline(v=(5:23)/4,col=8,lty=3)
abline(v=(2:5),col=6,lty=3)

4 স্ট্রিপ চার্ট

(যদি এটি এখনও সুস্পষ্ট না হয় তবে দেখুন আপনি প্রতিটি সেট থেকে অ্যানির ডেটা বিয়োগ করলে কী হয় head(matrix(x-Annie,nrow=40)):)

তথ্যগুলি প্রতিবার 0.25-এ রেখে সরানো হয়েছে।

তবুও আমরা হিস্টোগ্রামগুলি থেকে পাওয়া ইমপ্রেশনগুলি - ডান স্কিউ, ইউনিফর্ম, বাম স্কিউ এবং বিমোডাল - একেবারে আলাদা ছিল। আমাদের ছাপ পুরোপুরি সর্বনিম্নের সাথে সম্পর্কিত প্রথম বিন-উত্সের অবস্থান দ্বারা পরিচালিত হয়েছিল।

সুতরাং কেবল 'ক্ষতিকারক' বনাম 'সত্যই-এক্সপোনেনশিয়াল' নয় 'ডান স্কিউ' বনাম 'বাম স্কিউ' বা 'বিমোডাল' বনাম 'ইউনিফর্ম' যেখানে আপনার ডানাগুলি শুরু হয় ঠিক সেখানে চলে যান।


সম্পাদনা করুন: আপনি যদি দ্বিবিধকে পৃথক করেন তবে আপনি এই জাতীয় জিনিসগুলি পেতে পারেন:

স্কিউ বনাম বেল

এটা একই binwidth সঙ্গে এক উভয় ক্ষেত্রেই 34 পর্যবেক্ষণ, শুধু বিভিন্ন ব্রেকপয়েন্ট, এবং binwidth সঙ্গে অন্যান্য ।0.810.8

x <- c(1.03, 1.24, 1.47, 1.52, 1.92, 1.93, 1.94, 1.95, 1.96, 1.97, 1.98, 
  1.99, 2.72, 2.75, 2.78, 2.81, 2.84, 2.87, 2.9, 2.93, 2.96, 2.99, 3.6, 
  3.64, 3.66, 3.72, 3.77, 3.88, 3.91, 4.14, 4.54, 4.77, 4.81, 5.62)
hist(x,breaks=seq(0.3,6.7,by=0.8),xlim=c(0,6.7),col="green3",freq=FALSE)
hist(x,breaks=0:8,col="aquamarine",freq=FALSE)

নিফটি, আহ?

হ্যাঁ, সেই তথ্যগুলি ইচ্ছাকৃতভাবে এটি করার জন্য তৈরি করা হয়েছিল ... তবে পাঠটি স্পষ্ট - আপনি হিস্টোগ্রামে যা দেখেন তা ডেটার বিশেষত সঠিক ছাপ নাও হতে পারে।

আমরা কি করতে পারি?

হিস্টোগ্রামগুলি ব্যাপকভাবে ব্যবহৃত হয়, প্রায়শই প্রাপ্তি জন্য সুবিধাজনক এবং কখনও কখনও প্রত্যাশিত। এই জাতীয় সমস্যা এড়াতে বা প্রশমিত করতে আমরা কী করতে পারি?

যেমন নিক কক্স একটি সম্পর্কিত প্রশ্নের মন্তব্যে উল্লেখ করেছেন : থাম্বের নিয়ম সর্বদা হওয়া উচিত যে বিনের প্রস্থ এবং বিনের উত্সের পরিবর্তনের জন্য বিশদ বিবরণ যথাযথ হতে পারে; এগুলির কাছে ভঙ্গুর বিশদটি উদ্দীপনা বা তুচ্ছ হতে পারে

অন্ততপক্ষে, আপনার সর্বদা বেশ কয়েকটি ভিন্ন দ্বিবিধ বা বিন-উত্সে বা সাধারণত উভয় ক্ষেত্রেই হিস্টোগ্রাম করা উচিত।

বিকল্পভাবে, একটি ব্যান্ডউইদথ খুব বেশি প্রশস্ত নয় একটি কার্নেল ঘনত্ব অনুমান পরীক্ষা করে দেখুন।

হিস্টোগ্রামের স্বেচ্ছাচারিতা হ্রাস করে এমন অন্য একটি পদ্ধতির গড় স্থানান্তরিত হিস্টোগ্রাম ,

গড় স্থানান্তরিত হিস্টোগ্রাম

(এটি সেই সাম্প্রতিক তথ্যের সেটগুলির মধ্যে একটি) তবে আপনি যদি সেই প্রচেষ্টায় যান তবে আমি মনে করি আপনি সম্ভবত কার্নেলের ঘনত্বের প্রাক্কলনটি ব্যবহার করতে পারেন।

যদি আমি কোনও হিস্টগ্রাম করছি (আমি বিষয়টি সম্পর্কে তীব্র সচেতন হওয়া সত্ত্বেও এগুলি ব্যবহার করি), তবে আমি প্রায় সবসময় সাধারণত সাধারণত প্রোগ্রামের ডিফল্টগুলির চেয়ে বেশি পরিমাণে বিন্দু ব্যবহার করতে পছন্দ করি এবং প্রায়শই আমি বিবিধ প্রস্থের সাথে বিভিন্ন হিস্টোগ্রাম করতে পছন্দ করি (এবং, মাঝেমধ্যে, উত্স)। যদি তারা ছাপে যুক্তিসঙ্গতভাবে সামঞ্জস্য হন তবে আপনার এই সমস্যা হওয়ার সম্ভাবনা নেই, এবং যদি তারা সামঞ্জস্য না রাখেন তবে আপনি আরও সাবধানতার সাথে দেখতে জানেন, সম্ভবত কার্নেলের ঘনত্বের প্রাক্কলন, একটি অভিজ্ঞতাশীল সিডিএফ, একটি কিউকিউ প্লট বা অন্য কিছু চেষ্টা করুন অনুরূপ.

যদিও কখনও কখনও হিস্টোগ্রামগুলি বিভ্রান্তিমূলক হতে পারে, বক্সপ্লটগুলি এ জাতীয় সমস্যার আরও বেশি ঝুঁকিপূর্ণ হয়; একটি বক্সপ্লট দিয়ে আপনার কাছে "আরও বিন ব্যবহার করুন" বলার ক্ষমতাও নেই। এই পোস্টে চারটি আলাদা আলাদা ডেটা সেট দেখুন , সবগুলি অভিন্ন, প্রতিসামগ্রী বক্সপ্লট সহ, যদিও ডেটা সেটগুলির মধ্যে একটি যথেষ্ট স্কিউ থাকে।

[1]: রুবিন, পল (২০১৪) "হিস্টোগ্রাম আপত্তি!",
ব্লগ পোস্ট, বা একটি ওবি বিশ্বে , জানুয়ারী 23 2014
লিঙ্ক ... (বিকল্প লিঙ্ক)


1
ব্যবহারিকভাবে প্রতিটি গ্রাফের মতো ডেটা বিন্যস্ত করে। বিনগুলি যথেষ্ট ছোট (অক্ষ বরাবর এক পিক্সেলের প্রস্থ) যে কোনও ব্যাপার নয়?
এজেম্যানসফিল্ড

1
@ আজেমনসফিল্ড এটি "প্রতিটি বিতরণটি পৃথক" বলার মতোই - যদিও আক্ষরিক সত্য হলেও এটি প্রাসঙ্গিক বিষয়টিকে অস্পষ্ট করে। বিন্যাসিত অনুমানের একটি নির্দিষ্ট সংখ্যক বিন্দু সাধারণত পিক্সেলের একটি সংখ্যার চেয়ে অনেক ছোট ... এবং অ্যান্টি-এলিয়াসিং ব্যবহার করে এমন কোনও গ্রাফিকের সাথে, 'কার্যকর' পিক্সেলের সংখ্যা আরও বড় (এতে সম্ভাব্য পার্থক্য সম্ভব পিক্সেলের মধ্যে অবস্থানের পার্থক্য)
Glen_b

2
মৌলিক সমস্যা হিস্টোগ্রামগুলি ভারী আকারে বিন আকারের উপর নির্ভর করে। এটি একটি অগ্রাধিকার নির্ধারণ করা কঠিন।

29

কোনও হিস্টগ্রামের তুলনায় কার্নেলের ঘনত্ব বা লগস্প্লাইন প্লটটি আরও ভাল বিকল্প হতে পারে। এখনও এই পদ্ধতিগুলি দিয়ে সেট করা যেতে পারে এমন কিছু বিকল্প রয়েছে তবে সেগুলি হিস্টোগ্রামগুলির চেয়ে কম চঞ্চল। QQplots পাশাপাশি আছে। তাত্ত্বিক বিতরণের জন্য ডেটা যথেষ্ট পরিমাণে রয়েছে কিনা তা দেখার জন্য একটি দুর্দান্ত সরঞ্জাম এখানে বিস্তারিতভাবে বর্ণনা করা হয়েছে:

 Buja, A., Cook, D. Hofmann, H., Lawrence, M. Lee, E.-K., Swayne,
 D.F and Wickham, H. (2009) Statistical Inference for exploratory
 data analysis and model diagnostics Phil. Trans. R. Soc. A 2009
 367, 4361-4383 doi: 10.1098/rsta.2009.0120

ধারণার সংক্ষিপ্ত সংস্করণ (বিশদটির জন্য এখনও কাগজটি পড়ুন) হ'ল আপনি নাল বিতরণ থেকে ডেটা উত্পন্ন করেন এবং বেশ কয়েকটি প্লট তৈরি করেন যার মধ্যে একটি আসল / আসল তথ্য এবং বাকীটি তাত্ত্বিক বিতরণ থেকে সিমুলেটেড হয়। তারপরে আপনি এমন প্লটগুলি এমন কাউকে (সম্ভবত নিজেরাই) উপস্থাপন করুন যা মূল ডেটা দেখেনি এবং দেখুন যে তারা আসল ডেটা নিতে পারে কিনা। যদি তারা প্রকৃত ডেটা সনাক্ত করতে না পারে তবে নালীর বিরুদ্ধে আপনার কাছে প্রমাণ নেই।

vis.testআর এর জন্য TeachingDemos প্যাকেজের মধ্যে ফাংশন এই পরীক্ষাটি একটি ফর্ম বাস্তবায়ন করতে সহায়তা করে।

এখানে একটি দ্রুত উদাহরণ। নীচের প্লটগুলির মধ্যে একটি হ'ল 10 ডিগ্রি স্বাধীনতা সহ বিতরণে 25 পয়েন্ট উত্পন্ন হয়, অন্য 8 টি একই গড় এবং বৈকল্পিকতা সহ একটি সাধারণ বিতরণ থেকে উত্পন্ন হয়।

এখানে চিত্র বর্ণনা লিখুন

vis.testএই চক্রান্ত নির্মিত এবং তারপর ফাংশন চাই যে কোন প্লট তারা মনে ভিন্ন এর, তারপর প্রক্রিয়া 2 আরো কয়েকবার (3 মোট) পুনরাবৃত্তি ব্যবহারকারী অনুরোধ জানানো হবে।


@ স্কট স্টাফর্ড, আমি উপরের প্লটের একটি অনুলিপি যুক্ত করেছি। এটি একটি কিউকিপ্লট ব্যবহার করে তবে ফাংশনটি হিস্টোগ্রাম জেনারেট করে বা ঘনত্বের প্লট তৈরি করতে পারে।
গ্রেগ স্নো

28

ক্রমবর্ধমান বিতরণ প্লটগুলি [ ম্যাটল্যাব , আর ] - যেখানে আপনি মূল্য সংখ্যার চেয়ে কম বা সমান হিসাবে ডেটা ভ্যালুর ভগ্নাংশ প্লট করেন - অনুগত অভিজ্ঞতাগুলির বিতরণকে দেখার জন্য সর্বোত্তম উপায়। এখানে উদাহরণস্বরূপ, আরে উত্পাদিত এই ডেটার ইসিডিএফ রয়েছে :

অ্যালিস, ব্রায়ান, ক্রিস এবং জো এর ইসিডিএফ প্লট

এটি নিম্নলিখিত আর ইনপুট (উপরের ডেটা সহ) দিয়ে উত্পন্ন করা যেতে পারে:

plot(ecdf(Annie),xlim=c(min(Zoe),max(Annie)),col="red",main="ECDFs")
lines(ecdf(Brian),col="blue")
lines(ecdf(Chris),col="green")
lines(ecdf(Zoe),col="orange")

আপনি দেখতে পাচ্ছেন, এটি দৃশ্যত স্পষ্ট যে এই চারটি বিতরণ কেবল একে অপরের অনুবাদ। সাধারণভাবে, উপাত্তের অভিজ্ঞতাগত বিতরণের দৃশ্য দেখার জন্য ইসিডিএফগুলির সুবিধাগুলি হ'ল:

  1. তারা কেবল তথ্য উপস্থাপন করে কারণ এটি জমে ছাড়া অন্য কোনও রূপান্তরের সাথে ঘটে না, সুতরাং হিস্টোগ্রাম এবং কার্নেলের ঘনত্বের প্রাক্কলনগুলির সাথে হঠাৎ করে নিজেকে ফাঁকি দেওয়ার কোনও সম্ভাবনা নেই, কারণ আপনি কীভাবে ডেটা প্রক্রিয়াকরণ করছেন।
  2. প্রতিটি পয়েন্ট এর আগে এবং পরে সমস্ত ডেটা দ্বারা ডেফার করা হওয়ার কারণে তারা ডেটা বিতরণের স্পষ্ট দৃষ্টিভঙ্গি দেয় sense এটিকে তুলনামূলকভাবে অ-ঘনত্বের ঘনত্বের ভিজ্যুয়ালাইজেশনের সাথে তুলনা করুন, যেখানে প্রতিটি ঘনত্বের যথার্থতা প্রাকৃতিকভাবেই বিরক্ত হয় না, এবং সুতরাং বিনিং (হিস্টোগ্রাম) বা স্মুথিং (কেডিএ) দ্বারা অনুমান করা উচিত।
  3. ডেটা কোনও দুর্দান্ত প্যারামেট্রিক বিতরণ, কিছু মিশ্রণ, বা অগোছালো নন-প্যারাম্যাট্রিক বিতরণ অনুসরণ করে কিনা তা নির্বিশেষে তারা সমানভাবে কাজ করে।

একমাত্র কৌশলটি কীভাবে ইসিডিএফগুলি সঠিকভাবে পড়তে হয় তা শিখছে: অগভীর opালু অঞ্চলগুলি বিচ্ছিন্ন বিতরণ, খাড়া opালু অঞ্চলগুলির অর্থ ঘন বন্টন। আপনি একবার সেগুলি পড়ার ঝাঁকুনি পেয়ে গেলেও, তারা অভিজ্ঞতাजनিত ডেটার বিতরণ দেখার জন্য দুর্দান্ত সরঞ্জাম।


সিডিএফ পড়ার জন্য কি কোনও দলিল আছে? উদাহরণস্বরূপ কী যদি আপনার মতো আমার সিডিএফ বিতরণ উপরে দেখানো থাকে তবে আমরা কীভাবে শ্রেণিবদ্ধ করতে পারি - এটি অনুমান করতে পারি চিক্সওয়ার, সাধারণ বা
বর্ণের

2

পরামর্শ: হিস্টোগ্রামগুলি সাধারণত বিনের মাঝামাঝি সময়ে ঘটে যাওয়া এক্স-অক্ষের ডেটা নির্ধারণ করে এবং বৃহত্তর যথার্থতার অবস্থানের এক্স-অক্ষগুলি বাদ দেয়। এটি ফিটের ডেরাইভেটিভগুলির উপর প্রভাবটি বেশ বড় হতে পারে। আসুন আমরা একটি তুচ্ছ উদাহরণ ধরি। মনে করুন আমরা একটি ডায়রাক ব-দ্বীপের ধ্রুপদী বিকাশ নিয়েছি তবে এটিকে সংশোধন করতে পারি যাতে আমরা সীমাবদ্ধ স্কেল (পূর্ণ প্রস্থের অর্ধ-সর্বাধিক) দিয়ে কিছু স্বেচ্ছাসেবী মধ্যস্থত্রে কাউচি বিতরণ শুরু করি। স্কেল শূন্যের দিকে যাওয়ার পরে আমরা সীমাটি নিয়ে থাকি। যদি আমরা কোনও হিস্টগ্রামের শাস্ত্রীয় সংজ্ঞা ব্যবহার করি এবং বিন আকার পরিবর্তন না করি আমরা অবস্থান বা স্কেল উভয়ই ক্যাপচার করব না। তবে, আমরা যদি স্থির প্রস্থের এমনকি দুটির মধ্যে একটি মধ্যবর্তী অবস্থান ব্যবহার করি তবে আমরা সর্বদা অবস্থানটি ক্যাপচার করব, স্কেলটি বিন প্রশস্ততার সাথে সামান্য যখন আপেক্ষিক হয় তখন not

মানানসই মানগুলির জন্য যেখানে ডেটা স্কিউ করা হয়েছে, ফিক্সড বিন মিডপয়েন্টগুলি ব্যবহার করে এক্স-অক্ষগুলি সেই অঞ্চলে পুরো বক্ররেগমেন্টটি সরিয়ে ফেলবে, যা আমি বিশ্বাস করি যে উপরের প্রশ্নের সাথে সম্পর্কিত।

পদক্ষেপ 1 মজার হিস্টোএখানে প্রায় সমাধান রয়েছে। আমি ব্যবহার করেছিn=8প্রতিটি হিস্টগ্রাম বিভাগে এবং প্রতিটি বিন থেকে কেবলমাত্র অক্ষ-অক্ষ হিসাবে এটি প্রদর্শিত হয়। যেহেতু প্রতিটি হিস্টোগাম বিনের 8 টির মান থাকে তাই বিতরণগুলি সমস্ত অভিন্ন দেখায় এবং এগুলি দেখানোর জন্য আমাকে তাদের উল্লম্বভাবে অফসেট করতে হয়েছিল। প্রদর্শনটি সঠিক উত্তর নয়, তবে এটি তথ্য ছাড়াই নয়। এটি সঠিকভাবে আমাদের জানায় যে গ্রুপগুলির মধ্যে একটি এক্স-অক্ষ রয়েছে। এটি আমাদের জানায় যে প্রকৃত বিতরণটি কিছুটা ইউ আকারের আকার ধারণ করে। কেন? নোট করুন যে গড় মানের মধ্যে দূরত্ব কেন্দ্রগুলিতে আরও পৃথক এবং প্রান্তে কাছাকাছি রয়েছে। সুতরাং, এটি আরও ভাল উপস্থাপনা করার জন্য, আমাদের প্রতিটি বিন সীমানা নমুনার সম্পূর্ণ নমুনা এবং ভগ্নাংশ পরিমাণ ধার করতে হবে যাতে এক্স-অক্ষ সমতুল্যভাবে সমস্ত গড় বিন মান তৈরি করা যায়। এটি ঠিক করা এবং এটি সঠিকভাবে প্রদর্শনের জন্য কিছুটা প্রোগ্রামিং দরকার। কিন্তু, এটি হিস্টোগ্রামগুলি তৈরি করার একটি উপায় হতে পারে যাতে তারা প্রকৃতপক্ষে কিছু যৌক্তিক বিন্যাসে অন্তর্নিহিত ডেটা প্রদর্শন করে। আমরা যদি তথ্যের পরিসীমা জুড়ে থাকা মোট বিনয়ের সংখ্যাটি পরিবর্তন করি তবে আকারটি এখনও পরিবর্তিত হবে, তবে ধারণাটি নির্বিচারে বিন্নে তৈরি করা কিছু সমস্যার সমাধান করা।

পদক্ষেপ 2 সুতরাং আসুন উপায় আরও সমানভাবে ব্যবধানে করার চেষ্টা করার জন্য বিনয়ের মধ্যে ধার নেওয়া শুরু করি।এখানে চিত্র বর্ণনা লিখুন

এখন, আমরা হিস্টোগ্রামগুলির আকারটি উত্থিত হতে শুরু করতে দেখতে পাচ্ছি। তবে মাধ্যমের মধ্যে পার্থক্য নিখুঁত নয় কারণ আমাদের কাছে কেবল বিনের মধ্যে অদলবদল করার জন্য পুরো সংখ্যা রয়েছে। Y- অক্ষের সাথে পূর্ণসংখ্যার মানগুলির সীমাবদ্ধতা দূর করতে এবং এক্স-অক্ষ অক্ষের গড় মানগুলি তৈরির প্রক্রিয়াটি সম্পূর্ণ করতে, আমাদের বিনয়ের মধ্যে একটি নমুনার ভগ্নাংশ ভাগ করতে হবে।

পদক্ষেপ 3 মান এবং মানগুলির অংশীদারি। histo3

যেমনটি দেখতে পাচ্ছে, বিন সীমানায় একটি মান অংশ ভাগ করে নেওয়া মানে গড় মানের মধ্যে দূরত্বের অভিন্নতা উন্নত করতে পারে। আমি প্রদত্ত ডেটা সহ তিনটি দশমিক স্থানে এটি করতে পরিচালিত হয়েছি। তবে, কেউ মনে করতে পারে না, গড় মূল্যগুলির মধ্যে দূরত্বকে সাধারণভাবে ঠিক সমান করতে পারে, কারণ তথ্যের খাঁটিতা এটির অনুমতি দেয় না।

তবে, কার্নেলের ঘনত্বের প্রাক্কলন ব্যবহারের মতো অন্য কিছু করা যায় ।

এখানে আমরা এ্যানির ডেটাটি 0.1, 0.2 এবং 0.4 এর গাউসীয় মসৃণ ব্যবহার করে একটি আবদ্ধ কার্নেল ঘনত্ব হিসাবে দেখি। অন্যান্য বিষয়গুলি একই ধরণের ফাংশনগুলি স্থানান্তরিত করবে, শর্ত দেওয়া যে কোনও একটি যেমন আমার মতো কাজ করে, যথা প্রতিটি ডাটা সেটের নিম্ন এবং উপরের সীমা ব্যবহার করে। সুতরাং, এটি আর কোনও হিস্টগ্রাম নয়, তবে একটি পিডিএফ, এবং এটি কোনও ওয়ার্ট ছাড়াই হিস্টোগ্রামের মতো একই ভূমিকা পালন করে।

kernelsmooth

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.