সম্ভবত আপনি কোনও অনুসন্ধানের সরঞ্জাম থেকে উপকৃত হবেন। এক্স স্থানাঙ্কের ডেস্কলালে ডেটা বিভক্ত করা সেই আত্মায় সম্পাদিত হয়েছে বলে মনে হয়। নীচে বর্ণিত পরিবর্তনগুলি সহ, এটি একটি দুর্দান্ত সূচনা fine
অনেক দ্বিখণ্ডিত অনুসন্ধান পদ্ধতি উদ্ভাবিত হয়েছে। জন টুকি ( ইডিএ , অ্যাডিসন-ওয়েসলি 1977) দ্বারা প্রস্তাবিত একটি সাধারণ যা হ'ল তার "ঘোরাঘুরির পরিকল্পনার প্লট"। আপনি এক্স-স্থানাঙ্ককে টুকরো টুকরো করে ফেলুন, প্রতিটি বিনের মাঝখানে সংশ্লিষ্ট y ডেটার একটি উল্লম্ব বক্সপ্লট খাড়া করুন এবং বাক্সপ্লটসের (মিডিয়ান, কব্জি ইত্যাদি) মূল অংশগুলি বক্ররেখায় সংযুক্ত করুন (allyচ্ছিকভাবে তাদের মসৃণ করুন)। এই "ঘোরাঘুরির চিহ্নগুলি" উপাত্তের দ্বিখণ্ডিত বিতরণের চিত্র সরবরাহ করে এবং অবিলম্বে পারস্পরিক সম্পর্ক, সম্পর্কের লাইনারিটি, বহিরাগতদের এবং প্রান্তিক বিতরণগুলির তত্ক্ষণাত ভিজ্যুয়াল মূল্যায়নের পাশাপাশি শক্তিশালী অনুমান এবং যেকোন ননরেখা রেজিস্ট্রেশন ফাংশনের যথার্থ মূল্যায়ন ।
এই ধারণায় টুকি বাক্সপ্লোট ধারণার সাথে সামঞ্জস্য রেখে এই চিন্তাকে যুক্ত করেছিলেন যে, ডেটা বন্টন তদন্তের একটি ভাল উপায় হল মাঝখানে শুরু করা এবং বাইরের দিকে কাজ করা, আপনি যতটা যান তত পরিমাণে অর্ধেক করে যান। অর্থাৎ ব্যবহার প্রয়োজন বিন সমানভাবে-ব্যবধানযুক্ত quantiles এ কাটা হতে হবে, কিন্তু এর পরিবর্তে বিন্দুতে quantiles প্রতিফলিত হওয়া উচিত এবং2- কে1 -2- কে জন্য কে = 1 , 2 , 3 , …।
পরিবর্তিত বিন জনসংখ্যা প্রদর্শন করতে আমরা প্রতিটি বক্সপ্লটের প্রস্থকে প্রতিনিধিত্ব করে এমন ডেটার পরিমাণের সাথে আনুপাতিক করে তুলতে পারি।
ফলস্বরূপ ঘোরাঘুরির স্কিম্যাটিক প্লটটি এরকম কিছু দেখায়। ডেটা সংক্ষিপ্তসার থেকে উন্নত হিসাবে ডেটা পটভূমিতে ধূসর বিন্দু হিসাবে দেখানো হয়। এর উপরে পাঁচটি বর্ণের রঙ এবং বক্সপ্লটগুলি (যে কোনও বহিরাগতকে দেখানো হয়েছে) কালো এবং সাদা রঙের সাথে ভ্রমন স্কিম্যাটিক প্লটটি অঙ্কিত হয়েছে।
কাছাকাছি-শূন্য সম্পর্কের প্রকৃতি তাত্ক্ষণিকভাবে পরিষ্কার হয়ে যায়: চারদিকে ডেটা পাকিয়ে দেয়। তাদের কেন্দ্রের কাছাকাছি, থেকে শুরু করেx = - 4 প্রতি x = 4, তাদের একটি দৃ positive় ইতিবাচক পারস্পরিক সম্পর্ক রয়েছে। চূড়ান্ত মানগুলিতে, এই ডেটাগুলি বক্ররেখার সম্পর্কগুলি প্রদর্শন করে যা পুরোপুরি নেতিবাচক থাকে। নেট পারস্পরিক সম্পর্ক সহগ (যা ঘটে তা ঘটে)- 0.074এই তথ্যগুলির জন্য) শূন্যের কাছাকাছি। যাইহোক, "প্রায় কোনও সম্পর্ক নেই" বা "উল্লেখযোগ্য তবে নিম্ন সম্পর্কের" হিসাবে ব্যাখ্যা করার উপর জোর দেওয়া একই রকম ত্রুটি হবে যে আইসবক্সে চুলা ও পায়ে মাথা রেখে খুশি ছিলেন বলে পরিসংখ্যানবিদ সম্পর্কে পুরাতন রসিকতাতে কারণ একই সাথে তাপমাত্রা আরামদায়ক ছিল। কখনও কখনও একক সংখ্যা পরিস্থিতি বর্ণনা করতে পারে না।
অনুরূপ উদ্দেশ্যে বিকল্প অনুসন্ধানের সরঞ্জামগুলির মধ্যে ডেটাগুলির উইন্ডোড কোয়ান্টাইলগুলির শক্ত মসৃণতা এবং বিভিন্ন পরিমাণে কোয়ান্টাইল ব্যবহার করে কোয়ান্টাইল রিগ্রেশনগুলির ফিট রয়েছে fits এই গণনাগুলি সম্পাদন করার জন্য সফ্টওয়্যারটির প্রস্তুত প্রাপ্যতার সাথে তারা সম্ভবত ঘোরাঘুরির স্কিম্যাটিক ট্রেসের চেয়ে কার্যকর করা সহজ হয়ে গেছে, তবে তারা নির্মাণের সহজ সরলতা, ব্যাখ্যা সহজেই এবং ব্যাপক প্রয়োগযোগ্যতা উপভোগ করে না।
নিম্নলিখিত R
কোডটি চিত্রটি তৈরি করেছে এবং সামান্য বা কোনও পরিবর্তন ছাড়াই মূল ডেটাতে প্রয়োগ করা যেতে পারে। (প্রদত্ত সতর্কবাণীগুলি উপেক্ষা করুন (দ্বারা bplt
ডাকা bxp
): এটির কোনও বিদেশী না থাকলে এটি অভিযোগ করে ))
#
# Data
#
set.seed(17)
n <- 1449
x <- sort(rnorm(n, 0, 4))
s <- spline(quantile(x, seq(0,1,1/10)), c(0,.03,-.6,.5,-.1,.6,1.2,.7,1.4,.1,.6),
xout=x, method="natural")
#plot(s, type="l")
e <- rnorm(length(x), sd=1)
y <- s$y + e # ($ interferes with MathJax processing on SE)
#
# Calculations
#
q <- 2^(-(2:floor(log(n/10, 2))))
q <- c(rev(q), 1/2, 1-q)
n.bins <- length(q)+1
bins <- cut(x, quantile(x, probs = c(0,q,1)))
x.binmed <- by(x, bins, median)
x.bincount <- by(x, bins, length)
x.bincount.max <- max(x.bincount)
x.delta <- diff(range(x))
cor(x,y)
#
# Plot
#
par(mfrow=c(1,1))
b <- boxplot(y ~ bins, varwidth=TRUE, plot=FALSE)
plot(x,y, pch=19, col="#00000010",
main="Wandering schematic plot", xlab="X", ylab="Y")
for (i in 1:n.bins) {
invisible(bxp(list(stats=b$stats[,i, drop=FALSE],
n=b$n[i],
conf=b$conf[,i, drop=FALSE],
out=b$out[b$group==i],
group=1,
names=b$names[i]), add=TRUE,
boxwex=2*x.delta*x.bincount[i]/x.bincount.max/n.bins,
at=x.binmed[i]))
}
colors <- hsv(seq(2/6, 1, 1/6), 3/4, 5/6)
temp <- sapply(1:5, function(i) lines(spline(x.binmed, b$stats[i,],
method="natural"), col=colors[i], lwd=2))