আমরা সাধারণত জানি এটা অসম্ভব জন্য একটি পরিবর্তনশীল করা ঠিক স্বাভাবিকভাবে বিতরণ ...
সাধারণ বন্টন উভয় দিকেই বিস্তৃত দীর্ঘ লেজ থাকে - তথ্যের পক্ষে এই চূড়ান্ত দিক থেকে দূরে থাকা অসম্ভব, তবে সত্যিকারের সাধারণ বিতরণের জন্য এটি শারীরিকভাবে সম্ভব হতে পারে। যুগ যুগ ধরে, সাধারণত বিতরণ করা একটি মডেল ভবিষ্যদ্বাণী করবে যে গড়ের উপরে বা তার নীচে 5 স্ট্যান্ডার্ড বিচ্যুতি থাকা ডেটাগুলির একটি অ-শূন্য সম্ভাবনা রয়েছে - যা শারীরিকভাবে অসম্ভব বয়সের সাথে সামঞ্জস্য রাখে, যেমন 0 বা 150 এর উপরে। একটি জনসংখ্যা পিরামিড , এটা কেন আপনার বয়স এমনকি প্রায় স্বাভাবিকভাবে প্রথম স্থানে বিতরণ।) একইভাবে যদি আপনি উচ্চতা ডেটা, যা, intuitively আরো একটি "স্বাভাবিক মত" ডিস্ট্রিবিউশন অনুসরণ পারে ছিল বলে আশা করা হবে পরিষ্কার না, এটি শুধুমাত্র হতে পারে সত্যিই 0 সেন্টিমিটার নীচে বা 300 সেন্টিমিটারের উচ্চতার কিছুটা সম্ভাবনা থাকলে সাধারণ।
আমি মাঝে মধ্যে দেখেছি এটি পরামর্শ দিয়েছিল যে আমরা শূন্যের ডেটাকে কেন্দ্র করে এই সমস্যাটিকে এড়াতে পারি। সেভাবে ইতিবাচক এবং নেতিবাচক উভয়ই "কেন্দ্রিক বয়স" সম্ভব। তবে এটি উভয় নেতিবাচক মানকে শারীরিকভাবে প্রশ্রয়যোগ্য এবং ব্যাখ্যাযোগ্য করে তোলে (নেতিবাচক কেন্দ্রিক মানগুলি নীচের অংশে থাকা প্রকৃত মানগুলির সাথে মিল রাখে), এটি একবারে আপনি শূন্য-সম্ভাব্যতার সাথে শারীরিকভাবে অসম্ভব ভবিষ্যদ্বাণীগুলি উত্থাপিত করবে এমন বিষয়টি সামনে আসে না you মডেলিং "কেন্দ্রিক বয়স" একটি "বাস্তব বয়স" ফিরে।
... তাহলে পরীক্ষা কেন বিরক্ত করবেন? সঠিক না হলেও, স্বাভাবিকতা এখনও একটি দরকারী মডেল হতে পারে
গুরুত্বপূর্ণ প্রশ্নটি আসলে ডেটা ঠিক স্বাভাবিক কিনা - আমরা একটি প্রাইরিটি জানি যা বেশিরভাগ পরিস্থিতিতে এমনকি অনুমানের পরীক্ষা না চালিয়েও ঘটতে পারে না - তবে আপনার প্রয়োজনের জন্য অনুমানটি যথেষ্ট পর্যায়ে রয়েছে কিনা । প্রশ্নটি দেখুন কি স্বাভাবিকতা পরীক্ষা করা মূলত অকেজো? সাধারণ বিতরণ হ'ল বিভিন্ন উদ্দেশ্যে একটি সুবিধাজনক অনুমান। এটি খুব কমই "সঠিক" - তবে এটি সাধারণত কার্যকর হতে সঠিক হয় না। আমি প্রত্যাশা করতাম যে সাধারণ বিতরণটি সাধারণত মানুষের উচ্চতার জন্য একটি যুক্তিসঙ্গত মডেল হয়ে থাকে তবে মানুষের বয়সের একটি মডেল হিসাবে সাধারণ বিতরণের জন্য এটির জন্য আরও অস্বাভাবিক প্রসঙ্গের প্রয়োজন হবে।
যদি আপনি সত্যিই কোনও স্বাভাবিকতা পরীক্ষা করার প্রয়োজনীয়তা অনুভব করেন, তবে কোলমোগোরভ-স্মারনভ সম্ভবত সেরা বিকল্প নয়: মন্তব্যগুলিতে যেমন উল্লেখ করা হয়েছে, আরও শক্তিশালী পরীক্ষাগুলি পাওয়া যায়। শাপিরো-উইলকের সম্ভাব্য বিভিন্ন বিকল্পের বিপরীতে ভাল ক্ষমতা রয়েছে এবং এর সুবিধা রয়েছে যে আপনাকে আগে থেকে সত্যিকারের গড় এবং বৈচিত্রটি জানতে হবে না । তবে সাবধান থাকুন যে ছোট নমুনাগুলিতে, স্বাভাবিকতা থেকে সম্ভাব্য পরিমাণে বড় বিচ্যুতিগুলি এখনও সনাক্ত করা যেতে পারে, যদিও বড় নমুনাগুলিতে এমনকি খুব ছোট (এবং ব্যবহারিক উদ্দেশ্যে, অপ্রাসঙ্গিক) বিচ্যুতিগুলি "অত্যন্ত উল্লেখযোগ্য" হিসাবে প্রদর্শিত হতে পারে (লো পি) -value)।
"বেল-আকৃতির" অগত্যা স্বাভাবিক নয়
মনে হয় আপনাকে "বেল-আকৃতির" ডেটা - এমন একটি প্রতিসামগ্রী তথ্য যা মাঝামাঝি পিক হয় এবং যার লেজগুলিতে কম সম্ভাবনা থাকে - "সাধারণ" হিসাবে ভাবতে বলা হয়েছিল। তবে সাধারণ বিতরণকে এর শিখর এবং লেজগুলির জন্য একটি নির্দিষ্ট আকারের প্রয়োজন। প্রথম নজরে অনুরূপ আকারের সাথে অন্যান্য বিতরণ রয়েছে, যা আপনি "বেল-আকৃতির" হিসাবে চিহ্নিতও করতে পারেন, তবে এটি সাধারণ নয়। যদি আপনি প্রচুর ডেটা না পেয়ে থাকেন তবে আপনি এটি "আলাদা করে শেলফ বিতরণের মতো দেখায় তবে অন্যের মতো নয়" এটি আলাদা করে জানার সম্ভাবনা কম unlikely এবং যদি আপনি তথ্য একটি অনেক আছে না, আপনি সম্ভবত এটা দেখাচ্ছে না পাবেন বেশ একেবারেই কোনও "বন্ধ-বালুচর" ডিস্ট্রিবিউশন মত! তবে এক্ষেত্রে অনেক উদ্দেশ্যে আপনি '
সাধারন বন্টনের "বেল আকৃতি" আপনি করতে ব্যবহার করা হয় হয়; কোশি একটি জোচ্চোর শিখর এবং "গুরুতর" (অর্থাত তত বেশি! ধারণকারী) মুদ্রার উলটা পিঠ আছে; টি বন্টন স্বাধীনতার 5 ডিগ্রি দিয়ে মধ্যবর্তী কোথাও আসে (স্বাভাবিক টি দিয়ে অসীম df প্রয়োগ এবং কোশি হয় টি , 1 টি করে df সঙ্গে যাতে তোলে অর্থে); Laplace বা ডবল সূচকীয় বণ্টনের পিডিএফ দুই rescaled সূচকীয় ডিস্ট্রিবিউশন ব্যাক টু ব্যাক, সাধারন বন্টনের চেয়ে বেশি স্পষ্ট শিখর ফলে থেকে গঠিত হয়েছে; বিটা বিতরণএকেবারে আলাদা - এর কাছে লেজ নেই যা উদাহরণস্বরূপ অসীমের দিকে চলে যায়, পরিবর্তে তীক্ষ্ণ কাট-অফ রয়েছে - তবে এটি এখনও মাঝখানে "কুঁচক" আকার ধারণ করতে পারে। প্রকৃতপক্ষে পরামিতিগুলির সাথে খেলে আপনি এক ধরণের "স্কিউড হ্যাম্প", এমনকি একটি "ইউ" আকৃতিও অর্জন করতে পারেন - লিঙ্কযুক্ত উইকিপিডিয়া পৃষ্ঠার গ্যালারীটি বিতরণের নমনীয়তা সম্পর্কে যথেষ্ট শিক্ষণীয়। পরিশেষে, ত্রিভুজাকৃতির বিতরণ একটি সীমাবদ্ধ সমর্থনের আরও একটি সাধারণ বিতরণ, প্রায়শই ঝুঁকি মডেলিংয়ে ব্যবহৃত হয়।
সম্ভবত এই যে কোনও বিতরণই হুবহু আপনার ডেটা বর্ণনা করে না এবং অনুরূপ আকারযুক্ত আরও অনেক বিতরণ উপস্থিত রয়েছে তবে আমি এই ভুল ধারণাটি সমাধান করতে চেয়েছিলাম যে "মাঝখানে আবদ্ধ এবং মোটামুটি প্রতিসাম্য অর্থ স্বাভাবিক"। যেহেতু বয়সের ডেটাগুলিতে শারীরিক সীমাবদ্ধতা রয়েছে, যদি আপনার বয়সের ডেটা মাঝখানে "কুঁচকানো" হয় তবে এটি এখনও বিটা বা ত্রিভুজাকার বিতরণের মতো সসীম সমর্থন সহ একটি বিতরণ স্বাভাবিকের মতো অসীম লেজযুক্তগুলির চেয়ে ভাল মডেল হিসাবে প্রমাণিত হতে পারে। মনে রাখবেন যে আপনার ডেটা সত্যিই সাধারণভাবে বিতরণ করা হলেও, আপনার নমুনার আকার মোটামুটি বড় না হওয়া পর্যন্ত আপনার হিস্টগ্রামটি ক্লাসিক "বেল" এর মতো হওয়ার সম্ভাবনা কম। এমনকি ল্যাপ্লেসের মতো বিতরণকৃত একটি নমুনা, যার পিডিএফ তার ক্রপের কারণে স্বাভাবিকের থেকে স্পষ্টতই আলাদা
আর কোড
par(mfrow=c(3,2))
plot(dnorm, -3, 3, ylab="probability density", main="Normal(0,1)")
plot(function(x){dt(x, df=1)}, -3, 3, ylab="probability density", main="Cauchy")
plot(function(x){dt(x, df=5)}, -3, 3, ylab="probability density", main="t with 5 df")
plot(function(x){0.5*exp(-abs(x))}, -3, 3, ylab="probability density", main="Laplace(0,1)")
plot(function(x){dbeta(x, shape1=2, shape2=2)}, ylab="probability density", main="Beta(2,2)")
plot(function(x){1-0.5*abs(x)}, -1, 1, ylab="probability density", main="Triangular")
par(mfrow=c(3,2))
normalhist <- function(n) {hist(rnorm(n), main=paste("Normal sample, n =",n), xlab="x")}
laplacehist <- function(n) {hist(rexp(n)*(1 - 2*rbinom(n, 1, 0.5)), main=paste("Laplace sample, n =",n), xlab="x")}
# No random seed is set
# Re-run the code to see the variability in histograms you might expect from sample to sample
normalhist(50); laplacehist(50)
normalhist(100); laplacehist(100)
normalhist(200); laplacehist(200)