যদি আমার হিস্টগ্রামটি বেল-আকৃতির বক্ররেখা দেখায়, আমি কি বলতে পারি যে আমার ডেটা সাধারণত বিতরণ করা হয়?

আমি প্রতিক্রিয়াশীল বয়সের জন্য একটি হিস্টগ্রাম তৈরি করেছি এবং খুব সুন্দর বেল-আকৃতির বক্ররেখাটি পরিচালনা করতে সক্ষম হয়েছি, এখান থেকে আমি সিদ্ধান্তে পৌঁছেছি যে বিতরণটি স্বাভাবিক।

তারপরে আমি এসপিএসএস-এ স্বাভাবিকতা পরীক্ষা করেছি, এন = 169 দিয়ে । কোলমোগোরভ-স্মারনভ পরীক্ষার পি- ভ্যালু (সিগ।) 0.05 এর চেয়ে কম এবং সুতরাং ডেটা স্বাভাবিকতা অনুমানের লঙ্ঘন করেছে।

পরীক্ষাটি কেন ইঙ্গিত দেয় যে বয়সের বিতরণ স্বাভাবিক নয়, তবে হিস্টগ্রামটি বেল-আকৃতির বক্ররেখা দেখিয়েছিল, যা আমার বোঝা থেকে স্বাভাবিক? আমার কোন ফলাফলটি অনুসরণ করা উচিত?

— NoraNorad
সূত্র

আপনি কেন স্বাভাবিকতা পরীক্ষা করছেন?

— গ্লেন_বি -রিনস্টেট মনিকা

@ গ্লেন_ বি এর দুর্দান্ত মন্তব্য এবং আকসকলের সমানভাবে দুর্দান্ত উত্তর ছাড়াও , নোট করুন যে অবিচ্ছিন্ন বিতরণের জন্যও, কেএসের প্রয়োজন এবং উপাত্তটি অনুমান করা না থেকে, এসডিটি আগে থেকেই জানা উচিত । এটি মূলত কেএস পরীক্ষাটি অকেজো করে তোলে। "কলমোগোরভ-স্মারনভ পরীক্ষাটি কেবল একটি curতিহাসিক কৌতূহল। এটি কখনও ব্যবহার করা উচিত নয়।" (ডি'গোস্টিনো ইন ডি'গোস্টিনো এবং স্টিফেনস, সংস্করণ, 1986)। যদি কিছু হয় তবে পরিবর্তে শাপিরো-উইলকস ব্যবহার করুন।

— স্টিফান কোলাসা

@ স্টেফান কোলাছা ভাল পরামর্শ, তবে আপনার মানে শাপিরো-উইলক। (এমবি উইলক এবং এসএস উইলকের পরামর্শগুলি প্রায়শই বিভ্রান্ত বা বিভ্রান্ত হয়; এখানে ইংরেজিতে অধিকারী হিসাবে অদ্ভুত ব্যবহারগুলি বিভ্রান্তির কারণ হতে পারে, এমনকি যারা তাদের প্রথম ভাষা ইংরেজী রয়েছে তাদের জন্যও)

— নিক কক্স ১

@ স্টেফানকোলাসা এর মন্তব্যের সাথে সম্পর্কিত, দেখুন শাপিরো-উইলক সেরা নরমাল্টি টেস্ট? ... উত্তরটি হ'ল এটি আপনার প্রয়োজনীয় বিকল্পের উপর নির্ভর করে প্রয়োজনীয় নয়, তবে এটি প্রায়শই ভাল পছন্দ is

— সিলভারফিশ

উত্তর:

আমরা সাধারণত জানি এটা অসম্ভব জন্য একটি পরিবর্তনশীল করা ঠিক স্বাভাবিকভাবে বিতরণ ...

সাধারণ বন্টন উভয় দিকেই বিস্তৃত দীর্ঘ লেজ থাকে - তথ্যের পক্ষে এই চূড়ান্ত দিক থেকে দূরে থাকা অসম্ভব, তবে সত্যিকারের সাধারণ বিতরণের জন্য এটি শারীরিকভাবে সম্ভব হতে পারে। যুগ যুগ ধরে, সাধারণত বিতরণ করা একটি মডেল ভবিষ্যদ্বাণী করবে যে গড়ের উপরে বা তার নীচে 5 স্ট্যান্ডার্ড বিচ্যুতি থাকা ডেটাগুলির একটি অ-শূন্য সম্ভাবনা রয়েছে - যা শারীরিকভাবে অসম্ভব বয়সের সাথে সামঞ্জস্য রাখে, যেমন 0 বা 150 এর উপরে। একটি জনসংখ্যা পিরামিড , এটা কেন আপনার বয়স এমনকি প্রায় স্বাভাবিকভাবে প্রথম স্থানে বিতরণ।) একইভাবে যদি আপনি উচ্চতা ডেটা, যা, intuitively আরো একটি "স্বাভাবিক মত" ডিস্ট্রিবিউশন অনুসরণ পারে ছিল বলে আশা করা হবে পরিষ্কার না, এটি শুধুমাত্র হতে পারে সত্যিই 0 সেন্টিমিটার নীচে বা 300 সেন্টিমিটারের উচ্চতার কিছুটা সম্ভাবনা থাকলে সাধারণ।

আমি মাঝে মধ্যে দেখেছি এটি পরামর্শ দিয়েছিল যে আমরা শূন্যের ডেটাকে কেন্দ্র করে এই সমস্যাটিকে এড়াতে পারি। সেভাবে ইতিবাচক এবং নেতিবাচক উভয়ই "কেন্দ্রিক বয়স" সম্ভব। তবে এটি উভয় নেতিবাচক মানকে শারীরিকভাবে প্রশ্রয়যোগ্য এবং ব্যাখ্যাযোগ্য করে তোলে (নেতিবাচক কেন্দ্রিক মানগুলি নীচের অংশে থাকা প্রকৃত মানগুলির সাথে মিল রাখে), এটি একবারে আপনি শূন্য-সম্ভাব্যতার সাথে শারীরিকভাবে অসম্ভব ভবিষ্যদ্বাণীগুলি উত্থাপিত করবে এমন বিষয়টি সামনে আসে না you মডেলিং "কেন্দ্রিক বয়স" একটি "বাস্তব বয়স" ফিরে।

... তাহলে পরীক্ষা কেন বিরক্ত করবেন? সঠিক না হলেও, স্বাভাবিকতা এখনও একটি দরকারী মডেল হতে পারে

গুরুত্বপূর্ণ প্রশ্নটি আসলে ডেটা ঠিক স্বাভাবিক কিনা - আমরা একটি প্রাইরিটি জানি যা বেশিরভাগ পরিস্থিতিতে এমনকি অনুমানের পরীক্ষা না চালিয়েও ঘটতে পারে না - তবে আপনার প্রয়োজনের জন্য অনুমানটি যথেষ্ট পর্যায়ে রয়েছে কিনা । প্রশ্নটি দেখুন কি স্বাভাবিকতা পরীক্ষা করা মূলত অকেজো? সাধারণ বিতরণ হ'ল বিভিন্ন উদ্দেশ্যে একটি সুবিধাজনক অনুমান। এটি খুব কমই "সঠিক" - তবে এটি সাধারণত কার্যকর হতে সঠিক হয় না। আমি প্রত্যাশা করতাম যে সাধারণ বিতরণটি সাধারণত মানুষের উচ্চতার জন্য একটি যুক্তিসঙ্গত মডেল হয়ে থাকে তবে মানুষের বয়সের একটি মডেল হিসাবে সাধারণ বিতরণের জন্য এটির জন্য আরও অস্বাভাবিক প্রসঙ্গের প্রয়োজন হবে।

যদি আপনি সত্যিই কোনও স্বাভাবিকতা পরীক্ষা করার প্রয়োজনীয়তা অনুভব করেন, তবে কোলমোগোরভ-স্মারনভ সম্ভবত সেরা বিকল্প নয়: মন্তব্যগুলিতে যেমন উল্লেখ করা হয়েছে, আরও শক্তিশালী পরীক্ষাগুলি পাওয়া যায়। শাপিরো-উইলকের সম্ভাব্য বিভিন্ন বিকল্পের বিপরীতে ভাল ক্ষমতা রয়েছে এবং এর সুবিধা রয়েছে যে আপনাকে আগে থেকে সত্যিকারের গড় এবং বৈচিত্রটি জানতে হবে না । তবে সাবধান থাকুন যে ছোট নমুনাগুলিতে, স্বাভাবিকতা থেকে সম্ভাব্য পরিমাণে বড় বিচ্যুতিগুলি এখনও সনাক্ত করা যেতে পারে, যদিও বড় নমুনাগুলিতে এমনকি খুব ছোট (এবং ব্যবহারিক উদ্দেশ্যে, অপ্রাসঙ্গিক) বিচ্যুতিগুলি "অত্যন্ত উল্লেখযোগ্য" হিসাবে প্রদর্শিত হতে পারে (লো পি) -value)।

"বেল-আকৃতির" অগত্যা স্বাভাবিক নয়

মনে হয় আপনাকে "বেল-আকৃতির" ডেটা - এমন একটি প্রতিসামগ্রী তথ্য যা মাঝামাঝি পিক হয় এবং যার লেজগুলিতে কম সম্ভাবনা থাকে - "সাধারণ" হিসাবে ভাবতে বলা হয়েছিল। তবে সাধারণ বিতরণকে এর শিখর এবং লেজগুলির জন্য একটি নির্দিষ্ট আকারের প্রয়োজন। প্রথম নজরে অনুরূপ আকারের সাথে অন্যান্য বিতরণ রয়েছে, যা আপনি "বেল-আকৃতির" হিসাবে চিহ্নিতও করতে পারেন, তবে এটি সাধারণ নয়। যদি আপনি প্রচুর ডেটা না পেয়ে থাকেন তবে আপনি এটি "আলাদা করে শেলফ বিতরণের মতো দেখায় তবে অন্যের মতো নয়" এটি আলাদা করে জানার সম্ভাবনা কম unlikely এবং যদি আপনি তথ্য একটি অনেক আছে না, আপনি সম্ভবত এটা দেখাচ্ছে না পাবেন বেশ একেবারেই কোনও "বন্ধ-বালুচর" ডিস্ট্রিবিউশন মত! তবে এক্ষেত্রে অনেক উদ্দেশ্যে আপনি '

"বেল শেপড" বিতরণগুলির গ্যালারী

সাধারন বন্টনের "বেল আকৃতি" আপনি করতে ব্যবহার করা হয় হয়; কোশি একটি জোচ্চোর শিখর এবং "গুরুতর" (অর্থাত তত বেশি! ধারণকারী) মুদ্রার উলটা পিঠ আছে; টি বন্টন স্বাধীনতার 5 ডিগ্রি দিয়ে মধ্যবর্তী কোথাও আসে (স্বাভাবিক টি দিয়ে অসীম df প্রয়োগ এবং কোশি হয় টি , 1 টি করে df সঙ্গে যাতে তোলে অর্থে); Laplace বা ডবল সূচকীয় বণ্টনের পিডিএফ দুই rescaled সূচকীয় ডিস্ট্রিবিউশন ব্যাক টু ব্যাক, সাধারন বন্টনের চেয়ে বেশি স্পষ্ট শিখর ফলে থেকে গঠিত হয়েছে; বিটা বিতরণএকেবারে আলাদা - এর কাছে লেজ নেই যা উদাহরণস্বরূপ অসীমের দিকে চলে যায়, পরিবর্তে তীক্ষ্ণ কাট-অফ রয়েছে - তবে এটি এখনও মাঝখানে "কুঁচক" আকার ধারণ করতে পারে। প্রকৃতপক্ষে পরামিতিগুলির সাথে খেলে আপনি এক ধরণের "স্কিউড হ্যাম্প", এমনকি একটি "ইউ" আকৃতিও অর্জন করতে পারেন - লিঙ্কযুক্ত উইকিপিডিয়া পৃষ্ঠার গ্যালারীটি বিতরণের নমনীয়তা সম্পর্কে যথেষ্ট শিক্ষণীয়। পরিশেষে, ত্রিভুজাকৃতির বিতরণ একটি সীমাবদ্ধ সমর্থনের আরও একটি সাধারণ বিতরণ, প্রায়শই ঝুঁকি মডেলিংয়ে ব্যবহৃত হয়।

সম্ভবত এই যে কোনও বিতরণই হুবহু আপনার ডেটা বর্ণনা করে না এবং অনুরূপ আকারযুক্ত আরও অনেক বিতরণ উপস্থিত রয়েছে তবে আমি এই ভুল ধারণাটি সমাধান করতে চেয়েছিলাম যে "মাঝখানে আবদ্ধ এবং মোটামুটি প্রতিসাম্য অর্থ স্বাভাবিক"। যেহেতু বয়সের ডেটাগুলিতে শারীরিক সীমাবদ্ধতা রয়েছে, যদি আপনার বয়সের ডেটা মাঝখানে "কুঁচকানো" হয় তবে এটি এখনও বিটা বা ত্রিভুজাকার বিতরণের মতো সসীম সমর্থন সহ একটি বিতরণ স্বাভাবিকের মতো অসীম লেজযুক্তগুলির চেয়ে ভাল মডেল হিসাবে প্রমাণিত হতে পারে। মনে রাখবেন যে আপনার ডেটা সত্যিই সাধারণভাবে বিতরণ করা হলেও, আপনার নমুনার আকার মোটামুটি বড় না হওয়া পর্যন্ত আপনার হিস্টগ্রামটি ক্লাসিক "বেল" এর মতো হওয়ার সম্ভাবনা কম। এমনকি ল্যাপ্লেসের মতো বিতরণকৃত একটি নমুনা, যার পিডিএফ তার ক্রপের কারণে স্বাভাবিকের থেকে স্পষ্টতই আলাদা

বিভিন্ন নমুনা আকারের সাধারণ এবং ল্যাপ্লেস নমুনা

আর কোড

par(mfrow=c(3,2))
plot(dnorm, -3, 3, ylab="probability density", main="Normal(0,1)") 
plot(function(x){dt(x, df=1)}, -3, 3, ylab="probability density", main="Cauchy") 
plot(function(x){dt(x, df=5)}, -3, 3, ylab="probability density", main="t with 5 df") 
plot(function(x){0.5*exp(-abs(x))}, -3, 3, ylab="probability density", main="Laplace(0,1)") 
plot(function(x){dbeta(x, shape1=2, shape2=2)}, ylab="probability density", main="Beta(2,2)")
plot(function(x){1-0.5*abs(x)}, -1, 1, ylab="probability density", main="Triangular")

par(mfrow=c(3,2))
normalhist <- function(n) {hist(rnorm(n), main=paste("Normal sample, n =",n), xlab="x")}
laplacehist <- function(n) {hist(rexp(n)*(1 - 2*rbinom(n, 1, 0.5)), main=paste("Laplace sample, n =",n), xlab="x")}

# No random seed is set
# Re-run the code to see the variability in histograms you might expect from sample to sample
normalhist(50); laplacehist(50)
normalhist(100); laplacehist(100)
normalhist(200); laplacehist(200)

— Silverfish
সূত্র

বয়স সাধারণ বিতরণ থেকে হতে পারে না। যৌক্তিকভাবে চিন্তা করুন: আপনার নেতিবাচক বয়স থাকতে পারে না, তবুও সাধারণ বিতরণ নেতিবাচক সংখ্যার জন্য অনুমতি দেয়।

অনেকগুলি বেল-আকৃতির বিতরণ আছে। কোনও কিছু যদি বেল-আকারের দেখায় তবে এর অর্থ এই নয় যে এটি স্বাভাবিক হতে হবে।

কোন বিতরণ থেকে ডেটা আসে তা সহ পরিসংখ্যানগুলিতে নিশ্চিত কিছু জানার উপায় নেই। আকৃতিটি একটি সূত্র: বেল-আকৃতিটি সাধারণ বিতরণের জন্য একটি যুক্তি। এছাড়াও, আপনার ডেটা বোঝা খুব গুরুত্বপূর্ণ। বয়স হিসাবে পরিবর্তনশীল প্রায়শই স্কিউড হয়, যা স্বাভাবিকতা অস্বীকার করবে। উল্লিখিত হিসাবে সাধারণ বিতরণের কোনও সীমা নেই, তবে এটি কখনও কখনও বাউন্ডেড ভেরিয়েবলের জন্য ব্যবহৃত হয়। উদাহরণস্বরূপ, যদি গড় বয়স 20 বছর হয় এবং মান বিচ্যুতি 1 হয়, তবে বয়সের সম্ভাবনা <17 বা> 23% 0.3% এর চেয়ে কম। সুতরাং, এটা সম্ভব চেয়ে সাধারন বন্টনের একটি ভাল হতে পারে পড়তা ।

আপনি জার্কে-বেরার মতো স্বাভাবিকতার জন্য একটি পরিসংখ্যান পরীক্ষা চালানোর চেষ্টা করতে পারেন, যা নমুনার স্কিউনেস এবং কুর্তোসিসকে বিবেচনা করে। কার্টোসিস কিছু ক্ষেত্রে গুরুত্বপূর্ণ হতে পারে। এটি অর্থের ক্ষেত্রে খুব গুরুত্বপূর্ণ, কারণ আপনি যদি সাধারণ বিতরণ দিয়ে ডেটা মডেল করেন তবে তথ্যটি চর্বিযুক্ত লেজযুক্ত বিতরণ থেকে আসে, আপনি সম্পদের ঝুঁকি এবং দামকে অবমূল্যায়ন করতে পারেন।

এটি আপনাকে কিছু বর্ণনামূলক পরিসংখ্যান বা আপনার বয়স এবং উচ্চতার ডেটার যেমন হিস্টোগ্রাম, যেমন ভেরিয়েন্স, স্কিউনেস, কুর্তোসিসের প্রতিবেদন করতে সহায়তা করবে।

— Aksakal
সূত্র

আপনার সহায়তার জন্য আপনাকে ধন্যবাদ, আপনি কীভাবে আমাকে জানাতে পারেন যে নির্দিষ্ট তথ্যটি সাধারণ বিতরণ থেকে আসে উদাহরণস্বরূপ আপনার উত্তরে বলেছিলেন যে বয়স সাধারণ বন্টন থেকে হতে পারে না, উচ্চতার মতো অন্যান্য ডেটা সম্পর্কে কী করা উচিত i আমার কী মানদণ্ড হওয়া আবশ্যক? জানেন.i আমি এ সম্পর্কে আরও জানতে চাই কারণ মনে হয় যে আমি এই ধারণাটি ভুল বুঝি যেহেতু আমি এতে নতুন আছি। ধন্যবাদ আবার।

— নোরা نورাদ

তবুও, সাধারন বন্টনের প্রায়ই হয় একটি হিসাবে ব্যবহার পড়তা বয়স হিসাবে যেমন ভেরিয়েবল জন্য। এবং এটি আসলে কোনও সমস্যা নয় যেহেতু আপনি সংখ্যার বিচ্যুতি, ধনাত্মক এবং নেতিবাচক মানগুলির সাথে 0 হিসাবে গড় age_centredহিসাবে age - mean(age)আপনার একটি পরিবর্তনশীল রয়েছে have সুতরাং আমি এটি সম্পর্কে এত কঠোর হতে হবে না।

— টিম

আপনার পক্ষে মানুষের পক্ষে নেতিবাচক উচ্চতাও থাকতে পারে না তবে উচ্চতা বর্ণনা করতে আমার পক্ষে বাধা হয়ে দাঁড়াবে না যদি এটি যদি খুব ভাল হয় তবে এটি সাধারণত বিতরণ করা হয়। এই বিষয়টির জন্য, পরিমাপের জন্য সীমিত সীমার সাথে কোনও বিতরণ কেন কেবল সীমাবদ্ধ হতে পারে? যেমন @ টিম বলেছেন, এটি ডেটা এবং উদ্দেশ্য হিসাবে প্রদত্ত গ্রহণযোগ্যতার প্রায় সমস্ত বিষয়।

— নিক কক্স

আমি সম্মত হই যে মাঝে মধ্যে সীমিত ডেটাগুলির জন্য সাধারণ বিতরণ একটি ভাল অনুমান হতে পারে তবে ডেটাটি স্বাভাবিক থেকে আসে কিনা তা নিয়েই প্রশ্ন ছিল।

— আকসকল

উচ্চ বিদ্যালয়ের স্নাতক সিনিয়রদের বয়সটি সম্ভবত সাধারণত বিতরণ করা যেতে পারে এবং যদি @ টিম উল্লিখিত হিসাবে কেন্দ্রিক হয় তবে এটি নেতিবাচক মূল্যবোধ গ্রহণ করতে পারে।

— ui_90jax