অ-নেতিবাচক তথ্যগুলির স্ট্যান্ডার্ড বিচ্যুতি কি গড় ছাড়িয়ে যেতে পারে?


15

আমার কিছু ত্রিভুজযুক্ত 3 ডি মেস রয়েছে। ত্রিভুজ অঞ্চলের পরিসংখ্যানগুলি হ'ল:

  • সর্বনিম্ন 0.000
  • সর্বোচ্চ 2341.141
  • গড় 56.317
  • স্ট্যান্ড ডেভ 98.720

সুতরাং, স্ট্যান্ডার্ড বিচ্যুতি সম্পর্কে বিশেষভাবে কার্যকর কিছু বোঝা যাচ্ছে বা চিত্রগুলি উপরের মত কাজ করার সময় এটির গণনা করার ক্ষেত্রে বাগ রয়েছে কিনা তা বোঝায়? অঞ্চলগুলি সাধারণত বিতরণ করা খুব দূরে।

এবং কেউ যেমন নীচে তাদের প্রতিক্রিয়াগুলির একটিতে উল্লেখ করেছেন, জিনিসটি আমাকে সত্যিই অবাক করে দিয়েছিল যে এটি কেবলমাত্র সংখ্যাটি নেতিবাচক হওয়ার জন্য গড় থেকে একটি এসডি নিয়েছিল এবং এইভাবে আইনগত ডোমেনের বাইরে চলে গেল।

ধন্যবাদ


4
ডেটাসেটে নমুনা স্ট্যান্ডার্ড বিচ্যুতি 100 এবং গড় 52 হয় - আপনি যা পর্যবেক্ষণ করেন তার কাছাকাছি ব্যাখ্যা। {2,2,2,202}10052
হোবার

5
একটি পরিচিত (কারও কাছে) উদাহরণস্বরূপ, এক ঘন্টার জন্য কেউ ব্ল্যাকজ্যাক খেলার গড় ফলাফলটি negativeণাত্মক হতে পারে $ 25 তবে স্ট্যান্ডার্ড বিচ্যুতি সহ $ 100 বলতে (উদাহরণের জন্য সংখ্যা)। পরিবর্তনের এই বৃহত সহগ কারও পক্ষে তাদের ভাবনায় প্রতারিত হওয়া সহজ করে তোলে যে তারা সত্যের চেয়ে তার চেয়ে ভাল।
মাইকেল ম্যাকগোয়ান

ফলো-আপ প্রশ্ন বেশ তথ্যপূর্ণ, অত্যধিক: এটি উপর একটি সেট (নন-নেগেটিভ তথ্য) এর এসডি সীমা স্থাপন অর্থ দেওয়া হয়েছে।
শুক্র

উত্তর:


9

এমন কিছুই নেই যা বলে যে স্ট্যান্ডার্ড বিচ্যুতিটি গড়ের চেয়ে কম বা বেশি হতে হবে। ডেটার একটি সেট দেওয়া আপনি গড়টি একই রাখতে পারেন তবে একটি ধনাত্মক সংখ্যা যথাযথভাবে যোগ / বিয়োগ করে একটি স্বেচ্ছাসেবী ডিগ্রীতে স্ট্যান্ডার্ড বিচ্যুতি পরিবর্তন করতে পারেন ।

প্রশ্নটিতে তার মন্তব্য থেকে @ whuber এর উদাহরণ ডেটাসেট ব্যবহার করে: {2, 2, 2, 202}। @ হুবারের দ্বারা যেমনটি বলা হয়েছে: গড়টি 52 এবং স্ট্যান্ডার্ড বিচ্যুতিটি 100 হয়।

এখন, ডাটাগুলির প্রতিটি উপাদানকে নীচের মতো করে দেখুন: {22, 22, 22, 142}। গড় এখনও 52 কিন্তু মানক বিচ্যুতি 60


1
আপনি যদি প্রতিটি উপাদান যুক্ত করে থাকেন তবে আপনি অবস্থানের প্যারামিটারটি পরিবর্তন করুন । আপনি একটি স্কেল ফ্যাক্টর (আপনার গড়টি শূন্য হয় তবে শর্ত) দিয়ে গুণ করে বিচ্ছুরণ (অর্থাত্ আদর্শ বিচ্যুতি) পরিবর্তন করুন।
ডার্ক এডেলবুয়েটেল

নিবন্ধন করুন আমি উত্তরটি স্থির করেছি এবং স্বচ্ছতার জন্য একটি উদাহরণ সরবরাহ করেছি।
ভার্টি

2
আমি উদাহরণ অনুসরণ করি না। নতুন ডেটাসেট স্পষ্টত মূল থেকে প্রতিটি মূল থেকে "ইতিবাচক সংখ্যা যোগ বা বিয়োগ করে" মূল থেকে উদ্ভূত হয় না
whuber

3
আমি এটি সম্পাদনা করতে পারছি না কারণ আপনি কী বলতে চাইছেন তা আমি জানি না। আপনি ইচ্ছামত একটি ডেটাসেটে সংখ্যার প্রতিটি পৃথক মান যোগ করতে পারেন, তাহলে আপনি নিছক এক সেট পরিবর্তন করা হয় এর একটি সম্পূর্ণ ভিন্ন সেট মধ্যে মান এন মান। আমি দেখতে পাচ্ছি না যে এটি প্রশ্নের সাথে এমনকি আপনার খোলার অনুচ্ছেদের সাথে কীভাবে প্রাসঙ্গিক। আমি মনে করি যে কেউ এই মঞ্জুরি দেবে যে এই ধরনের পরিবর্তনগুলি গড় এবং এসডিগুলিকে পরিবর্তন করতে পারে, তবে এটি আমাদের জানায় না কেন একটি সংকেতসংক্রান্ত ডেটার সেটগুলির এসডি তার অর্থের কোনও ধনাত্মক একাধিক হতে পারে। nn
হোবার

2
আপনি ঠিক বলেছেন: উদ্ধৃত দাবীটি আমার এবং এটি আপনার উত্তরে প্রদর্শিত হবে না। (যদিও এটি সঠিক এবং প্রাসঙ্গিক হতে পারে: কত এসডি পরিবর্তন করা যাবে (যখন সমস্ত ডেটা অ নেতিবাচক পালন)? আমি অন্য যে বিষয়টি চেষ্টা করার চেষ্টা করেছি তা হ'ল আপনার উদাহরণটি ডেটাতে এমন পরিবর্তন করার কোনও সাধারণ, অনুমানযোগ্য প্রক্রিয়া চিত্রিত করে না। এটি এটিকে নির্বিচারে প্রদর্শিত করে তোলে, যা খুব বেশি সহায়ক হয় না।
হোবার

9

অবশ্যই, এগুলি স্বাধীন পরামিতি। আপনি আর এ সাধারণ অনুসন্ধান সেট করতে পারেন (বা অন্য কোনও সরঞ্জাম আপনি পছন্দ করতে পারেন)।

R> set.seed(42)     # fix RNG
R> x <- rnorm(1000) # one thousand N(0,1)
R> mean(x)          # and mean is near zero
[1] -0.0258244
R> sd(x)            # sd is near one
[1] 1.00252
R> sd(x * 100)      # scale to std.dev of 100
[1] 100.252
R> 

একইভাবে, আপনি প্রমিত গড় বিয়োগ এবং মানক চ্যুতির দ্বারা ভাগ ডেটা আপনি এ খুঁজছেন।

সম্পাদনা করুন এবং @ হুইবারের ধারণা অনুসরণ করে, এখানে ডেটা সেটগুলির একটি অসীম যা আপনার চারটি পরিমাপের কাছাকাছি আসে:

R> data <- c(0, 2341.141, rep(52, 545))
R> data.frame(min=min(data), max=max(data), sd=sd(data), mean=mean(data))
  min     max      sd    mean
1   0 2341.14 97.9059 56.0898
R> 

আমি নিশ্চিত না যে আমি আপনার বক্তব্যটি বুঝতে পেরেছি। এগুলি একেবারে স্বতন্ত্র নয় কারণ কোনও একটি ডেটা বিন্দুকে ঘেউ ঘেউ করে এর মাধ্যমে পরিবর্তনকে পরিবর্তন করতে পারে এবং এর ফলে মানক বিচ্যুতিও পরিবর্তিত হয়। আমি কি কিছু ভুল ব্যাখ্যা করেছি?
ভার্টি

উল্লেখ করে যে ত্রিভুজ অঞ্চলগুলি নেতিবাচক হতে পারে না (যেমন প্রশ্নটিতে উদ্ধৃত ন্যূনতম মান দ্বারা নিশ্চিত করা হয়েছে), কেউ কেবলমাত্র অ-নেতিবাচক সংখ্যার সমন্বিত উদাহরণের আশা করবেন।
হোবার

(+1) সম্পাদনা পুনরায়: 52.15 :-) এর 536 প্রতিলিপি ব্যবহার করার চেষ্টা করুন।
হোবার

দুর্দান্ত এক পুনরায় 536 reps। বাইনারি অনুসন্ধান করা উচিত ছিল :)
ডার্ক এডেলবুয়েটেল

@ ডার্ক "এগুলি স্বতন্ত্র পরামিতি", বার্নুইলি হলে কেসটি বিবেচনা করুন। বৈকল্পিক এবং গড় স্বতন্ত্র নয়: v a r ( X ) = p ( 1 - p ) । একটি এলোপাতাড়ি ভেরিয়েবলের বিবেচনা করুন 100 > এক্স > 0 , সর্বোচ্চ সম্ভব ভ্যারিয়েন্স হয় ( 50 ) 2 এখন যদি আপনি এক সমান হওয়ার অর্থ ফোর্স (অর্থাত কম 50 ) সর্বাধিক ভ্যারিয়েন্স তার চেয়ে অনেক বেশী হতে পারে না 99 / 100 * ( 1 ) 2 + (Xvar(X)=p(1p)100>X>0(50)250 । গাউসিয়ানদের চেয়ে প্রকৃতির সীমিত পরিবর্তনের আরও উদাহরণ রয়েছে? 99/100(1)2+(1/100)992
রবিন গিরার্ড

7

@ অ্যান্ডি এই ফলাফলটি দেখে কেন অবাক হয়েছেন তা আমি নিশ্চিত নই, তবে আমি জানি তিনি একা নন। তবুও আমি নিশ্চিত নই যে এসডিটি গড়ের চেয়ে বেশি। এটি সাধারণত এমনভাবে বিতরণ করা হয় এমন একটি ডেটা সেট উত্পন্ন করা সহজ; প্রকৃতপক্ষে, স্ট্যান্ডার্ড নর্মালটির গড় মান 0, এসডি 1 এর সাথে থাকে sd> গড় সহ সমস্ত ধনাত্মক মানগুলির একটি সাধারণভাবে বিতরণ করা ডেটা সেট পাওয়া শক্ত হবে; প্রকৃতপক্ষে, এটি সম্ভব হওয়া উচিত নয় (তবে এটি নমুনার আকার এবং আপনি খুব সাধারণ নমুনার সাথে কী সাধারণতার পরীক্ষা ব্যবহার করেন তার উপর নির্ভর করে) খুব অদ্ভুত জিনিস ঘটে)

যাইহোক, একবার আপনি অ্যানডির মতো স্বাভাবিকতার শর্তটি সরিয়ে ফেললে, এসডি বড় হওয়ার চেয়ে ছোট বা ছোট হওয়ার কোনও কারণ নেই, এমনকি সমস্ত ধনাত্মক মানের জন্যও। একক আউটলেটর এটি করবে। যেমন

x <- রানিফ (100, 1, 200) x <- সি (এক্স, 2000)

113 এবং 198 এর এসডি অর্থ দেয় (অবশ্যই বীজের উপর নির্ভর করে)।

তবে একটি বড় প্রশ্ন হ'ল এটি কেন মানুষকে অবাক করে।

আমি পরিসংখ্যান শেখাই না, তবে আমি ভাবছি যেভাবে পরিসংখ্যান শেখানো হয় সে সম্পর্কে কী এই ধারণাটিকে সাধারণ করে তোলে।


আমি পরিসংখ্যান কখনও পড়াশোনা করি নি, ইঞ্জিনিয়ারিং গণিতের কয়েকটি ইউনিট এবং এটি তিরিশ বছর আগে। কর্মস্থলে থাকা অন্য ব্যক্তিরা, যাকে আমি ডোমেনটি আরও ভালভাবে বুঝতে পেরেছি তারা "গড় থেকে দূরে অনেক সংখ্যক এসডি ডিভাইস" দ্বারা খারাপ ডেটা উপস্থাপনের বিষয়ে কথা বলছে। সুতরাং, এটি "শেখানো" থেকে "স্ট্যান্ড দেবের সাধারণত কীভাবে উল্লেখ করা হয়" সম্পর্কে আরও রয়েছে :-)
অ্যান্ডি ডেন্ট

@ অ্যান্ডিটি প্রচুর পরিমাণে গড় থেকে দূরে থাকার সহজ অর্থ হ'ল ভেরিয়েবলটি শূন্যের থেকে উল্লেখযোগ্যভাবে আলাদা নয়। তারপরে এটি প্রাসঙ্গিকের উপর নির্ভর করে (এটি ছিল এলোমেলো ভেরিয়েবলের অর্থ) তবে কোনও ক্ষেত্রে আপনি সেগুলি সরাতে চান?
রবিন গিরার্ড

@ পিটার আমার মন্তব্যে ডার্ক দেখুন, এটি কিছু প্রসঙ্গে "আশ্চর্য" ব্যাখ্যা করতে পারে। আসলে আমি কিছু সময়ের জন্য পরিসংখ্যান শিখিয়েছি এবং আপনি যে আশ্চর্য্যের কথা বলছেন তা আমি কখনও দেখিনি। যাইহোক, আমি এমন স্টুডিয়েন্টকে পছন্দ করি যা সমস্ত কিছু দেখে অবাক হয় আমি নিশ্চিত যে এটি একটি ভাল জ্ঞানবিজ্ঞানের অবস্থান (পুরোপুরি কোনও আশ্চর্যজনক অবস্থানকে মূর্ছা করার চেয়ে ভাল :))।
রবিন গিরার্ড

অ্যান্ডিডেন্ট "খারাপ" ডেটা, আমার কাছে, অর্থ এমন ডেটা যা ভুলভাবে রেকর্ড করা আছে। গড় থেকে দূরে থাকা ডেটা হ'ল বিদেশী। উদাহরণস্বরূপ, ধরুন আপনি জনগণের উচ্চতা পরিমাপ করছেন। যদি আপনি আমাকে পরিমাপ করেন এবং আমার উচ্চতা 5'7 এর পরিবর্তে 7'5 'হিসাবে রেকর্ড করেন তবে এটি খারাপ ডেটা। আপনি ইয়াও মিং পরিমাপ এবং একটি আউটলিয়ার যে কিন্তু খারাপ ডেটা না 7'5 "তার উচ্চতা, রেকর্ড আসলে তথাপি এটা গড় (6 এসডিএস ভালো কিছু) থেকে সুদূর যে করে।
পিটার Flom - পুনর্বহাল মনিকা

@ পিটার ফ্লর্ন, আমাদের ক্ষেত্রে আমাদের এমন আউটলিয়ার রয়েছে যা আমরা পরিত্রাণ পেতে চাই কারণ তারা ত্রিভুজগুলি উপস্থাপন করে যা জাল প্রক্রিয়াজাতকরণে অ্যালগোরিদমিক সমস্যা তৈরি করবে। এগুলি এমনকি আপনার দৃষ্টিতে "খারাপ ডেটা" হতে পারে যদি সেগুলি ত্রুটিযুক্ত স্ক্যানিং ডিভাইসগুলি দ্বারা তৈরি করা হয়েছিল বা অন্য ফর্ম্যাটগুলি থেকে রূপান্তর করা হয়েছে :-) অন্য আকারগুলিতে এমন বিদেশী থাকতে পারে যা বৈধভাবে মৈথুন থেকে অনেক দূরে তবে কোনও সমস্যার প্রতিনিধিত্ব না করে। এই ডেটা সম্পর্কে আরও আকর্ষণীয় বিষয়গুলির মধ্যে একটি হ'ল আমাদের উভয় প্রান্তে "খারাপ ডেটা" রয়েছে তবে ছোটগুলি গড় থেকে দূরে নয়।
অ্যান্ডি ডেন্ট

6

শুধু একটি জেনেরিক বিন্দু যোগ করেন যে, একটি ক্যালকুলাস দৃষ্টিকোণ থেকে, এবং এক্স 2( এক্স ) এক্স দ্বারা সম্পর্কিত হয় জেনসেন এর বৈষম্য অভিমানী উভয় ইন্টেগ্রাল বিদ্যমান, এক্স 2

xf(x)dx
x2f(x)dx
এই সাধারণ বৈষম্য দেওয়া, কিছুই ইচ্ছামত বড় হতে বাধা প্রতিরোধ করে। সাক্ষীস্টুডেন্টস টি বন্টনসঙ্গে ν স্বাধীন ডিগ্রীগুলির, এক্স ~ টি ( ν , μ , σ ) এবং নিতে ওয়াই = | এক্স |
x2f(x)dx{xf(x)dx}2.
ν
XT(ν,μ,σ)
Y=|X|যার দ্বিতীয় মুহূর্ত দ্বিতীয় মুহূর্ত হিসাবে একই , [ | এক্স | 2 ] = νX যখনν>2
E[|X|2]=νν2σ2+μ2,
ν>2 । সুতরাং এটি অনন্ত যায় যখন নিচে যায় 2 , যখন গড় ওয়াই সসীম যতদিন রয়ে ν > 1ν2Yν>1

1
দয়া করে প্রশ্নটির অব্যবহৃত মানগুলিতে স্পষ্ট সীমাবদ্ধতাটি নোট করুন ।
whuber

শিক্ষার্থীর উদাহরণ সহজে পরম-মান-এর একটি-Student's-টি-ডিস্ট্রিবিউশান উদাহরণ অনুদিত পরার ...
সিয়ান

1
তবে এটি অবশ্যই পরিবর্তন করে: অবশ্যই :-)। প্রশ্নটি এসডি এবং গড়ের (এর শিরোনামটি দেখুন) মধ্যকার সম্পর্ক নিয়ে উদ্বেগ প্রকাশ করে। আমি বলছি না আপনি ভুল করছেন; আমি কেবল (অন্তর্নিহিত) পরামর্শ দিচ্ছি যে আপনার উত্তরটি খুব কম কাজ করে আরও সরাসরি প্রশ্নটির সমাধান করতে পারে।
whuber

@ হুবহু: ঠিক আছে, আমি নিখুঁত মান বিবেচনা করতে উপরের সম্পাদনা করেছি (আমি পরম মানের অর্থটিও পেয়েছি তবে <a href = " অর্থটি অর্জন করেছি ceremade.dauphine.fr/~xian/meanabs.pdf"> এটি বরং বেআইনী </ / a> ...)
শি'ন

3

সম্ভবত ওপি আশ্চর্য হয়ে গেছে যে গড়টি - 1 এসডি একটি নেতিবাচক সংখ্যা (বিশেষত যেখানে সর্বনিম্ন 0 হয়)।

এখানে দুটি উদাহরণ যা স্পষ্ট করে দিতে পারে।

ধরা যাক আপনার 20 টি প্রথম গ্রেডারের ক্লাস রয়েছে, যেখানে 18 বছরের 6 বছর বয়সী, 1 টি 5 এবং 1 জন 7 Now এখন 49 বছর বয়সী শিক্ষককে যুক্ত করুন। গড় বয়স 8.0, যখন স্ট্যান্ডার্ড বিচ্যুতি 9.402।

আপনি ভাবছেন: এই শ্রেণীর জন্য একটি মানক বিচ্যুতি -1.402 থেকে 17.402 বছর অবধি। আপনি অবাক হতে পারেন যে এসডি একটি নেতিবাচক বয়স অন্তর্ভুক্ত, যা অযৌক্তিক বলে মনে হয়।

নেতিবাচক বয়স সম্পর্কে আপনাকে চিন্তা করতে হবে না (বা 3 ডি প্লটগুলি সর্বনিম্ন 0.0 এর চেয়ে কম প্রসারিত)। স্বজ্ঞাতভাবে, আপনার কাছে এখনও গড়ের 1 এসডির মধ্যে প্রায় দুই-তৃতীয়াংশের ডেটা রয়েছে। (আপনার কাছে গড়ের 2 এসডি-র মধ্যে 95% উপাত্ত রয়েছে))

যখন ডেটা একটি অ-স্বাভাবিক বিতরণ শুরু করে, আপনি এরকম বিস্ময়কর ফলাফল দেখতে পাবেন।

দ্বিতীয় উদাহরণ। ফুলড বাই র‌্যান্ডমনেস বইটিতে নাসিম তালেব ইনফিন্ট দৈর্ঘ্যের দেওয়ালে চোখের পাত্রে ধনুকের শুটিংয়ের চিন্তার পরীক্ষাটি স্থাপন করেছেন। তীরন্দাজটি +90 ডিগ্রি এবং -90 ডিগ্রির মধ্যে অঙ্কুর করতে পারে।

প্রতি একবারে একবার, তীরন্দাজ প্রাচীরের সাথে সমান্তরালভাবে তীরটি অঙ্কন করবে এবং এটি কখনও আঘাত করবে না। সংখ্যা বিতরণ হিসাবে তীর লক্ষ্যটিকে কতদূর মিস করে তা বিবেচনা করুন। এই দৃশ্যের জন্য স্ট্যান্ডার্ড বিচ্যুতি সূচিত হবে।


গড়ের 1 এসডি এর মধ্যে ডেটার প্রায় 2/3 নিয়মটি সাধারণ ডেটার জন্য। তবে শ্রেণিকক্ষের ডেটা পরিষ্কারভাবে অ-স্বাভাবিক (যদিও এটি ছোট নমুনার আকারের কারণে স্বাভাবিকতার জন্য কিছু পরীক্ষায় উত্তীর্ণ হয়)। তালেবের উদাহরণ ভয়াবহ। এটি ভেরিয়েবলের দুর্বল পরিচালনার উদাহরণ example হিসাবে নেওয়া হয়, উভয় গড় এবং এসডি অসীম হবে। তবে তা বাজে কথা। "তীরটি কতদূর মিস করে" - আমার কাছে, এটি একটি দূরত্ব। তীরটি, এটি যেভাবেই চালিত হয় তা কোথাও কোথাও নেমে আসবে। লক্ষ্য থেকে দূরত্বটি পরিমাপ করুন। আর কোনও অনন্ত নেই।
পিটার ফ্লুম - মনিকা পুনরায়

1
হ্যাঁ, প্রথম বারের মত ওপিতে আমি যথেষ্ট অবাক হয়েছি - 1 এসডি নেতিবাচক হয়ে গেছে যে আমি এক্সেল থেকে ডেটা ব্যবহার করে ইউনিট পরীক্ষাগুলির পুরো নতুন সেটটি লিখেছিলাম তা নিশ্চিত করার জন্য কমপক্ষে আমার অ্যালগরিদম একই মানগুলি গণনা করছে confirm কারণ এক্সেলকে কেবল একটি প্রামাণিক উত্স হতে হবে, তাই না?
অ্যান্ডি ডেন্ট

@ পিটার 2/3 বিধি (একটি 68-95-99.7% নিয়মের অংশ) বিপুল পরিমাণে ডেটাসেটের জন্য ভাল, তাদের মধ্যে অনেকগুলিই অ-সাধারণ এবং এমনকি সংমিতরূপে স্কিউযুক্তদের জন্যও ভাল। (নিয়মটি প্রতিসম ডেটসেটের জন্য বেশ ভাল)) এসডি এবং অর্থের চূড়ান্ততা "বোকামি" নয়। তালেবের উদাহরণ হ'ল কয়েকটি অ-স্বীকৃত পরিস্থিতিগুলির মধ্যে একটি যেখানে কাচ্চি বিতরণ স্পষ্টভাবে ডেটা-উত্পাদন প্রক্রিয়া পরিচালনা করে। এসডির অসামান্যতা প্রাচীর হারিয়ে যাওয়ার সম্ভাবনা থেকে পাওয়া যায় না তবে প্রকৃত হিট বিতরণ থেকে ঘটে।
whuber

1
@ তবে আমি আপনার প্রথম বিষয়টি সম্পর্কে অবগত ছিলাম, এটি একটি ভাল বিষয় one আমি আপনার দ্বিতীয় দফার তালেব সম্পর্কে একমত নই। এটি আমার কাছে অন্য মতবিরোধী উদাহরণের মতো মনে হয়।
পিটার ফ্লুম - মনিকা পুনরায়

3

X

fX(x)=βαΓ(α)xα1eβxI(0,)(x),
α,β>0m>0s>0m>sm<sα=m2/s2β=m/s2XE[X]=α/β=mVar[X]=α/β2=s. With a big enough sample from the distribution of X, by the SLLN, the sample mean and sample standard deviation will be close to m and s. You can play with R to get a feeling about this. Here are examples with m>s and m<s.
> m <- 10
> s <- 1
> x <- rgamma(10000, shape = m^2/s^2, rate = m/s^2)
> mean(x)
[1] 10.01113
> sd(x)
[1] 1.002632

> m <- 1
> s <- 10
> x <- rgamma(10000, shape = m^2/s^2, rate = m/s^2)
> mean(x)
[1] 1.050675
> sd(x)
[1] 10.1139

1

As pointed out in the other answers, the mean x¯ and standard deviation σx are essentially unrelated in that it is not necessary for the standard deviation to be smaller than the mean. However, if the data are nonnegative, taking on values in [0,c], say, then, for large data sets (where the distinction between dividing by n or by n1 does not matter very much), the following inequality holds:

σxx¯(cx¯)c2
and so if x¯>c/2, we can be sure that σx will be smaller. Indeed, since σx=c/2 only for an extremal distribution (half the data have value 0 and the other half value c), σx<x¯ can hold in some cases when x¯<c/2 as well. If the data are measurements of some physical quantity that is nonnegative (e.g. area) and have an empirical distribution that is a good fit to a normal distribution, then σx will be considerably smaller than min{x¯,cx¯} since the fitted normal distribution should assign negligibly small probability to the events {X<0} and {X>c}.

4
I don't think the question is whether the dataset is normal; its non-normality is stipulated. The question concerns whether there might have been some error made in computing the standard deviation, because the OP is surprised that even in this obviously non-normal dataset the SD is much larger than the mean. If an error was not made, what can one conclude from such a large coefficient of variation?
whuber

9
Any answer or comment that claims the mean and sd of a dataset are unrelated is plainly incorrect, because both are functions of the same data and both will change whenever a single one of the data values is changed. This remark does bear some echoes of a similar sounding statement that is true (but not terribly relevant to the current question); namely, that the sample mean and sample sd of data drawn independently from a normal distribution are independent (in the probabilistic sense).
whuber

1

What you seem to have in mind implicitly is a prediction interval that would bound the occurrence of new observations. The catch is: you must postulate a statistical distribution compliant with the fact that your observations (triangle areas) must remain non-negative. Normal won't help, but log-normal might be just fine. In practical terms, take the log of observed areas, calculate the mean and standard deviation, form a prediction interval using the normal distribution, and finally evaluate the exponential for the lower and upper limits -- the transformed prediction interval won't be symmetric around the mean, and is guaranteed to not go below zero. This is what I think the OP actually had in mind.


0

Felipe Nievinski points to a real issue here. It makes no sense to talk in normal distribution terms when the distribution is clearly not a normal distribution. All-positive values with a relatively small mean and relatively large standard deviation cannot have a normal distribution. So, the task is to figure out what sort of distribution fits the situation. The original post suggests that a normal distribution (or some such) was clearly in mind. Otherwise negative numbers would not come up. Log normal, Rayleigh, Weibull come to mind ... I don't know but wonder what might be best in a case like this?

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.