স্ট্যান্ডার্ড বিচ্যুতি পিছনে অন্তর্দৃষ্টি


26

আমি স্ট্যান্ডার্ড বিচ্যুতি সম্পর্কে আরও ভাল স্বজ্ঞাত বোঝার চেষ্টা করছি।

আমি যা বুঝি তা থেকে ডেটা সেটের গড় থেকে কোনও ডেটা সেটে পর্যবেক্ষণের একটি সেটের পার্থক্যের গড় প্রতিনিধিত্ব করে। তবে এটি প্রকৃত পক্ষে পার্থক্যগুলির গড়ের সমান নয় কারণ এটি পর্যবেক্ষণকে গড় থেকে আরও ওজন দেয়।

বলুন যে আমার কাছে নিম্নোক্ত সংখ্যার জনসংখ্যা রয়েছে -{1,3,5,7,9}

গড় ।5

আমি যদি পাই তবে নিখুঁত মানের ভিত্তিতে স্প্রেডের একটি পরিমাপ করি

i=15|xiμ|5=2.4

আমি যদি স্ট্যান্ডার্ড বিচ্যুতি ব্যবহার করে ভিত্তিক স্প্রেডের একটি পরিমাপ করি

i=15(xiμ)25=2.83

স্ট্যান্ডার্ড বিচ্যুতি ব্যবহারের ফলাফলটি প্রত্যাশার মতো আরও বড়, কারণ এটি অতিরিক্ত থেকে ওজন বাড়িয়ে দেয় যা গড় থেকে আরও বেশি মূল্য দেয়।

তবে যদি আমাকে কেবল বলা হয়েছিল যে আমি জনসংখ্যার সাথে গড় এবং একটি মানক বিচ্যুতি নিয়ে আচরণ করছি আমি কীভাবে অনুমান করব যে জনসংখ্যার মান of something এর মতো কিছু রয়েছে was ? এটি দেখে মনে হচ্ছে যে চিত্রটি খুব স্বেচ্ছাসেবী ... আপনি কীভাবে এটি ব্যাখ্যা করবেন বলে আমি মনে করি না। না মানে মান খুব চওড়া বিস্তার বা তারা সব শক্তভাবে গড় প্রায় ক্লাস্টার হয় ...52.83{1,3,5,7,9}2.832.83

যখন আপনি একটি বিবৃতি উপস্থাপন করা হয় যে আপনি জন হিসাবে গড় এবং একটি মানক বিচ্যুতি নিয়ে জনগণের সাথে কথা বলছেন যা আপনাকে জনসংখ্যার বিষয়ে কী বলে?52.83


2
এই প্রশ্নটি stats.stackexchange.com/q/81986/3277 এবং এর সাথে যুক্ত আরও একটি প্রশ্নের সাথে সম্পর্কিত (যদিও এটি অভিন্ন নয়) is
ttnphns

1
এটি আপনাকে গড় (আরএমএস দূরত্ব) থেকে 'সাধারণ' দূরত্বটি বলে। কী এটি 'বৃহত' বা 'ছোট' করে তোলে তা আপনার মানদণ্ডের উপর নির্ভর করে । আপনি যদি ইঞ্জিনিয়ারিং সহনশীলতা পরিমাপ করার চেষ্টা করছেন তবে এটি বিশাল। অন্যান্য প্রসঙ্গে একই স্ট্যান্ডার্ড বিচ্যুতিটিকে খুব ছোট হিসাবে বিবেচনা করা যেতে পারে।
গ্লেন_বি -রিনস্টেট মনিকা

উত্তর:


13

আমার স্বজ্ঞাত হ'ল মানক বিচ্যুতি হ'ল ডেটা ছড়িয়ে দেওয়ার একটি পরিমাপ।

আপনার একটি ভাল বক্তব্য রয়েছে যে এটি প্রশস্ত হোক বা আঁটসাঁট নির্ভর করে ডেটা বিতরণের জন্য আমাদের অন্তর্নিহিত অনুমানটি কী তার উপর।

ক্যাভ্যাট: আপনার ডেটা বন্টন যখন গড়ের চারপাশে প্রতিসাম্যপূর্ণ হয় এবং সাধারণ বিতরণের তুলনামূলকভাবে তারতম্য থাকে তখন একটি পরিমাপ ছড়িয়ে পড়ে most (এর অর্থ এটি প্রায় সাধারণ।

ক্ষেত্রে যেখানে ডেটা আনুমানিক স্বাভাবিক হয়, স্ট্যান্ডার্ড বিচ্যুতিটির একটি প্রচলিত ব্যাখ্যা রয়েছে:

  • অঞ্চল: নমুনাটির অর্থ +/- 1 স্ট্যান্ডার্ড বিচ্যুতি, প্রায় 68% ডেটা থাকে
  • অঞ্চল: নমুনাটির অর্থ +/- 2 স্ট্যান্ডার্ড বিচ্যুতি, প্রায় 95% ডেটা থাকে
  • অঞ্চল: নমুনাটির অর্থ +/- 3 স্ট্যান্ডার্ড বিচ্যুতি, প্রায় 99% ডেটা থাকে

( উইকিতে প্রথম গ্রাফিক দেখুন )

এর অর্থ হ'ল যদি আমরা জানি যে জনসংখ্যার গড় গড় 5 এবং স্ট্যান্ডার্ড বিচ্যুতি 2.83 এবং আমরা ধরে নিই যে বিতরণটি প্রায় সাধারণ, আমি আপনাকে বলব যে আমি যুক্তিসঙ্গতভাবে নিশ্চিত যে যদি আমরা অনেকগুলি পর্যবেক্ষণ করি তবে কেবল 5% হবে 0.4 = 5 - 2 * 2.3 এর চেয়ে ছোট বা 9.6 = 5 + 2 * 2.3 এর চেয়ে বড় হতে হবে।

লক্ষ্য করুন আমাদের আত্মবিশ্বাসের ব্যবধানে স্ট্যান্ডার্ড বিচ্যুতির প্রভাব কী? (যত বেশি ছড়িয়ে পড়বে ততই অনিশ্চয়তা)

তদ্ব্যতীত, সাধারণ ক্ষেত্রে যেখানে ডেটা প্রায় আনুমানিক স্বাভাবিক না হয় তবে তবুও প্রতিসম হয়, আপনি জানেন যে কিছু রয়েছে যার জন্য:α

  • অঞ্চল: নমুনাটির অর্থ +/- স্ট্যান্ডার্ড বিচ্যুতি, প্রায় 95% ডেটা থাকেα

আপনি হয় একটি উপ-নমুনা থেকে শিখতে পারেন , বা ধরে নিতে পারেন এবং এটি আপনাকে ভবিষ্যতের পর্যবেক্ষণগুলি কী আশা করতে পারে, বা নতুন পর্যবেক্ষণগুলির মধ্যে কোনটি হিসাবে বিবেচনা করা যেতে পারে তা আপনার মাথার মধ্যে গণনা করার জন্য প্রায়শই থাম্বের একটি ভাল নিয়ম দেয় outliers। (সতর্কতা মনে রাখবেন যদিও!)αα=2

আপনার ব্যাখ্যাটি কীভাবে করা উচিত তা আমি দেখছি না। 2.83 এর অর্থ কী মানগুলি খুব বিস্তৃত হয় বা এগুলি কি সবকটি মাঝারিদিকে দৃly়ভাবে ক্লাস্টার করা হয় ...

আমার মনে হয় "প্রশস্ত বা আঁট" জিজ্ঞাসা করা প্রতিটি প্রশ্নের মধ্যেও এটি থাকা উচিত: "কিসের সাথে?"। একটি পরামর্শ হতে পারে রেফারেন্স হিসাবে একটি সুপরিচিত বিতরণ ব্যবহার করা। প্রসঙ্গের উপর নির্ভর করে এটি সম্পর্কে চিন্তা করা কার্যকর হতে পারে: "এটি কি সাধারণ / পোইসনের চেয়ে অনেক বেশি বিস্তৃত বা শক্ত?"

সম্পাদনা: মন্তব্যগুলিতে দরকারী ইঙ্গিতের ভিত্তিতে, দূরত্ব পরিমাপ হিসাবে স্ট্যান্ডার্ড বিচ্যুতি সম্পর্কে আরও একটি দিক।

তা সত্ত্বেও স্ট্যানডার্ড ডেভিয়েশন উপযোগিতা আরেকটি স্বজ্ঞা এটি নমুনা তথ্য মধ্যে একটি দুরত্ব পরিমাপ হয় এবং তার গড় :sNx1,,xNx¯

sN=1Ni=1N(xix¯)2

তুলনা হিসাবে, পরিসংখ্যানগুলির মধ্যে অন্যতম জনপ্রিয় ত্রুটি ব্যবস্থা, গড় স্কোয়ার্ড ত্রুটি (এমএসই):

MSE=1ni=1n(Yi^Yi)2

প্রশ্ন উঠতে পারে কেন উপরের দূরত্বটি কাজ করে? স্কোয়ার দূরত্ব কেন, এবং উদাহরণস্বরূপ পরম দূরত্ব নয়? এবং কেন আমরা বর্গমূল নিচ্ছি?

চতুর্ভুজ দূরত্ব বা ত্রুটি থাকার কারণে ফাংশনগুলির সুবিধা রয়েছে যে আমরা উভয়কে আলাদা করতে এবং সহজেই এটিকে হ্রাস করতে পারি। যতদূর বর্গমূল সম্পর্কিত, এটি ত্রুটিটিকে আমাদের পর্যবেক্ষণ করা ডেটার স্কেলে ফিরে রূপান্তরিত করার সাথে সাথে এটি ব্যাখ্যাযোগ্যতার দিকে যুক্ত করে।


আপনি কেন বলছেন যে ডেটা স্বাভাবিক হওয়ার সময় কিছুটা ছড়িয়ে পড়া সবচেয়ে বেশি 'সহায়ক' হয়? আমার কাছে মনে হয় যে কোনও সেট ডেটার একটি স্প্রেড থাকে এবং প্রমিতের বিচ্যুতিটি স্প্রেডের আকারটি ক্যাপচার না করলেও স্প্রেডের সংক্ষিপ্তসার।
মাইকেল লিউ

অবশ্যই, আপনি ঠিক বলেছেন। তবে আমি দাবি করছিলাম না যে স্ট্যান্ডার্ড বিচ্যুতি কোনওভাবেই বিতরণের আকারের উপর নির্ভর করে। নিখুঁতভাবে ইঙ্গিত করে যে যদি আপনাকে আকৃতি সম্পর্কে কিছু জ্ঞান থাকে (বা আপনি এই ধারণাটি তৈরি করতে প্রস্তুত) তবে এটি সাধারণত অনেক বেশি সহায়ক তথ্য। একইভাবে, নমুনা গড়টি আপনার ডেটার একটি ভাল বর্ণনাকারী, যদি আপনি বিতরণ সম্পর্কে কিছু সাধারণ অনুমান করতে পারেন।
অর্থ-অর্থ-

পরম মানের পরিবর্তে বর্গক্ষেত্র ব্যবহারের জন্য আমার প্রিয় কারণটি হ'ল এটি কোনও গাউসিয়ানির সম্ভাবনার লগারিদম। সুতরাং আপনি যদি বিশ্বাস করেন যে ত্রুটিগুলি প্রকৃতিতে গাউসিয়ান এবং সেই বিটগুলি তথ্য পরিমাপের ভাল উপায়, তবে স্কোয়ার ত্রুটিটি ব্যবহার করা বোধগম্য।
qbolec

5

এটি বুঝতে সাহায্য করতে পারে যে গড়টি ভর কেন্দ্রে অনুরূপ । বৈকল্পিকতা জড়তার মুহূর্ত । স্ট্যান্ডার্ড বিচ্যুতিটি গিরিশনের ব্যাসার্ধ

Historicalতিহাসিক দৃষ্টিকোণের জন্য একবার দেখুন:

জর্জ এয়ারি (1875) পর্যবেক্ষণের ত্রুটি এবং পর্যবেক্ষণের সংমিশ্রণের বীজগণিত এবং সংখ্যাগত তত্ত্বের উপরে

কার্ল পিয়ারসন (1894) বিবর্তনের গাণিতিক তত্ত্বের অবদান।

এয়ারি 1875 এর এই প্লটটি বিচ্যুতির বিভিন্ন পদক্ষেপগুলি দেখায় যা সহজেই আন্তঃ রূপান্তরিত হয় (পৃষ্ঠা 17)। স্ট্যান্ডার্ড বিচ্যুতিটিকে "এয়ার বর্গের ত্রুটি" বলা হয়। এটি 20-21 পৃষ্ঠাগুলি নিয়েও আলোচনা করা হয়েছে এবং তিনি 48 পৃষ্ঠায় এর ব্যবহারকে ন্যায়সঙ্গত করেছেন, এটি দেখিয়েছেন যে হাতে হাতে গণনা করা সবচেয়ে সহজ কারণ নেতিবাচক এবং ধনাত্মক ত্রুটির পৃথক গণনা করার প্রয়োজন নেই। স্ট্যান্ডার্ড বিচ্যুতি শব্দটি পিয়ারসন 75 page পৃষ্ঠার উপরে বর্ণিত কাগজে প্রবর্তন করেছিলেন।

এখানে চিত্র বর্ণনা লিখুন

একদিকে যেমন নোট করুন: মানক বিচ্যুতির ইউটিলিটি "ত্রুটির আইন" এর প্রয়োগের উপর নির্ভরশীল, এটি "সাধারণ বক্ররেখা" নামেও পরিচিত, যা "ত্রুটির অনেকগুলি স্বাধীন কারণ" থেকে উদ্ভূত হয় (এয়ারি 1875 পৃষ্ঠা) 7)। প্রত্যেক ব্যক্তির গোষ্ঠী থেকে বিচ্যুতি এই আইনটি অনুসরণ করা উচিত বলে আশা করার কোনও কারণ নেই। জৈবিক সিস্টেমের ক্ষেত্রে অনেক ক্ষেত্রে একটি লগের সাধারণ বিতরণ স্বাভাবিকের চেয়ে ভাল অনুমান হয়। দেখুন:

লিম্পার্ট এট আল (2001) বিজ্ঞান জুড়ে লগ-সাধারণ বিতরণ: কী এবং ক্লু

এটি আরও প্রশ্নবিদ্ধ যে পৃথক প্রকরণকে শব্দ হিসাবে বিবেচনা করা উপযুক্ত কিনা, যেহেতু ডেটা উত্পন্ন করার প্রক্রিয়াটি গোষ্ঠী নয় বরং ব্যক্তির স্তরে কাজ করে।


3

স্ট্যান্ডার্ড বিচ্যুতি প্রকৃতপক্ষে গড় থেকে আরও বেশি ওজন দেয় কারণ এটি স্কোয়ার দূরত্বের গড়ের বর্গমূল। এটি ব্যবহারের কারণগুলি (আপনার প্রস্তাবিত গড় নিরঙ্কুশ বিচ্যুতির পরিবর্তে বা মিডিয়ান পরম বিচ্যুতি, যা শক্তিশালী পরিসংখ্যানগুলিতে ব্যবহৃত হয়) আংশিক কারণে এই কারণটি ছিল যে ক্যালকুলাসের সাথে পরিনামগুলির সাথে বহুলোক সহ একটি সহজ সময় রয়েছে absolute যাইহোক, প্রায়শই, আমরা চরম মূল্যবোধের উপর জোর দিতে চাই না।

স্বজ্ঞাত অর্থ সম্পর্কে আপনার প্রশ্নের হিসাবে - এটি সময়ের সাথে বিকাশ লাভ করে। আপনি সঠিক যে একাধিক সংখ্যার সমান গড় এবং এসডি থাকতে পারে; এর কারণ কারণ এবং এসডি তথ্য মাত্র দুটি টুকরা, এবং ডেটা সেট 5 টুকরা (হিসাবে 1,3,5,7,9) বা আরও অনেক কিছু হতে পারে।

২.৮৮ এর গড় 5 এবং এসডি "প্রশস্ত" বা "সংকীর্ণ" কিনা আপনি যে ক্ষেত্রে কাজ করছেন তার উপর নির্ভর করে।

যখন আপনার কেবলমাত্র 5 টি সংখ্যা রয়েছে, সম্পূর্ণ তালিকাটি দেখানো সহজ; যখন আপনার অনেকগুলি সংখ্যা থাকে, তখন স্প্রেড সম্পর্কে চিন্তাভাবনার আরও স্বজ্ঞাত পদ্ধতিতে পাঁচ সংখ্যার সংক্ষিপ্তসার বা আরও ভাল, যেমন ঘনত্বের প্লট হিসাবে গ্রাফ অন্তর্ভুক্ত থাকে।


2

স্ট্যান্ডার্ড বিচ্যুতি আপনার জনসংখ্যার দূরত্বকে এলোমেলো পরিবর্তনশীল হিসাবে পরিমাপ করে।

আমাদের ধরুন যে আপনার 5 টি সংখ্যা সমান হওয়ার সম্ভাবনা রয়েছে, যাতে প্রতিটিটির সম্ভাবনা থাকে .20। এটি এলোমেলো ভেরিয়েবল দ্বারা উপস্থাপিত by দ্বারা প্রদত্তX:[0,1]R

X(t)={10t<15315t<25525t<35735t<45945t1

আমরা কার্যকারিতা এবং পরিমাপ তত্ত্বের দিকে যাবার কারণ হ'ল কারণ আমাদের যে দুটি সম্ভাবনার স্পেস ঘটতে পারে তার শূন্যতার সম্ভাবনাগুলি কীভাবে দুটি ক্ষেত্রে একই রকম হয় তা নিয়ে আলোচনা করার পদ্ধতিগত পদ্ধতি থাকা দরকার। এখন আমরা ফাংশনগুলিতে চলে এসেছি আমাদের দূরত্ব বোধের প্রয়োজন distance

ফাংশনের জন্য দূরত্বের অনেকগুলি ইন্দ্রিয় রয়েছে, বিশেষত আদর্শ জন্য এবং দূরত্বের ক্রিয়াকে প্ররোচিত করে ।

||Y||p=(01|Y(t)|pdt)1/p
Y:[0,1]R1p<dp(Y,Z)=||XZ||p

আমরা যদি আদর্শ গ্রহণ করি তবে আমরা আপনার উল্লেখ করেছি যে নির্ভুল নিরঙ্কুশ মূল্য বিচ্যুতি: আমরা যদি আদর্শ গ্রহণ করি তবে আমরা স্বাভাবিক স্ট্যান্ডার্ড বিচ্যুতি p=1

d1(X,5)=||X5_||1=2.4.
p=2
d2(X,5)=||X5_||2=2.83.

এখানে ধ্রুবক ফাংশন নির্দেশ করে ।5_t5

স্ট্যান্ডার্ড বিচ্যুতির অর্থ বোঝা হ'ল দূরত্ব ফাংশনটি 2 এর অর্থটি এবং এটি কেন বোঝা যায়, বহু কার্যকরী ক্ষেত্রে, কার্যগুলির মধ্যে দূরত্বের সেরা পরিমাপ।d2


এই ব্যাখ্যায় এমন কিছু নির্মাণ রয়েছে যা "স্বজ্ঞাত" বলে মনে হয় না। প্রধানটি হ'ল সংজ্ঞায়িত কোনও ক্রিয়াকলাপের অনিয়ন্ত্রিত উপস্থিতি , একটি বিরতি যা সেটিংয়ের সাথে কোনও সম্পর্ক রাখে না। ( সংজ্ঞায়িত করা স্বাভাবিক হিসাবে যেখানে এর পাওয়ার সেট রয়েছে ।) এছাড়াও, " " এর মত প্রকাশের অর্থ ব্যাখ্যা করা কিছুটা সমস্যাযুক্ত কারণ " " একটি সংখ্যার প্রতিনিধিত্ব করে - জনসংখ্যার গড় - এলোমেলো পরিবর্তনশীল নয়। শেষ পর্যন্ত, এই সমস্ত যন্ত্রপাতি চালু করার পরে, প্রশ্নটি পুনরায় করা হয়েছে তবে বাস্তবে উত্তর দেওয়া হয়নি। [0,1]X:{1,3,5,7,9}RX(i)=i{1,3,5,7,9}||X5||15
whuber

হ্যাঁ আপনি তালিকাবদ্ধ এলোমেলো পরিবর্তনশীল পরিমাপ তত্ত্বের সাথে স্বাচ্ছন্দ্যবানদের জন্য এটি আদর্শ। আমি কেবল ক্যালকুলাসের পটভূমির লোকদের জন্য ফাংশন এবং সংহতকরণ বোঝার জন্য এটি সঙ্কুচিত করার আশা করছিলাম। আমি একটি ফাংশন হিসাবে গড় পুনর্লিখন করব।
SomeEE

এছাড়াও, এটি একটি বিশ্রামিত প্রশ্ন হিসাবে, আপনি কেন 2 ফাংশনগুলির মধ্যে দূরত্বের সেরা পরিমাপের বিষয়ে মন্তব্য অন্তর্ভুক্ত করার পরামর্শ দিচ্ছেন ? d2
সোমবার 4'14

প্রশ্নটি স্ট্যান্ডার্ড বিচ্যুতি বোঝার জন্য অন্তর্দৃষ্টি জিজ্ঞাসা করে। আপনি ব্যাখ্যা করেছেন যে কোনও ফাংশন স্থানে এটি কীভাবে আদর্শ। যদিও এটি আরও একটি গাণিতিক আনুষ্ঠানিককরণ সরবরাহ করে (এবং এটি গণিতজ্ঞের পক্ষে পর্যাপ্ত স্বজ্ঞানতা হবে যা অন্যথায় স্ট্যান্ডার্ড বিচ্যুতি সম্পর্কে অজ্ঞ) তবে মূল পোস্টারটি যা অনুরোধ করছে তার থেকে এটি থামবে বলে মনে হয়। যেটি সবচেয়ে বেশি স্বাগত হবে তা হ'ল দূরত্ব ফাংশনটির " " ব্যাখ্যা করার এবং অনুভূতিগুলির মধ্যে বিশদ বিবরণ দেওয়া যদি একটি এটি দূরত্বের একটি "সেরা" পরিমাপL2d2
whuber
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.