আমার স্বজ্ঞাত হ'ল মানক বিচ্যুতি হ'ল ডেটা ছড়িয়ে দেওয়ার একটি পরিমাপ।
আপনার একটি ভাল বক্তব্য রয়েছে যে এটি প্রশস্ত হোক বা আঁটসাঁট নির্ভর করে ডেটা বিতরণের জন্য আমাদের অন্তর্নিহিত অনুমানটি কী তার উপর।
ক্যাভ্যাট: আপনার ডেটা বন্টন যখন গড়ের চারপাশে প্রতিসাম্যপূর্ণ হয় এবং সাধারণ বিতরণের তুলনামূলকভাবে তারতম্য থাকে তখন একটি পরিমাপ ছড়িয়ে পড়ে most (এর অর্থ এটি প্রায় সাধারণ।
ক্ষেত্রে যেখানে ডেটা আনুমানিক স্বাভাবিক হয়, স্ট্যান্ডার্ড বিচ্যুতিটির একটি প্রচলিত ব্যাখ্যা রয়েছে:
- অঞ্চল: নমুনাটির অর্থ +/- 1 স্ট্যান্ডার্ড বিচ্যুতি, প্রায় 68% ডেটা থাকে
- অঞ্চল: নমুনাটির অর্থ +/- 2 স্ট্যান্ডার্ড বিচ্যুতি, প্রায় 95% ডেটা থাকে
- অঞ্চল: নমুনাটির অর্থ +/- 3 স্ট্যান্ডার্ড বিচ্যুতি, প্রায় 99% ডেটা থাকে
( উইকিতে প্রথম গ্রাফিক দেখুন )
এর অর্থ হ'ল যদি আমরা জানি যে জনসংখ্যার গড় গড় 5 এবং স্ট্যান্ডার্ড বিচ্যুতি 2.83 এবং আমরা ধরে নিই যে বিতরণটি প্রায় সাধারণ, আমি আপনাকে বলব যে আমি যুক্তিসঙ্গতভাবে নিশ্চিত যে যদি আমরা অনেকগুলি পর্যবেক্ষণ করি তবে কেবল 5% হবে 0.4 = 5 - 2 * 2.3 এর চেয়ে ছোট বা 9.6 = 5 + 2 * 2.3 এর চেয়ে বড় হতে হবে।
লক্ষ্য করুন আমাদের আত্মবিশ্বাসের ব্যবধানে স্ট্যান্ডার্ড বিচ্যুতির প্রভাব কী? (যত বেশি ছড়িয়ে পড়বে ততই অনিশ্চয়তা)
তদ্ব্যতীত, সাধারণ ক্ষেত্রে যেখানে ডেটা প্রায় আনুমানিক স্বাভাবিক না হয় তবে তবুও প্রতিসম হয়, আপনি জানেন যে কিছু রয়েছে যার জন্য:α
- অঞ্চল: নমুনাটির অর্থ +/- স্ট্যান্ডার্ড বিচ্যুতি, প্রায় 95% ডেটা থাকেα
আপনি হয় একটি উপ-নমুনা থেকে শিখতে পারেন , বা ধরে নিতে পারেন এবং এটি আপনাকে ভবিষ্যতের পর্যবেক্ষণগুলি কী আশা করতে পারে, বা নতুন পর্যবেক্ষণগুলির মধ্যে কোনটি হিসাবে বিবেচনা করা যেতে পারে তা আপনার মাথার মধ্যে গণনা করার জন্য প্রায়শই থাম্বের একটি ভাল নিয়ম দেয় outliers। (সতর্কতা মনে রাখবেন যদিও!)αα=2
আপনার ব্যাখ্যাটি কীভাবে করা উচিত তা আমি দেখছি না। 2.83 এর অর্থ কী মানগুলি খুব বিস্তৃত হয় বা এগুলি কি সবকটি মাঝারিদিকে দৃly়ভাবে ক্লাস্টার করা হয় ...
আমার মনে হয় "প্রশস্ত বা আঁট" জিজ্ঞাসা করা প্রতিটি প্রশ্নের মধ্যেও এটি থাকা উচিত: "কিসের সাথে?"। একটি পরামর্শ হতে পারে রেফারেন্স হিসাবে একটি সুপরিচিত বিতরণ ব্যবহার করা। প্রসঙ্গের উপর নির্ভর করে এটি সম্পর্কে চিন্তা করা কার্যকর হতে পারে: "এটি কি সাধারণ / পোইসনের চেয়ে অনেক বেশি বিস্তৃত বা শক্ত?"
সম্পাদনা: মন্তব্যগুলিতে দরকারী ইঙ্গিতের ভিত্তিতে, দূরত্ব পরিমাপ হিসাবে স্ট্যান্ডার্ড বিচ্যুতি সম্পর্কে আরও একটি দিক।
তা সত্ত্বেও স্ট্যানডার্ড ডেভিয়েশন উপযোগিতা আরেকটি স্বজ্ঞা এটি নমুনা তথ্য মধ্যে একটি দুরত্ব পরিমাপ হয় এবং তার গড় :sNx1,…,xNx¯
sN=1N∑Ni=1(xi−x¯¯¯)2−−−−−−−−−−−−−√
তুলনা হিসাবে, পরিসংখ্যানগুলির মধ্যে অন্যতম জনপ্রিয় ত্রুটি ব্যবস্থা, গড় স্কোয়ার্ড ত্রুটি (এমএসই):
MSE=1n∑ni=1(Yi^−Yi)2
প্রশ্ন উঠতে পারে কেন উপরের দূরত্বটি কাজ করে? স্কোয়ার দূরত্ব কেন, এবং উদাহরণস্বরূপ পরম দূরত্ব নয়? এবং কেন আমরা বর্গমূল নিচ্ছি?
চতুর্ভুজ দূরত্ব বা ত্রুটি থাকার কারণে ফাংশনগুলির সুবিধা রয়েছে যে আমরা উভয়কে আলাদা করতে এবং সহজেই এটিকে হ্রাস করতে পারি। যতদূর বর্গমূল সম্পর্কিত, এটি ত্রুটিটিকে আমাদের পর্যবেক্ষণ করা ডেটার স্কেলে ফিরে রূপান্তরিত করার সাথে সাথে এটি ব্যাখ্যাযোগ্যতার দিকে যুক্ত করে।