একটি স্ট্যান্ডার্ড বিচ্যুতি কী, এটি কীভাবে গণনা করা হয় এবং পরিসংখ্যানগুলিতে এর ব্যবহার কী?
একটি স্ট্যান্ডার্ড বিচ্যুতি কী, এটি কীভাবে গণনা করা হয় এবং পরিসংখ্যানগুলিতে এর ব্যবহার কী?
উত্তর:
স্ট্যান্ডার্ড বিচ্যুতি এমন একটি সংখ্যা যা উপাত্তের সেটগুলির "স্প্রেড" বা "ছড়িয়ে" উপস্থাপন করে। বিস্তারের জন্য অন্যান্য ব্যবস্থা রয়েছে যেমন পরিসর এবং বৈকল্পিক।
এখানে ডেটাগুলির কয়েকটি উদাহরণ সেট এবং তাদের মানক বিচ্যুতি:
[1,1,1] standard deviation = 0 (there's no spread)
[-1,1,3] standard deviation = 1.6 (some spread)
[-99,1,101] standard deviation = 82 (big spead)
উপরের ডেটা সেটগুলির একই অর্থ রয়েছে।
বিচ্যুতি মানে "গড় থেকে দূরত্ব"।
"স্ট্যান্ডার্ড" এর অর্থ এখানে "প্রমিতকরণ", যার অর্থ স্ট্যান্ডার্ড বিচ্যুতি এবং গড় একই ইউনিটে রয়েছে, বৈচিত্রের বিপরীতে।
উদাহরণস্বরূপ, যদি গড় উচ্চতা 2 মিটার হয় তবে স্ট্যান্ডার্ড বিচ্যুতিটি 0.3 মিটার হতে পারে , তবে বৈকল্পিকটি 0.09 মিটার স্কোয়ারের হবে ।
এটি জেনে রাখা সুবিধাজনক যে ডেটা পয়েন্টের কমপক্ষে 75% পয়েন্টগুলি সর্বদা গড়ের 2 স্ট্যান্ডার্ড বিচ্যুতির মধ্যে থাকে (বা বিতরণটি যদি স্বাভাবিক হয় তবে প্রায় 95% )।
উদাহরণস্বরূপ, যদি গড়টি 100 হয় এবং মানক বিচ্যুতি 15 হয় তবে কমপক্ষে 75% এর মান 70 এবং 130 এর মধ্যে থাকে।
যদি বিতরণটি স্বাভাবিক হতে থাকে তবে মানগুলির 95% হ'ল 70 এবং 130 এর মধ্যে।
সাধারণভাবে বলতে গেলে, আইকিউ পরীক্ষার স্কোরগুলি সাধারণত বিতরণ করা হয় এবং গড়ে গড়ে 100 হয় "" খুব উজ্জ্বল "এমন কেউ গড়ের চেয়ে দুটি মানের বিচ্যুতি, যার অর্থ আইকিউ পরীক্ষার স্কোর ১৩০।
উইকিপিডিয়া থেকে একটি উদ্ধৃতি ।
এটি "গড়" (গড়, বা প্রত্যাশিত / বাজেটের মান) থেকে কত পার্থক্য তা দেখায়। একটি নিম্নমানের বিচ্যুতি ইঙ্গিত দেয় যে ডেটা পয়েন্টগুলি গড়ের খুব কাছাকাছি থাকে, যেখানে উচ্চমানের বিচ্যুতি নির্দেশ করে যে ডেটাগুলি বৃহত্তর মানের মধ্যে ছড়িয়ে পড়ে।
কোনও ভেরিয়েবলের বর্ণনা দেওয়ার সময় আমরা সাধারণত দুটি পদক্ষেপের সাহায্যে এটি সংক্ষিপ্ত করি: কেন্দ্রের পরিমাপ এবং স্প্রেডের পরিমাপ। কেন্দ্রের সাধারণ ব্যবস্থাগুলিতে গড়, মধ্যমা এবং মোড অন্তর্ভুক্ত থাকে। স্প্রেডের সাধারণ পরিমাপের মধ্যে ভেরিয়েন্স এবং আন্তঃখণ্ডজ রেঞ্জ অন্তর্ভুক্ত রয়েছে।
বৈচিত্রটি (গ্রীক লোয়ারকেস সিগমা দুটি দ্বারা উত্থাপিত বিদ্যুৎ দ্বারা উপস্থাপিত) সাধারণত যখন রিপোর্ট করা হয় তখন ব্যবহৃত হয় used বৈকল্পিকটি হল চলকের গড় স্কোয়ার বিচ্যুতি। বিচ্যুতি প্রতিটি পর্যবেক্ষণ থেকে গড় বিয়োগ করে গণনা করা হয়। এটি স্কোয়ারযুক্ত কারণ সমষ্টিটি অন্যথায় শূন্য হবে এবং বিচ্যুতির আপেক্ষিক আকার বজায় রেখে স্কোয়ারিং এই সমস্যাটি সরিয়ে দেয়। প্রকরণের পরিমাপ হিসাবে প্রকরণটি ব্যবহার করতে সমস্যা হ'ল এটি স্কোয়ার ইউনিটে is উদাহরণস্বরূপ, যদি আমাদের আগ্রহের পরিবর্তনশীল উচ্চতা ইঞ্চি পরিমাপ করা হয় তবে তারতম্যটি স্কোয়ারড-ইঞ্চিতে রিপোর্ট করা হবে যা সামান্য অর্থ দেয়। স্ট্যান্ডার্ড বিচ্যুতি (গ্রীক লোয়ারকেস সিগমা প্রতিনিধিত্ব করে) তারতম্যের বর্গমূল এবং মূল এককে ছড়িয়ে দেওয়ার পরিমাপ প্রদান করে returns
স্ট্যান্ডার্ড বিচ্যুতি ব্যবহার করার সময়, একজনকে বহিরাগতদের সতর্কতা অবলম্বন করতে হবে কারণ তারা স্ট্যান্ডার্ড বিচ্যুতি (এবং গড়) স্ক্যাচ করবে কারণ তারা স্প্রেডের প্রতিরোধী ব্যবস্থা নয়। একটি সাধারণ উদাহরণ এই সম্পত্তি বর্ণনা করবে। আমার ভয়ঙ্কর ক্রিকেট ব্যাটিংয়ের গড় গড় 13, 14, 16, 23, 26, 28, 33, 39, এবং 61 এর স্কোর 28.11 is যদি আমরা 61 জনকে আউটলেট হিসাবে বিবেচনা করি এবং এটি মুছে ফেলি, তবে গড়টি 24 হবে।
আমি এখানে ডায়াগ্রাম ব্যবহার করে কীভাবে এই প্রশ্নের উত্তর দেব।
ধরা যাক আমরা 30 টি বিড়াল ওজন এবং গড় ওজন গণনা। তারপরে আমরা y অক্ষের ওজন এবং এক্স অক্ষের উপর বিড়ালের পরিচয় সহ একটি স্কেটার প্লট তৈরি করি। গড় ওজন একটি অনুভূমিক রেখা হিসাবে আঁকা যেতে পারে। এরপরে আমরা উল্লম্ব রেখাগুলিতে আঁকতে পারি যা প্রতিটি তথ্যকে গড় রেখার সাথে সংযুক্ত করে - এগুলি হ'ল গড় থেকে প্রতিটি ডেটার পয়েন্টের বিচ্যুতি এবং আমরা তাদেরকে অবশিষ্টাংশ বলি। এখন, এই অবশিষ্টাংশগুলি দরকারী হতে পারে কারণ তারা আমাদের তথ্য প্রসারণ সম্পর্কে কিছু বলতে পারে: যদি অনেক বড় অবশিষ্টাংশ থাকে তবে বিড়ালগুলি ভরতে অনেক আলাদা হয়। বিপরীতে, যদি অবশিষ্টাংশগুলি প্রধানত ছোট হয় তবে বিড়ালগুলি গড় ওজনের প্রায় মোটামুটিভাবে ক্লাস্টার হয়। সুতরাং যদি আমাদের কিছু মেট্রিক থাকতে পারে যা আমাদের গড় বলে tellsএই ডেটা সেটটিতে একটি অবশিষ্ট অংশের দৈর্ঘ্য, এটি ডেটাতে কতটা ছড়িয়ে রয়েছে তা বোঝানোর একটি সহজ উপায়। স্ট্যান্ডার্ড বিচ্যুতি কার্যকরভাবে, গড় অবশিষ্টগুলির দৈর্ঘ্য।
আমি এসডি এর জন্য গণনা দিয়ে এইটি অনুসরণ করব, কেন আমরা বর্গাকার এবং তারপরে বর্গমূলের ব্যাখ্যা করব (আমি বৈভবের সংক্ষিপ্ত এবং মিষ্টি ব্যাখ্যা পছন্দ করি)। তারপরে আমি গ্রাহাম তার শেষ অনুচ্ছেদে যেমন করে আউটলিয়ারদের সমস্যাগুলি উল্লেখ করব।
প্রয়োজনীয় তথ্যগুলি যদি গড় সম্পর্কে ডেটা বিতরণ হয় তবে স্ট্যান্ডার্ড বিচ্যুতিটি কাজে আসে।
গড় থেকে প্রতিটি মানের পার্থক্যের যোগফলটি শূন্য (স্পষ্টতই, যেহেতু মানটি সমানভাবে গড়ের চারপাশে ছড়িয়ে থাকে), তাই আমরা প্রতিটি পার্থক্যকে বর্গক্ষেত্র করে যাতে নেতিবাচক মানগুলিকে ধনাত্মক রূপান্তর করতে, জনসংখ্যার মধ্যে তাদের যোগফল যোগ করতে এবং তাদের গ্রহণ করি বর্গমূল. এই মানটি তখন নমুনার সংখ্যা দ্বারা ভাগ করা হয় (বা, জনসংখ্যার আকার)। এটি স্ট্যান্ডার্ড বিচ্যুতি দেয়।
একটি স্ট্যান্ডার্ড বিচ্যুতি হ'ল একটি বিতরণের দ্বিতীয় কেন্দ্রীয় মুহুর্তের বর্গমূল। একটি কেন্দ্রীয় মুহূর্তটি বিতরণের প্রত্যাশিত মান থেকে প্রত্যাশিত পার্থক্য। প্রথম কেন্দ্রীয় মুহূর্তটি সাধারণত 0 হবে, সুতরাং আমরা একটি দ্বিতীয় কেন্দ্রীয় মুহূর্তটিকে এর প্রত্যাশিত মান থেকে একটি এলোমেলো ভেরিয়েবলের বর্গক্ষেত্রের প্রত্যাশিত মান হিসাবে সংজ্ঞায়িত করি।
আসল পর্যবেক্ষণের সাথে সামঞ্জস্যপূর্ণ এমন স্কেলে এটিকে রাখার জন্য আমরা সেই দ্বিতীয় কেন্দ্রীয় মুহুর্তের বর্গমূল গ্রহণ করি এবং একে স্ট্যান্ডার্ড বিচ্যুতি বলি।
স্ট্যান্ডার্ড বিচ্যুতি একটি জনসংখ্যার সম্পত্তি। এটি জনসংখ্যার কতটা "বিচ্ছুরণ" আছে তা পরিমাপ করে। সমস্ত অশ্লীলতা কি প্রায় চারদিকে ক্লাস্টার করা হয়, বা সেগুলি ব্যাপকভাবে ছড়িয়ে পড়েছে?
জনসংখ্যার মানক বিচ্যুতি অনুমান করার জন্য, আমরা প্রায়শই সেই জনসংখ্যা থেকে একটি "নমুনা" এর স্ট্যান্ডার্ড বিচ্যুতি গণনা করি। এটি করার জন্য, আপনি সেই জনসংখ্যা থেকে পর্যবেক্ষণগুলি গ্রহণ করেন, সেই পর্যবেক্ষণগুলির একটি গড় গণনা করুন এবং তারপরে সেই "নমুনা গড়" থেকে গড় স্কোয়ার বিচ্যুতির স্কোয়ার রুট গণনা করুন।
বৈকল্পিকতার একটি নিরপেক্ষ অনুমানকারী পেতে, আপনি প্রকৃতপক্ষে নমুনার গড় থেকে গড় স্কোয়ার বিচ্যুতি গণনা করবেন না, বরং এর পরিবর্তে আপনি (এন -1) দ্বারা বিভক্ত হন যেখানে এন আপনার নমুনায় পর্যবেক্ষণের সংখ্যা। দ্রষ্টব্য যে এই "নমুনা স্ট্যান্ডার্ড বিচ্যুতি" স্ট্যান্ডার্ড বিচ্যুতির কোনও পক্ষপাতদুষ্ট অনুমানক নয়, তবে "নমুনা স্ট্যান্ডার্ড বিচ্যুতি" এর বর্গক্ষেত্রটি জনসংখ্যার বৈচিত্রের একটি নিরপেক্ষ অনুমানক।
স্ট্যান্ডার্ড বিচ্যুতিটি আমি সবচেয়ে ভালভাবে বুঝতে পেরেছি যাতে চুলের ড্রেসারটি ভাবা হয়! (উদাহরণস্বরূপ কাজ করার জন্য আপনাকে একটি চুলের ড্রেসার থেকে ডেটা সংগ্রহ করতে হবে এবং চুল কাটার গতি বাড়াতে হবে))
কোনও ব্যক্তির চুল কাটাতে চুলের ড্রেসারের জন্য গড়ে 30 মিনিট সময় লাগে।
মনে করুন আপনি গণনাটি করেন (বেশিরভাগ সফ্টওয়্যার প্যাকেজগুলি এটি আপনার জন্য করবে) এবং আপনি দেখতে পান যে স্ট্যান্ডার্ড বিচ্যুতিটি 5 মিনিট। এর অর্থ নিম্নলিখিত:
আমি এটা কিভাবে জানি? আপনাকে সাধারণ বক্ররেখার দিকে নজর দিতে হবে, যেখানে 68% 1 মান বিচ্যুতির মধ্যে পড়ে এবং 96% গড়ের 2 স্ট্যান্ডার্ড বিচ্যুতির মধ্যে পড়ে (এই ক্ষেত্রে 30 মিনিট)। সুতরাং আপনি গড় থেকে মান বিচ্যুতি যোগ বা বিয়োগ করতে পারেন।
যদি ধারাবাহিকতা কাঙ্ক্ষিত হয় তবে এই ক্ষেত্রে যেমন প্রমিত বিচ্যুতি তত ছোট। এই ক্ষেত্রে, চুলের ড্রেসার কোনও প্রদত্ত ক্লায়েন্টের সাথে সর্বাধিক 40 মিনিট ব্যয় করে। একটি সফল সেলুন চালানোর জন্য আপনাকে চুল দ্রুত কাটা প্রয়োজন!