স্ট্যান্ডার্ড বিচ্যুতিতে পরম মান গ্রহণের পরিবর্তে পার্থক্যটি কেন বর্গাকার?
আমরা x এর পার্থক্যটি গড় থেকে বর্গাকার কারণ ইউক্লিডিয়ান দূরত্ব, স্বাধীনতার ডিগ্রির বর্গমূলের সমানুপাতিক (জনসংখ্যার পরিমাপে x এর সংখ্যা), বিচ্ছুরণের সেরা পরিমাপ।
দূরত্ব গণনা করা হচ্ছে
পয়েন্ট 0 থেকে পয়েন্ট 5 এর দূরত্ব কত?
- 5−0=5
- |0−5|=5
- 52−−√=5
ঠিক আছে, এটি তুচ্ছ কারণ এটি একক মাত্রা।
0, 0 থেকে পয়েন্ট 3, 4 এ একটি বিন্দুর দূরত্ব কেমন?
যদি আমরা একসাথে কেবলমাত্র 1 টি মাত্রায় যেতে পারি (সিটি ব্লকের মতো) তবে আমরা কেবল সংখ্যাগুলি যুক্ত করব। (এটি কখনও কখনও ম্যানহাটন দূরত্ব হিসাবে পরিচিত)।
তবে একবারে দুটি মাত্রায় যাওয়ার কী? তারপরে (পাইথাগোরিয়ান উপপাদ্য অনুসারে আমরা সকলেই উচ্চ বিদ্যালয়ে শিখেছি), আমরা প্রতিটি মাত্রার মধ্যে দূরত্ব বর্গাকার করি, বর্গগুলি যোগ করি এবং তারপরে উত্স থেকে বিন্দুটির দূরত্ব নির্ধারণের জন্য বর্গমূলকে নিয়ে যাই।
32+42−−−−−−√=25−−√=5
0, 0, 0 থেকে 1, 2, 2 পয়েন্ট থেকে দূরত্বটি কেমন?
এটা যথাযথ
12+22+22−−−−−−−−−−√=9–√=3
কারণ প্রথম দুটি এক্স এর দূরত্ব চূড়ান্ত এক্সের সাথে মোট দূরত্বের গণনা করার জন্য লেগ গঠন করে।
x21+x22−−−−−−√2+x23−−−−−−−−−−−−−√=x21+x22+x23−−−−−−−−−−√
আমরা প্রতিটি মাত্রার দূরত্ব বর্গক্ষেত্রের নিয়মকে প্রসারিত করতে পারি, এটি হাইপার-ডাইমেনশনাল স্পেসে অরথোগোনাল পরিমাপের জন্য যাকে ইউক্লিডিয়ান দূরত্ব বলে তাকে সাধারণীকরণ করে:
distance=∑i=1nx2i−−−−−√
এবং সুতরাং অরথোগোনাল স্কোয়ারের যোগফল হল বর্গাকার দূরত্ব:
distance2=∑i=1nx2i
কোনটি পরিমাপের অর্থোগোনাল (বা ডান কোণে) করে অন্যকে? শর্তটি হল যে দুটি পরিমাপের মধ্যে কোনও সম্পর্ক নেই। আমরা এই পরিমাপগুলি স্বতন্ত্র এবং স্বতন্ত্রভাবে বিতরণের জন্য অনুসন্ধান করব , ( iid )।
অনৈক্য
জনসংখ্যার বৈকল্পিকের সূত্রটি পুনরায় স্মরণ করুন (যা থেকে আমরা মানক বিচ্যুতিটি পাব):
σ2=∑i=1n(xi−μ)2n
যদি আমরা ইতিমধ্যে 0 কে ডেটা বিয়োগ করে ডেটা কেন্দ্র করে রেখেছি তবে আমাদের আছে:
σ2=∑i=1n(xi)2n
distance2
আদর্শ চ্যুতি
তারপরে আমাদের কাছে স্ট্যান্ডার্ড বিচ্যুতি রয়েছে, যা কেবলমাত্র পরিবর্তনের বর্গমূল:
σ=∑i=1n(xi−μ)2n−−−−−−−−−−−⎷
যা সমানভাবে দূরত্ব , স্বাধীনতার ডিগ্রির বর্গমূল দ্বারা বিভক্ত:
σ=∑i=1n(xi)2−−−−−−−√n−−√
পরম বিচ্যুতি
মিন অ্যাবসুলিউট ডেভিয়েশন (এমএডি) হ'ল ম্যানহাটান দূরত্ব বা গড় থেকে পার্থক্যের নিখুঁত মানগুলির যোগফলকে বিভক্ত করার একটি পরিমাপ।
MAD=∑i=1n|xi−μ|n
আবার, ধরে নিই ডেটা কেন্দ্রিক (গড় বিয়োগ) আমাদের ম্যানহাটনের দূরত্বটি পরিমাপের সংখ্যার দ্বারা বিভক্ত করেছে:
MAD=∑i=1n|xi|n
আলোচনা
- 2/π−−−√
- বিতরণ নির্বিশেষে, গড় নিরঙ্কুশ বিচ্যুতিটি আদর্শ বিচ্যুতির চেয়ে কম বা সমান equal এমএডি স্ট্যান্ডার্ড বিচ্যুতির সাথে সম্পর্কিত, চূড়ান্ত মানগুলির সাথে সেট করে ডেটার বিচ্ছুরণের বিষয়টি হ্রাস করে।
- গড় নিরঙ্কুশ বিচ্যুতি হ'ল বহিরাগতদের কাছে আরও দৃust় (যেমন আউটলিয়াররা স্ট্যাটিস্টিকের উপর এতটা প্রভাব ফেলবে না যতটা তারা স্ট্যান্ডার্ড বিচ্যুতির ক্ষেত্রে করে।
- জ্যামিতিকভাবে বলতে গেলে, যদি পরিমাপগুলি একে অপরের কাছে orthogonal না হয় (iid) - উদাহরণস্বরূপ, যদি সেগুলি ইতিবাচকভাবে সম্পর্কিত হয়, তবে নিরঙ্কুশ বিচ্যুতি স্ট্যান্ডার্ড বিচ্যুতির চেয়ে ভাল বর্ণনামূলক পরিসংখ্যান হতে পারে, যা ইউক্যালিডিয়ান দূরত্বের উপর নির্ভর করে (যদিও এটি সাধারণত সূক্ষ্ম হিসাবে বিবেচিত হয়) )।
এই টেবিলটি আরও সংক্ষিপ্ত উপায়ে উপরের তথ্যগুলি প্রতিবিম্বিত করে:
sizesize,∼Noutliersnot i.i.d.MAD≤σ.8×σrobustrobustσ≥MAD1.25×MADinfluencedok
মন্তব্যসমূহ:
আপনার কাছে কি "সাধারণ বিতরণকৃত ডেটাসেটের জন্য আদর্শ বিচ্যুতির আকারের কাছাকাছি সর্বমোট বিচ্যুতির পরিমাণের প্রায় 8.8 গুণ আছে" এর জন্য আপনার কাছে কোনও রেফারেন্স রয়েছে? আমি যে সিমুলেশনগুলি চালাচ্ছি এটি এটিকে ভুল হতে দেখায়।
মানক সাধারণ বিতরণ থেকে এক মিলিয়ন নমুনার জন্য এখানে 10 টি সিমুলেশন রয়েছে:
>>> from numpy.random import standard_normal
>>> from numpy import mean, absolute
>>> for _ in range(10):
... array = standard_normal(1_000_000)
... print(numpy.std(array), mean(absolute(array - mean(array))))
...
0.9999303226807994 0.7980634269273035
1.001126461808081 0.7985832977798981
0.9994247275533893 0.7980171649802613
0.9994142105335478 0.7972367136320848
1.0001188211817726 0.798021564315937
1.000442654481297 0.7981845236910842
1.0001537518728232 0.7975554993742403
1.0002838369191982 0.798143108250063
0.9999060114455384 0.797895284109523
1.0004871065680165 0.798726062813422
উপসংহার
আমরা বিস্তারের পরিমাপের গণনা করার সময় স্কোয়ার পার্থক্যগুলিকে পছন্দ করি কারণ আমরা ইউক্লিডিয়ান দূরত্বকে কাজে লাগাতে পারি, যা আমাদের বিচ্ছুরণের আরও ভাল ডিস্পেটিভ পরিসংখ্যান দেয়। যখন তুলনামূলকভাবে চূড়ান্ত মানগুলি থাকে, তখন ইউক্লিডিয়ান দূরত্ব পরিসংখ্যানগুলিতে এটির জন্য দায়বদ্ধ, যেখানে ম্যানহাটন দূরত্ব প্রতিটি পরিমাপকে সমান ওজন দেয়।