স্ট্যান্ডার্ড বিচ্যুতিতে পরম মান গ্রহণের পরিবর্তে পার্থক্যটি কেন বর্গাকার?


408

স্ট্যান্ডার্ড বিচ্যুতির সংজ্ঞায়, কেন আমাদের গড় (E) পেতে এবং বর্গমূলটি শেষে ফিরে পেতে কেন মধ্য থেকে পার্থক্যটি বর্গ করতে হবে ? আমরা কি কেবল পরিবর্তে পার্থক্যের নিখুঁত মানটি গ্রহণ করতে পারি না এবং সেগুলির প্রত্যাশিত মান (গড়) পেতে পারি এবং এটি কী ডেটাটির প্রকরণকে দেখায় না? সংখ্যাটি স্কোয়ার পদ্ধতি থেকে আলাদা হতে চলেছে (পরম-মান পদ্ধতিটি আরও কম হবে) তবে এটি এখনও ডেটা ছড়িয়ে দেওয়া উচিত। আমরা কেন এই বর্গ পদ্ধতির মান হিসাবে গ্রহণ করি তা কেউ জানেন?

স্ট্যান্ডার্ড বিচ্যুতি সংজ্ঞা:

σ=E[(Xμ)2].

আমরা কি পরিবর্তে কেবল পরম মান নিতে পারি না এবং এখনও একটি ভাল পরিমাপ হতে পারি?

σ=E[|Xμ|]


25
একটি উপায়ে, আপনার প্রস্তাবিত পরিমাপটি ত্রুটি (মডেল গুণমান) বিশ্লেষণের ক্ষেত্রে ব্যাপকভাবে ব্যবহৃত হয় - তারপরে এটিকে এমএই বলা হয়, "অর্থ নিরঙ্কুশ ত্রুটি"।

8
উত্তর গ্রহণের ক্ষেত্রে এটি আমার কাছে গুরুত্বপূর্ণ মনে হয়েছে যে আমরা উত্তরটি বিজ্ঞপ্তিযুক্ত কিনা সেদিকে আমরা মনোযোগ দেব। সাধারণ বন্টন স্কোয়ার ত্রুটির শর্তাবলী থেকে এই পার্থক্যের পরিমাপের উপর ভিত্তি করে তৈরি করা হয়, তবে এটি (XM) ^ 2 ওভার | এক্সএম | ব্যবহারের পক্ষে যুক্তিযুক্ত নয় এবং এটি নিজের মধ্যে নেই।
রাসেলপিয়ার্স

2
আপনি কি মনে করেন স্ট্যান্ডার্ড শব্দটির অর্থ এটিই আজকের মান? মূল উপাদানটি "প্রিন্সিপাল" এবং মাধ্যমিক নয় কেন তা জিজ্ঞাসার মতো নয়?
রবিন গিরার্ড

51
এখন পর্যন্ত দেওয়া প্রতিটি উত্তর বিজ্ঞপ্তিযুক্ত। তারা গাণিতিক গণনার স্বাচ্ছন্দ্যে (যা দুর্দান্ত তবে মৌলিক কোনও উপায়ে নয়) বা গাউসীয় (সাধারণ) বিতরণ এবং ওএলএসের বৈশিষ্ট্যগুলিতে মনোনিবেশ করে। 1800 চারপাশ গাউস শুরু লিস্ট স্কোয়ার এবং ভ্যারিয়েন্স এবং থেকে উদ্ভূত সাধারন বন্টন - সেখানে বৃত্ততুল্যতা আছে। একটি সত্যিকারের মৌলিক কারণ যা এখনও কোনও উত্তরে আমন্ত্রণ করা হয়নি তা হ'ল কেন্দ্রীয় সীমাবদ্ধ তত্ত্বের বৈকল্পিকতার দ্বারা অনন্য ভূমিকা । চতুর্ভুজ ক্ষয় হ্রাস করার সিদ্ধান্ত তত্ত্বের আরেকটি গুরুত্ব।
হোবার

2
স্ট্যান্ডার্ড বিচ্যুতি অবসর নেওয়ার অর্থ এবং নিখুঁত বিচ্যুতি ব্যবহারের জন্য তালেব এজ এআরজেজে মামলা করেছেন
অ্যালেক্স হলকম্ব

উত্তর:


188

যদি স্ট্যান্ডার্ড বিচ্যুতির লক্ষ্যটি একটি প্রতিসামগ্রী ডেটা সেটের বিস্তারকে সংক্ষিপ্ত করা হয় (অর্থাত্ প্রতিটি ডেটামটি গড় থেকে কতটা দূরে থাকে) তবে আমাদের কীভাবে সেই বিস্তারটি পরিমাপ করতে হবে তার সংজ্ঞা দেওয়ার একটি ভাল পদ্ধতি প্রয়োজন।

স্কোয়ারিংয়ের সুবিধার মধ্যে রয়েছে:

  • স্কোয়ারিং সর্বদা একটি ইতিবাচক মান দেয়, সুতরাং যোগফল শূন্য হবে না।
  • স্কোয়ারিং বৃহত্তর পার্থক্যের উপর জোর দেয় — এমন একটি বৈশিষ্ট্য যা ভাল এবং খারাপ উভয়ই হতে পারে (আউটলিয়ারের প্রভাবগুলির বিষয়ে চিন্তা করুন)।

স্কোয়ারিংয়ের প্রসারণের একটি পরিমাপ হিসাবে সমস্যা আছে এবং এটি হ'ল ইউনিটগুলি সমস্ত বর্গক্ষেত্রযুক্ত, যেখানে আমরা স্প্রেডটিকে মূল ডেটার মতো একই ইউনিটে থাকতে পছন্দ করতে পারি (স্কোয়ার্ড পাউন্ড, স্কোয়ার্ড ডলার বা স্কোয়ারড আপেল চিন্তা করি) । সুতরাং বর্গমূল আমাদের মূল ইউনিটগুলিতে ফিরতে দেয়।

আমি মনে করি আপনি বলতে পারেন নিরঙ্কুশ পার্থক্য ডেটা প্রসারের সমান ওজন নির্ধারণ করে যেখানে স্কোয়ারিং চূড়ান্ততার উপর জোর দেয়। প্রযুক্তিগতভাবে যদিও অন্যরা দেখিয়েছে, স্কোয়ারিং বীজগণিতকে কাজ করা আরও সহজ করে তোলে এবং এমন বৈশিষ্ট্য সরবরাহ করে যা নিখুঁত পদ্ধতিতে হয় না (উদাহরণস্বরূপ, বিভাজন বিয়োগের বর্গের প্রত্যাশিত মানের সমান হয় বর্গের বর্গ বিতরণের মাধ্যম)

তবে এটি লক্ষণীয় গুরুত্বপূর্ণ যে আপনি যদি 'স্প্রেড' দেখতে চান এমন বিষয়ে আপনার অগ্রাধিকার হয় তবে আপনি সম্পূর্ণ পার্থক্য নিতে পারবেন না এমন কোনও কারণ নেই (কিছু লোকেরা কীভাবে 5% কেমূল্যগুলিরজন্য কিছু জাদুকরী প্রান্তিক হিসাবেদেখেন, বাস্তবে এটি পরিস্থিতি নির্ভর)। প্রকৃতপক্ষে, স্প্রেড পরিমাপের জন্য বেশ কয়েকটি প্রতিযোগিতামূলক পদ্ধতি রয়েছে।p

আমার দৃষ্টিভঙ্গি বর্গক্ষেত্রের মানগুলি ব্যবহার করা হয় কারণ এটি পরিসংখ্যানের পাইথাগোরিয়ান উপপাদ্যের সাথে কীভাবে সম্পর্কিত তা আমি ভাবতে পছন্দ করি: … এটিও আমাকে স্মরণে রাখতে সহায়তা করে যে স্বাধীন র্যান্ডম ভেরিয়েবলগুলির সাথে কাজ করার সময় , রূপগুলি যুক্ত করে, মানক বিচ্যুতিগুলি তা করে না। তবে এটি কেবলমাত্র আমার ব্যক্তিগত বিষয়গত পছন্দ যা আমি বেশিরভাগই কেবল মেমরি সহায়তা হিসাবে ব্যবহার করি, এই অনুচ্ছেদে উপেক্ষা করে নির্দ্বিধায়।c=a2+b2

আরও অনেক গভীর-বিশ্লেষণ এখানে পড়তে পারেন ।


72
"স্কোয়ারিং সর্বদা একটি ধনাত্মক মান দেয়, সুতরাং যোগফল শূন্য হবে না।" এবং তাই পরম মান আছে।
রবিন গিরার্ড

32
@ আরবিন জিরাড: এটি সঠিক, তাই কেন আমি এই বিষয়টির আগে "স্কোয়ারিংয়ের সুবিধাগুলি অন্তর্ভুক্ত" দিয়েছি। আমি এই বিবৃতিতে পরম মান সম্পর্কে কিছুই বোঝাচ্ছিলাম না। আমি যদিও আপনার বক্তব্যটি বিবেচনা করছি, অন্যরা যদি এটি অস্পষ্ট বলে মনে করে তবে আমি এটিকে অপসারণ / পুনরায় প্রয়োগ করার বিষয়টি বিবেচনা করব।
টনি ব্রেকিয়াল

15
দৃ statistics় পরিসংখ্যানের ক্ষেত্রের বেশিরভাগ ক্ষেত্রই বিদেশী সংস্থাগুলির প্রতি অত্যধিক সংবেদনশীলতার সাথে মোকাবিলার একটি প্রয়াস যে এটি ডেটা ছড়িয়ে দেওয়ার (টেকনিক্যালি স্কেল বা ছড়িয়ে পড়া) একটি পরিমাপ হিসাবে প্রকরণটি বেছে নেওয়ার একটি পরিণতি। en.wikipedia.org/wiki/Robust_statistics
Thylacoleo

5
উত্তরে লিঙ্কিত নিবন্ধটি godশ্বর প্রেরণ।
ট্র্যাগ্যাটমোট

1
আমি মনে করি পাইথাগোরাস সম্পর্কে অনুচ্ছেদে স্পট রয়েছে। আপনি একটি ভেক্টর যেমন ত্রুটি মনে করতে পারেন সঙ্গে মাত্রা, নমুনার সংখ্যা হচ্ছে। প্রতিটি মাত্রার আকার সেই নমুনার জন্য গড় থেকে পার্থক্য। সেই ভেক্টরের দৈর্ঘ্য (পাইথাগোরাস) স্কোয়ারের মূল, মানে স্ট্যান্ডার্ড বিচ্যুতি। এন [ ( এক্স 1 - μ ) , ( এক্স 2 - μ ) , ( এক্স 3 - μ ) , ]nn[(x1μ),(x2μ),(x3μ),...]
আর্ন ব্রাসিউর

138

বর্গক্ষেত্রের পার্থক্যের আরও ভাল গাণিতিক বৈশিষ্ট্য রয়েছে; এটি অবিচ্ছিন্নভাবে পৃথকযোগ্য (আপনি যখন এটি হ্রাস করতে চান তখন দুর্দান্ত), এটি গাউসীয় বিতরণের জন্য পর্যাপ্ত পরিসংখ্যান এবং এটি এল 2 আদর্শ যা রূপান্তর প্রমাণের জন্য কার্যকর comes

গড় পরম বিচ্যুতি (আপনার প্রস্তাবিত নিখুঁত মান স্বরলিপি )টি বিচ্ছুরণের পরিমাপ হিসাবেও ব্যবহৃত হয় তবে এটি স্কোয়ার ত্রুটির মতো "ভাল আচরণ করা" নয়।


2
বলেছিলেন "এটি অবিচ্ছিন্নভাবে পৃথকযোগ্য (আপনি যখন এটি হ্রাস করতে চান তখন দুর্দান্ত)" আপনার অর্থ কী যে নিখুঁত মানটি অপ্টিমাইজ করা কঠিন?
রবিন গিরার্ড

29
@ আরবিন: যদিও সর্বদা মান ফাংশন সর্বত্র অবিচ্ছিন্ন থাকে, তবে এর প্রথম ডেরাইভেটিভ হয় না (x = 0 এ)। এটি বিশ্লেষণাত্মক অপ্টিমাইজেশনকে আরও কঠিন করে তোলে।
ভিন্স

12
হ্যাঁ, তবে এর সঠিক বিবরণীর চেয়ে আপনি যে প্রকৃত নম্বরটি চান তা সন্ধান করা স্কোয়ার ত্রুটি ক্ষতির অধীনে সহজ। 1 মাত্রার কেস বিবেচনা করুন; আপনি বর্গাকার ত্রুটির মিনিমাইজারটি গড় দ্বারা প্রকাশ করতে পারেন: O (n) ক্রিয়াকলাপ এবং বন্ধ ফর্ম। আপনি মিডিয়ান দ্বারা নিখুঁত ত্রুটি মিনিমাইজারের মানটি প্রকাশ করতে পারেন, তবে কোনও বদ্ধ-ফর্ম সমাধান নেই যা আপনাকে জানায় যে মাঝারি মানেরটি কী; এটির অনুসন্ধানের জন্য এটির জন্য বাছাই করা দরকার যা ও (এন লগ এন) এর মতো কিছু। সর্বনিম্ন স্কোয়ার সমাধানগুলি একটি সাধারণ প্লাগ-ও-চাগ টাইপ অপারেশন হতে থাকে, পরম মান সমাধানগুলিতে সাধারণত আরও বেশি কাজের প্রয়োজন হয়।
ধনী

5
@ রিচ: বৈকল্পিক এবং মিডিয়ান উভয়ই লিনিয়ার সময়ে পাওয়া যাবে এবং অবশ্যই এর চেয়ে দ্রুত কোনও উপায় নেই। মিডিয়ান বাছাইয়ের প্রয়োজন হয় না।
নিল জি


84

আপনি যেভাবে ভাবতে পারেন তা হ'ল মানক বিচ্যুতি "গড় থেকে দূরত্ব" এর মতো।

ইউক্লিডিয়ান স্পেসে দূরত্বের সাথে এটির তুলনা করুন - এটি আপনাকে প্রকৃত দূরত্ব দেয় যেখানে আপনি যা পরামর্শ করেছিলেন (যা বিটিডাব্লু, পরম বিচ্যুতি ) ম্যানহাটনের দূরত্ব গণনার চেয়ে অনেক বেশি is


17
ইউক্লিডিয়ান স্পেসের দুর্দান্ত উপমা!
c4il

2
এক মাত্রায় বাদে এবং আদর্শ একই জিনিস, তাই না? l 2l1l2
নিট 101

5
@ নটড ১০১: এটি একটি মাত্রা নয়, বরং মাত্রা যেখানে নমুনার সংখ্যা। স্ট্যানডার্ড ডেভিয়েশন এবং পরম ডেভিয়েশন (ছোটো হয় না) এবং দূরত্বের যথাক্রমে দুটো বিন্দুর মধ্যে এবং যেখানে হয় মানে। এন এল 2 এল 1 ( এক্স 1 , এক্স 2 , , এক্স এন ) ( μ , μ , , μ ) μnnl2l1(x1,x2,,xn)(μ,μ,,μ)μ
শ্রীভাতসারআর

1
এটি গড় থেকে ন্যূনতম দূরত্ব হিসাবে পরিবর্তন করা উচিত। এটি মূলত পাইথাগোরিয়ান সমীকরণ।
জন

56

কারণ যে আমরা মান পরিবর্তে বিচ্যুতি পরম ত্রুটি নিরূপণ যে আমরা হয় ত্রুটি অভিমানী স্বাভাবিকভাবে বিতরণ করা । এটি মডেলের একটি অংশ।

ধরুন আপনি কোনও শাসকের সাথে খুব ছোট দৈর্ঘ্য পরিমাপ করছেন, তবে স্ট্যান্ডার্ড বিচ্যুতি ত্রুটির জন্য খারাপ মেট্রিক কারণ আপনি জানেন যে আপনি কখনই ঘটনাক্রমে নেতিবাচক দৈর্ঘ্য পরিমাপ করবেন না। আপনার পরিমাপে গামা বিতরণ ফিট করার জন্য আরও ভাল মেট্রিক হ'ল:

log(E(x))E(log(x))

স্ট্যান্ডার্ড বিচ্যুতিগুলির মতো এটিও অ-নেতিবাচক এবং পৃথকযোগ্য, তবে এটি এই সমস্যার জন্য আরও ভাল ত্রুটির পরিসংখ্যান।


3
আমি আপনার উত্তর পছন্দ। এসডি সর্বদা সেরা পরিসংখ্যান নয়।
রকসায়েন্স

2
স্ট্যান্ডার্ড বিচ্যুতি কখন ওঠানামার আকার বিবেচনা করার সেরা উপায় নয় তা সম্পর্কে দুর্দান্ত উদাহরণ counter
এইচবি

অবতল লগ এক্সের পরিবর্তে উত্তল ব্যবহার করে - ইতিবাচক পরিমাপের জন্য পরিমাণের উপর আপনার বিপরীত চিহ্ন থাকা উচিত নয় ? logxlogx
আঃ

@ এএস না, এটি ইতিমধ্যে সর্বদা ইতিবাচক। এটি সমস্ত শূন্য হয় যখন সমস্ত নমুনা সমান হয় এবং অন্যথায় এর দৈর্ঘ্য প্রকরণকে পরিমাপ করে। x
নিল জি

তুমি ভুল করছ. অবতল জন্য E(g(X))g(E(X))g
এএস

25

যে উত্তরটি আমাকে সবচেয়ে সন্তুষ্ট করেছে তা হ'ল এটি প্রাকৃতিকভাবে কোনও নমুনার সাধারণীকরণ থেকে এন-ডাইমেনশনাল ইউক্লিডিয়ান স্পেসে পড়ে falls এটি এমন কিছু করা উচিত কিনা তা অবশ্যই বিতর্কযোগ্য তবে কোনও অবস্থাতেই:

nXiRnxixμXi=μμ^=x¯μ^1n1nσ^=xμ^1

এই পদ্ধতির সাথে সম্পর্কিত করার জন্য একটি জ্যামিতিক ব্যাখ্যাও পাওয়া যায়, ।ρ^=cos(x~,y~)


7
এটি সঠিক এবং আবেদনময়ী। যাইহোক, শেষ পর্যন্ত এটি কেবল উত্তরটি না দিয়েই কেবল পুনরায় প্রশ্নটির পুনঃবিবেচনা করার জন্য উপস্থিত হয়: যথা, আমরা ইউক্লিডিয়ান (এল 2) দূরত্ব কেন ব্যবহার করব?
whuber

20
১৮০৯ সালে গৌস তার সূচিত বিন্দু হিসাবে পরম ত্রুটির পরিবর্তে স্কোয়ার ত্রুটি ব্যবহার করে স্কোয়ার ত্রুটি ব্যবহার করে তার নামবিহীন বিচ্যুতি গ্রহণ না করা অবধি স্ট্যান্ডার্ড বিচ্যুতিগুলি সাধারণ হয়ে উঠেনি। যাইহোক, যা তাদের শীর্ষে ফেলেছিল (আমি বিশ্বাস করি) হ'ল গালটনের রিগ্রেশন তত্ত্ব (যার দিকে আপনি ইঙ্গিত দিয়েছিলেন) এবং আনোভা-র পরিমাণে বিভিন্ন স্কোয়ারের পচা করার ক্ষমতা - যা পাইথাগোরিয়ান উপপাদ্যের পুনরুদ্ধারের সমান, কেবল একটি সম্পর্ক উপভোগ করেছে এল 2 আদর্শ সুতরাং এসডি ফিশারের 1925 "গবেষণা কর্মীদের জন্য পরিসংখ্যানগত পদ্ধতি" এ প্রচারের প্রাকৃতিক সর্বজনীন পরিমাপে পরিণত হয়েছিল এবং আমরা 85 বছর পরে এখানে আছি।
শুক্রবার

13
(+1) @ হোবারের শিরা অবিরত রেখে, আমি বাজি ধরতে পারি যে, ছাত্র ১৯০৮ সালে একটি গবেষণামূলক প্রবন্ধ প্রকাশ করেছিল, "মিটারের সম্ভাব্য ত্রুটি - আরে, বন্ধুরা, ডিনোমিনেটরে যে এমএই পরীক্ষা করে দেখুন!" তাহলে এখনকার পরিসংখ্যানগুলির সম্পূর্ণ ভিন্ন চেহারা হবে। অবশ্যই, তিনি এর মতো একটি কাগজ প্রকাশ করেন নি, এবং অবশ্যই তিনি থাকতে পারেন নি, কারণ এমএই এস ^ 2 এর সমস্ত দুর্দান্ত বৈশিষ্ট্য নিয়ে গর্ব করে না। এর মধ্যে একটি (শিক্ষার্থীর সাথে সম্পর্কিত) এর গড়ের স্বাধীনতা (সাধারণ ক্ষেত্রে), যা অবশ্যই অরথোগোনালটির পুনরুদ্ধার, যা আমাদের সরাসরি এল 2 এবং অভ্যন্তরীণ পণ্যটিতে ফিরে আসে।

3
এই উত্তরটি চিন্তা-চেতনামূলক ছিল এবং আমি মনে করি এটি দেখার আমার পছন্দের উপায়। 1-ডি-তে এটি বুঝতে অসুবিধা হয় যে কেন স্কোয়ারিং পার্থক্যটিকে আরও ভাল হিসাবে দেখা হয়। তবে একাধিক মাত্রায় (বা এমনকি মাত্র ২) সহজেই দেখতে পাওয়া যায় যে ইউক্লিডিয়ান দূরত্ব (স্কোয়ারিং) ম্যানহাটনের দূরত্বের (পার্থক্যের নিখুঁত মানের যোগফল) এর চেয়ে ভাল।
thecity2

1
@ হুইবার আপনি কি দয়া করে "Xᵢ = μ দ্বারা বর্ণিত রেখাটির অর্থ বোঝাতে পারেন? এটি কি মূল এবং বিন্দু (passing, μ, ..., μ) এর মধ্য দিয়ে চলেছে? এছাড়াও, আমি এই বিষয়ে আরও কোথায় পড়তে পারি?
আর্চ স্টান্টন

18

গড় থেকে পার্থক্যটি স্কোয়ার করার কয়েকটি কারণ রয়েছে।

  • বিচ্যুতিটি বিচ্যুতির দ্বিতীয় মুহুর্ত হিসাবে সংজ্ঞায়িত করা হয় এখানে হয় এবং সুতরাং মুহূর্তগুলি বর্গ হিসাবে কেবল এলোমেলো পরিবর্তনশীলের উচ্চতর শক্তির প্রত্যাশা।(xμ)

  • পরম মান ফাংশনের বিপরীতে একটি বর্গক্ষেত্র থাকা একটি দুর্দান্ত ধারাবাহিক এবং ডিফারেন্সিয়াল ফাংশন দেয় (পরম মান 0 তে পার্থক্যযোগ্য নয়) - যা প্রাকৃতিক পছন্দ করে তোলে, বিশেষত অনুমান এবং রিগ্রেশন বিশ্লেষণের প্রসঙ্গে।

  • স্কোয়ার গঠনটি স্বাভাবিকভাবেই সাধারণ বিতরণের পরামিতিগুলির বাইরে চলে যায়।


17

তবুও আরেকটি কারণ (উপরে বর্ণিত সর্বোত্তমগুলি ছাড়াও) ফিশার নিজেই এসেছিলেন, তিনি দেখিয়েছিলেন যে প্রমিত বিচ্যুতি পরম বিচ্যুতির চেয়ে বেশি "দক্ষ" " এখানে, দক্ষতার সাথে কোনও জনসংখ্যার বিভিন্ন নমুনা নেওয়ার ক্ষেত্রে পরিসংখ্যানের পরিমাণে কতটা ওঠানামা করা হবে তা করতে হবে। যদি আপনার জনসংখ্যা সাধারণত বিতরণ করা হয়, তবে সেই জনসংখ্যার বিভিন্ন নমুনার মানক বিচ্যুতি, গড়ে, আপনাকে একে অপরের সাথে বেশ সমান মূল্যবান মান দেয়, অন্যদিকে পরম বিচ্যুতি আপনাকে এমন সংখ্যা দেবে যা কিছুটা আরও ছড়িয়ে পড়ে। এখন, স্পষ্টতই এটি আদর্শ পরিস্থিতিতে, তবে এই কারণেই প্রচুর লোককে বোঝানো হয়েছিল (গণিতটি ক্লিনার পাশাপাশি) তাই বেশিরভাগ লোকেরা স্ট্যান্ডার্ড বিচ্যুতি নিয়ে কাজ করেছিলেন।


6
আপনার যুক্তি সাধারণত বিতরণ করা ডেটার উপর নির্ভর করে। যদি আমরা জনগণকে "দ্বিগুণ তাত্পর্যপূর্ণ" বিতরণ হিসাবে ধরে নিয়ে থাকি তবে পরম বিচ্যুতি আরও কার্যকর (আসলে এটি স্কেলের যথেষ্ট পরিসংখ্যান)
সম্ভাব্যতা

7
হ্যাঁ, আমি যেমন বলেছি, "যদি আপনার জনসংখ্যা সাধারণত বিতরণ করা হয়"।
এরিক সু

সাধারণ বিতরণ ধরে নেওয়া ছাড়াও ফিশার প্রুফ ত্রুটিমুক্ত পরিমাপ অনুমান করে। 1% এর মতো ছোট ত্রুটি সহ পরিস্থিতি উল্টে যায় এবং গড় নিখুঁত বিচ্যুতি স্ট্যান্ডার্ড বিচ্যুতির চেয়ে বেশি দক্ষ
জুনআরগা

14

ঠিক তাই লোকেরা জানেন, একই বিষয়ে একটি ম্যাথ ওভারফ্লো প্রশ্ন রয়েছে।

কেন-is-এটা তাই শীতল-টু-স্কয়ার সংখ্যা-ইন-পদ-অফ-খোঁজার-মান-বিচ্যুতি

টেক অফ বার্তাটি হ'ল বৈকল্পিকের বর্গমূল ব্যবহার করা সহজ গণিতের দিকে পরিচালিত করে। উপরে সমৃদ্ধ এবং রিড একটি অনুরূপ প্রতিক্রিয়া জানিয়েছে।


3
যখন আমরা আমাদের সূত্র এবং মানগুলি আরও সত্যিকারের কোনও ডেটা সেটকে প্রতিফলিত করতে চাই তখন 'সহজ গণিত' একটি প্রয়োজনীয় প্রয়োজনীয়তা নয়। কম্পিউটারগুলি কঠোর পরিশ্রম যাই হোক না কেন করে।
ড্যান ডব্লিউ

পাইকে 3.14 হিসাবে সংজ্ঞায়িত করা গণিতকে সহজ করে তোলে তবে এটি সঠিক হয় না doesn't
জেমস

13

ভেরিয়েন্সগুলি যুক্ত হয়: স্বতন্ত্র র্যান্ডম ভেরিয়েবলগুলির জন্য , Var ( এক্স 1 + + + + এক্স এন ) = Var ( এক্স 1 ) + + + + Var ( এক্স এন ) X1,,Xn

var(X1++Xn)=var(X1)++var(Xn).

এটি কীভাবে সম্ভব করে তা লক্ষ্য করুন: আমি 900 বার একটি ন্যায্য মুদ্রা টস করে বলি। 440 থেকে 455 এর মধ্যে আমি যে মাথা পেতে পারি তার সম্ভাবনা কী? শুধু মাথা প্রত্যাশিত নম্বর (এটি ), এবং মাথা (সংখ্যা ভ্যারিয়েন্স ), তারপর প্রত্যাশা সঙ্গে একটি স্বাভাবিক (অথবা গসিয়ান) ডিস্ট্রিবিউশনের সাথে সম্ভাব্যতা খুঁজে এবং মানক চ্যুতির মধ্যে এবং । আব্রাহাম ডি মাইভ্রে আঠারো শতকে কয়েন টসসের সাহায্যে এটি করেছিলেন, এর মাধ্যমে প্রথমে দেখানো হয় যে বেল-আকৃতির বক্ররেখার মূল্য আছে।225 = 15 2 450 15 439.5 455.5450225=15245015439.5455.5


মানে কি পরম বিচ্যুতিগুলি বৈকল্পগুলির মতো একইভাবে সংযোজিত নয়?
রাসেলপিয়ের্স

6
না, তারা না।
মাইকেল হার্ডি

10

আমি মনে করি নিখুঁত বিচ্যুতি এবং স্কোয়ার বিচ্যুতির ব্যবহারের মধ্যে বৈসাদৃশ্য আরও স্পষ্ট হয়ে ওঠে যখন আপনি একবারে কোনও একক চলকের বাইরে চলে যান এবং লিনিয়ার রিগ্রেশন সম্পর্কে ভাবেন। Http://en.wikedia.org/wiki/Laast_absolve_deviations- এ একটি বিশেষ আলোচনা রয়েছে , বিশেষত "স্বল্পতম স্কোয়ারগুলির সাথে স্বল্প স্কোয়ারের বিপরীতে" বিভাগটি, যা কিছু শিক্ষার্থীর অনুশীলনের সাথে লিঙ্কযুক্ত, যা আপেলগুলির একটি ঝরঝরে সেট আপলেট : // www .math.wpi.edu / Course_Materials / এসএএস / lablets / 7.3 / 73_choices.html

সংক্ষিপ্তসার হিসাবে, সর্বনিম্ন নিখুঁত বিচ্যুতি সাধারণ ন্যূনতম স্কোয়ারের তুলনায় বহিরাগতদের কাছে আরও শক্তিশালী, তবে এটি অস্থির হতে পারে (এমনকি একটি ডেটামের মধ্যে ছোট পরিবর্তনও লাগানো লাইনে বড় পরিবর্তন আনতে পারে) এবং সর্বদা একটি অনন্য সমাধান নেই - সেখানে থাকতে পারে লাগানো লাইনের পুরো পরিসর। এছাড়াও সর্বনিম্ন নিরঙ্কুশ বিচ্যুতিগুলির পুনরাবৃত্ত পদ্ধতিগুলির প্রয়োজন হয়, যখন সাধারণ ন্যূনতম স্কোয়ারগুলির একটি সহজ বদ্ধ-ফর্ম সমাধান রয়েছে, যদিও এটি এখন গৌস এবং লেজেন্ড্রেয়ের সময়ে যেমন ছিল তেমন কোনও বড় বিষয় নয়।


"অনন্য সমাধান" যুক্তিটি বেশ দুর্বল, এর সত্যিকার অর্থে ডেটা দ্বারা সমর্থিত একাধিক মান রয়েছে। তদ্ব্যতীত, এল 2 এর মতো সহগের শাস্তি দেওয়ার ফলে স্বতন্ত্রতা সমস্যা এবং স্থায়িত্বের সমস্যাটিও এক ডিগ্রীতে সমাধান হবে।
সম্ভাব্যতাব্লোগিক

10

এখানে অনেক কারণ আছে; সম্ভবত প্রধান এটি সাধারণ বিতরণের পরামিতি হিসাবে ভাল কাজ করে।


4
আমি রাজী. যদি আপনি সাধারণ বন্টন অনুমান করেন তবে প্রসারণ পরিমাপের সঠিক উপায় হ'ল স্ট্যান্ডার্ড বিচ্যুতি । এবং প্রচুর বিতরণ এবং বাস্তব ডেটা প্রায় একটি সাধারণ।
asukasz Lew

2
আমার মনে হয় না যে আপনার "প্রাকৃতিক পরামিতি" বলা উচিত: সাধারণ বন্টনের প্রাকৃতিক প্যারামিটারগুলি গড় এবং গড় সময়ের যথার্থতা। ( en.wikedia.org/wiki/N Natural_parameter )
নীল জি

1
@ নীলজি গুড পয়েন্ট; আমি এখানে "নৈমিত্তিক" অর্থ সম্পর্কে ভাবছিলাম। আমি আরও ভাল শব্দ সম্পর্কে চিন্তা করব।

8

বিভিন্ন উপায়ে, ছড়িয়ে যাওয়ার সংক্ষিপ্তসার জন্য স্ট্যান্ডার্ড বিচ্যুতির ব্যবহার একটি সিদ্ধান্তে ঝাঁপিয়ে পড়ে। আপনি বলতে পারেন যে এসডি পরিমিতরূপে গড়ের চেয়ে দূরত্বের তুলনায় এর দূরত্বের সমান চিকিত্সার কারণে একটি প্রতিসৃত বিতরণ অনুমান করে। অ-পরিসংখ্যানবিদদের ব্যাখ্যা করার জন্য এসডি আশ্চর্যজনকভাবে কঠিন। কেউ তর্ক করতে পারেন যে গিনির গড় পার্থক্যটির বিস্তৃত প্রয়োগ রয়েছে এবং এটি উল্লেখযোগ্যভাবে আরও ব্যাখ্যাযোগ্য। এটির জন্য কেন্দ্রীয় প্রবণতার একটি পরিমাপের তাদের পছন্দ ঘোষণা করার প্রয়োজন হয় না কারণ এসডি ব্যবহারের জন্য এটি ব্যবহার করে। গিনির গড় পার্থক্য হ'ল যে কোনও দুটি পৃথক পর্যবেক্ষণের মধ্যে গড় পরম পার্থক্য। শক্তিশালী এবং সহজে ব্যাখ্যা করা ছাড়াও এটি এসডি হিসাবে 0.98 হিসাবে দক্ষ হিসাবে যদি ডিস্ট্রিবিউশনটি গাউসিয়ান হয় তবে তা কার্যকর হয়।


2
জিনিকে @ ফ্র্যাঙ্কের পরামর্শ যোগ করতে, এখানে একটি দুর্দান্ত কাগজ রয়েছে: প্রোজেকটিউক্লাইড.আরডাউনলোড / পিডিএফ_1/euclid.ss/1028905831 এটি বিভিন্ন পদক্ষেপের বিভিন্ন ব্যবস্থাকে ছাড়িয়ে যায় এবং তথ্যবহুল historicalতিহাসিক দৃষ্টিভঙ্গিও দেয়।
থমাস স্পিডেল

1
আমি এই ধারণাগুলিও পছন্দ করি, তবে ভিন্নতার (এবং এইভাবে এসডি) একটি কম পরিচিত সমান্তরাল সংজ্ঞা রয়েছে যা অবস্থানের পরামিতি হিসাবে কোনও উল্লেখ করে না। মানগুলির মধ্যে জুটিযুক্ত পার্থক্যগুলির তুলনায় বৈসাদৃশ্যটি অর্ধেক গড় বর্গক্ষেত্রের মতো, যেমন গিনির গড় পার্থক্য সমস্ত যুগল পার্থক্যের পরম মানের উপর ভিত্তি করে।
নিক কক্স

7

কোনও বিতরণের মানক বিচ্যুতি অনুমান করার জন্য একটি দূরত্ব চয়ন করা প্রয়োজন।
নীচের যে কোনও দূরত্ব ব্যবহার করা যেতে পারে:

dn((X)i=1,,I,μ)=(|Xμ|n)1/n

n=2n=1

n=3

n=2


6

আপনি "ডেটার বিস্তার" বললে আপনি কী সম্পর্কে কথা বলছেন তা নির্ভর করে। আমার কাছে এটি দুটি জিনিস বোঝাতে পারে:

  1. একটি নমুনা বিতরণ প্রস্থ
  2. প্রদত্ত অনুমানের যথার্থতা

E(|Xμ|)E(X2)E(|X|)

DIθ

p(θDI)=exp(h(θ))exp(h(t))dth(θ)log[p(θI)p(DθI)]

tθθmax

h(θ)h(θmax)+(θmaxθ)h(θmax)+12(θmaxθ)2h(θmax)

তবে আমাদের এখানে রয়েছে কারণ একটি "ভাল বৃত্তাকার" সর্বোচ্চ, , তাই আমাদের আছে:θmaxh(θmax)=0

h(θ)h(θmax)+12(θmaxθ)2h(θmax)

আমরা যদি এই আনুমানিকতাটি প্লাগ করি তবে আমরা পাই:

p(θDI)exp(h(θmax)+12(θmaxθ)2h(θmax))exp(h(θmax)+12(θmaxt)2h(θmax))dt

=exp(12(θmaxθ)2h(θmax))exp(12(θmaxt)2h(θmax))dt

কোনটি, তবে স্বরলিখনের জন্য একটি সাধারণ বিতরণ, যার গড় গড় এবং সমান বৈকল্পিকE(θDI)θmax

V(θDI)[h(θmax)]1

( সর্বদা ইতিবাচক কারণ আমাদের একটি সর্বোচ্চ গোলাকার সর্বোচ্চ)। সুতরাং এর অর্থ হ'ল "নিয়মিত সমস্যাগুলি" (যা তাদের বেশিরভাগ ক্ষেত্রে), তারতম্যটি মৌলিক পরিমাণ যা জন্য অনুমানের যথার্থতা নির্ধারণ করে । সুতরাং প্রচুর পরিমাণে তথ্যের উপর ভিত্তি করে অনুমানের জন্য, আদর্শ বিচ্যুতি তাত্ত্বিকভাবে অনেক কিছু বোঝায় - এটি আপনাকে মূলত যা জানার দরকার তা সব বলে দেয়। মূলত একই যুক্তি প্রযোজ্য (একই শর্তের সাথে প্রয়োজনীয়) হেসিয়ান ম্যাট্রিক্স হচ্ছে। তির্যক এন্ট্রিগুলি এখানেও মূলত বৈকল্পিক।h(θmax)θh(θ)jk=h(θ)θjθk

সর্বাধিক সম্ভাবনার পদ্ধতিটি ব্যবহার করে ঘন ঘনবাদী মূলত একই সিদ্ধান্তে আসবেন কারণ এমএলই তথ্যের এক ভারী সংমিশ্রণ বলে মনে করে এবং বড় নমুনাগুলির জন্য কেন্দ্রীয় সীমাবদ্ধ তত্ত্বটি প্রযোজ্য এবং আপনি take নিলে আপনি মূলত একই ফলাফল পাবেন কিন্তু এবং আন্তঃপরিবর্তন: (দেখুন আপনি অনুমান করতে পারেন আমি কোন দৃষ্টান্ত পছন্দ করি: পি)। সুতরাং যে কোনও উপায়ে, প্যারামিটার অনুমানে স্ট্যান্ডার্ড বিচ্যুতিটি স্প্রেডের একটি গুরুত্বপূর্ণ তাত্ত্বিক পরিমাপ।θ θ সর্বোচ্চ পি ( θ সর্বোচ্চ | θ ) এন ( θ , [ - " ( θ সর্বোচ্চ ) ] - 1 )p(θI)=1θθmax

p(θmaxθ)N(θ,[h(θmax)]1)

6

"পরম মূল্য গ্রহণের" পরিবর্তে "পার্থক্যটি কেন বর্গাকার"? খুব সঠিক উত্তর দেওয়ার জন্য, এমন সাহিত্য রয়েছে যা এটি গ্রহণ করার কারণগুলি দেয় এবং সেই কারণগুলির বেশিরভাগ কারণ কেন ধরে না the "আমরা কি কেবল নিখুঁত মান নিতে পারি না ...?"। আমি সাহিত্যে সচেতন যে উত্তরটি হ্যাঁ এটি করা হচ্ছে এবং এটি করা সুবিধাজনক হওয়ার পক্ষে যুক্তিযুক্ত।

লেখক গোরার্ড বলেছেন, প্রথমত, স্কোয়ারগুলি ব্যবহার করা আগে গণনার সরলতার কারণে গৃহীত হয়েছিল কিন্তু সেই মূল কারণগুলি আর ধারণ করে না। গোরার্ড জানিয়েছে, দ্বিতীয়, ওএলএস গ্রহণ করা হয়েছিল কারণ ফিশার আবিষ্কার করেছিলেন যে ওলিস ব্যবহার করা বিশ্লেষণের নমুনার ফলাফলগুলির মধ্যে নিখুঁত পার্থক্যগুলি ব্যবহার করার চেয়ে ছোট বিচ্যুতি ছিল (মোটামুটি বিবৃত)। সুতরাং, এটি মনে হবে যে কোনও আদর্শ পরিস্থিতিতে ওএলএসের সুবিধাগুলি থাকতে পারে; যাইহোক, গোরার্ড লক্ষণীয়ভাবে এগিয়ে গেছে যে কিছু usক্যমত্য রয়েছে (এবং তিনি দাবি করেন ফিশার সম্মত হয়েছেন) যে বাস্তব বিশ্বের অবস্থার অধীনে (পর্যবেক্ষণের অপূর্ণ পরিমাপ, অ-ইউনিফর্ম বিতরণ, একটি নমুনা ছাড়াই জনসংখ্যার অধ্যয়ন), স্কোয়ার ব্যবহারের চেয়ে আরও খারাপ পরম পার্থক্য।

আপনার প্রশ্নের বিষয়ে গোরার্ডের প্রতিক্রিয়া "আমরা কি পরিবর্তে পার্থক্যের নিখুঁত মান নিতে পারি না এবং সেগুলির প্রত্যাশিত মান (গড়) পেতে পারি না?" হ্যাঁ. আরেকটি সুবিধা হ'ল পার্থক্যগুলি ব্যবহার করে এমন ব্যবস্থা (ত্রুটি এবং প্রকরণের ব্যবস্থা) উত্পাদন করা হয় যা আমরা সেই ধারণাগুলি জীবনে অভিজ্ঞতা অর্জনের সাথে সম্পর্কিত। গোরার্ড বলেছেন, এমন লোকদের কল্পনা করুন যারা রেস্তোঁরা বিলকে সমানভাবে বিভক্ত করেন এবং কেউ কেউ স্বজ্ঞাতই লক্ষ্য করতে পারেন যে সেই পদ্ধতিটি অনুচিত air কেউ ত্রুটিগুলির স্কোয়ার করবে না; পার্থক্য হল পয়েন্ট।

পরিশেষে, নিখুঁত পার্থক্য ব্যবহার করে তিনি নোট করেছেন, প্রতিটি পর্যবেক্ষণকে সমানভাবে বিবেচনা করেন, তবে বিপরীত পার্থক্যের মাধ্যমে পর্যবেক্ষণগুলি ভালভাবে পূর্বাভাসের চেয়ে কম ওজনের পূর্বাভাস দেয়, যা নির্দিষ্ট পর্যবেক্ষণকে একাধিকবার অন্তর্ভুক্ত করার মতো। সংক্ষেপে, তাঁর সাধারণ জোর এটি হ'ল স্কোয়ারগুলি ব্যবহার করার পক্ষে আজ অনেকগুলি বিজয়ী কারণ নেই এবং বিপরীতে পরম পার্থক্যগুলি ব্যবহার করার সুবিধা রয়েছে।

তথ্যসূত্র:


1
ধন্যবাদ @ জেন, এটি আমাকে QWERTY কীবোর্ড ইতিহাসের কথা মনে করিয়ে দেয়। আরে, কিউওয়ার্টি টাইপ করতে এতক্ষণ কীভাবে লাগে?
টোটো_টিকো

5

কারণ স্কোয়ারগুলি পরম মানগুলির তুলনায় আরও অনেকগুলি গাণিতিক ক্রিয়াকলাপ বা ফাংশন ব্যবহারের অনুমতি দিতে পারে।

উদাহরণ: স্কোয়ারগুলি সংহত করা যায়, আলাদা করা যায়, ত্রিকোণমিতি, লোগারিদমিক এবং অন্যান্য ফাংশনগুলিতে সহজেই ব্যবহার করা যায়।


2
আমি আশ্চর্য হই যে এখানে কোনও স্ব-পরিপূর্ণ প্রজ্ঞা আছে কিনা। আমরা
সম্ভাব্যতা ব্লগ

5

এলোমেলো ভেরিয়েবলগুলি যুক্ত করার সময়, সমস্ত বিতরণের জন্য তাদের রূপগুলি যুক্ত করে। ভেরিয়েন্স (এবং তাই স্ট্যান্ডার্ড বিচ্যুতি) প্রায় সমস্ত বিতরণের জন্য একটি দরকারী পরিমাপ, এবং কোনওভাবেই গাউসিয়ান (ওরফে "সাধারণ") বিতরণে সীমাবদ্ধ নয়। এটি আমাদের ত্রুটি পরিমাপ হিসাবে এটি ব্যবহারের পক্ষে। স্বতন্ত্রতার অভাব নিখুঁত পার্থক্যগুলির সাথে একটি গুরুতর সমস্যা, কারণ প্রায়শই অসীম সংখ্যার সমান পরিমাপ "ফিট" হয় এবং এখনও স্পষ্টতই "মাঝখানে একটি" সবচেয়ে বাস্তবসম্মতভাবে অনুকূল হয়। এছাড়াও, আজকের কম্পিউটারগুলির সাথেও, গণনা দক্ষতার বিষয়টি গুরুত্বপূর্ণ। আমি বড় ডেটা সেট নিয়ে কাজ করি এবং সিপিইউ সময় গুরুত্বপূর্ণ। যাইহোক, পূর্ববর্তী কয়েকটি জবাব দ্বারা চিহ্নিত হিসাবে অবশিষ্টগুলির কোনও একক পরম "সেরা" পরিমাপ নেই। বিভিন্ন পরিস্থিতিতে কখনও কখনও বিভিন্ন ব্যবস্থা গ্রহণের আহ্বান জানানো হয়।


2
আমি অমীমাংসিত রয়েছি যে বৈকল্পগুলি অসম্পূর্ণ বিতরণের জন্য খুব কার্যকর।
ফ্র্যাঙ্ক হ্যারেল

"অর্ধ-রূপগুলি", একটি upর্ধ্বমুখী, একটি নীচের দিকে?
কেজেটিল বি হালওয়ারসেন

3

স্বভাবতই আপনি কোনও বিতরণ ছড়িয়ে দেওয়ার অর্থ কোনও উপায়ে (নিরঙ্কুশ বিচ্যুতি, কোয়ান্টাইল ইত্যাদি) বর্ণনা করতে পারেন।

একটি দুর্দান্ত সত্য হ'ল বৈকল্পিকতাটি দ্বিতীয় কেন্দ্রীয় মুহুর্ত এবং প্রতিটি বন্টন যদি উপস্থিত থাকে তবে তার মুহুর্তগুলি দ্বারা স্বতন্ত্রভাবে বর্ণনা করা হয়। আর একটি সুন্দর সত্য যে তুলনামূলক মেট্রিকের তুলনায় বৈচিত্রটি গাণিতিকভাবে অনেক বেশি ট্র্যাকটেবল। আরেকটি সত্য হ'ল বৈকল্পিকতা স্বাভাবিক প্যারামিট্রাইজেশনের জন্য সাধারণ বিতরণের দুটি প্যারামিটারগুলির মধ্যে একটি এবং সাধারণ বিতরণে কেবল 2 অ-শূন্য কেন্দ্রীয় মুহূর্ত থাকে যা দুটি খুব পরামিতি। এমনকি সাধারণ-স্বাভাবিক বিতরণের জন্যও এটি একটি সাধারণ কাঠামোতে ভাবতে সহায়তা করতে পারে।

আমি এটি দেখতে পাচ্ছি, স্ট্যান্ডার্ড বিচ্যুতি যেমন রয়েছে তার কারণ হ'ল অ্যাপ্লিকেশনগুলিতে নিয়মিত পরিবর্তনের স্কোয়ার-রুট উপস্থিত হয় (যেমন একটি এলোমেলো ভেরিয়েবলকে মানীকরণ করা), যার জন্য এটি একটি নাম প্রয়োজন।


1
যদি আমি সঠিকভাবে স্মরণ করি তবে লগ-সাধারণ বিতরণটি তার মুহুর্তগুলির দ্বারা স্বতন্ত্রভাবে সংজ্ঞায়িত হয় না।
সম্ভাব্যতাব্লোগিক

1
@probabilityislogic প্রকৃতপক্ষে, যে সত্য, দেখতে en.wikipedia.org/wiki/Log-normal_distribution অধ্যায় "চারিত্রিক বৈশিষ্ট্যগত ফাংশন এবং মুহূর্ত উৎপাদিত ফাংশন" হবে।
কেজিটিল বি হালওয়ারসেন

1

আপনি যখন লিনিয়ার রিগ্রেশন বনাম মিডিয়ান রিগ্রেশন সম্পর্কে ভাবেন তখন একটি ভিন্ন এবং সম্ভবত আরও স্বজ্ঞাত পন্থা।

E(y|x)=xββ=argminbE(yxb)2

(y|x)=xββ=argminbE|yxb|

অন্য কথায়, নিখুঁত বা স্কোয়ার ত্রুটিটি ব্যবহার করবেন কিনা তা নির্ভর করে আপনি প্রত্যাশিত মানটি বা মডেল মানটি মডেল করতে চান কিনা তার উপর।

yxy

কোয়ানকার এবং হলকের কোয়ান্টাইল রিগ্রেশন সম্পর্কে একটি দুর্দান্ত টুকরা রয়েছে, যেখানে মিডিয়ান রিগ্রেশন একটি বিশেষ ক্ষেত্রে: http://master272.com/finance/QR/QRJEP.pdf


0

আমার ধারণা এটি হ'ল: বেশিরভাগ জনসংখ্যার (বিতরণ) মাঝারি দিকে জড়ো হতে থাকে। এর চেয়ে বেশি দূরত্ব গড় থেকে বিরল হয়। মানটি কীভাবে "আউট অফ আউট" হয় তা যথাযথভাবে প্রকাশ করার জন্য, এর গড় থেকে দূরত্ব এবং এটির (স্বাভাবিকভাবে বলতে গেলে) সংঘটন হওয়ার বিরলতা উভয়ই বিবেচনা করা প্রয়োজন। ছোট বিচ্যুতির মানগুলির তুলনায় গড় থেকে পার্থক্যটি স্কোয়ার করা এটি করে। একবার সমস্ত বৈকল্পের গড় হয়ে যায়, তারপরে স্কোয়ার রুট নেওয়া ঠিক হবে, যা ইউনিটগুলিকে তাদের মূল মাত্রায় ফিরিয়ে দেয়।


2
আপনি কেবলমাত্র পার্থক্যের নিখুঁত মান নিতে পারেন না কেন এটি এটি ব্যাখ্যা করে না । এটি বেশিরভাগ পরিসংখ্যানের 101 জন শিক্ষার্থীর কাছে ধারণাগতভাবে সহজ বলে মনে হয় এবং এটি "গড় থেকে এর দূরত্ব এবং এর (স্বাভাবিকভাবে বলতে গেলে) সংঘটিত হওয়ার বিরলতা উভয়ই বিবেচনা করবে"।
গুং

আমি মনে করি যে পার্থক্যের নিখুঁত মানটি কেবলমাত্র গড় থেকে তফাতটি প্রকাশ করবে এবং এ বিষয়টি বিবেচনায় নেবে না যে বড় বিতরণ দ্বিগুণভাবে একটি সাধারণ বিতরণে বাধা সৃষ্টি করে।
স্যামুয়েল বেরি

2
"দ্বিগুণ বাধাদানকারী" কেন গুরুত্বপূর্ণ এবং বলুন না, "ট্রিপলি ডিসপ্রেটিভ" বা "চতুর্মুখী বাধা"? দেখে মনে হচ্ছে এই উত্তরটি কেবলমাত্র একটি সমতুল্য প্রশ্নের সাথে মূল প্রশ্নের পরিবর্তে।
হোবার

0

স্কোয়ারিং বৃহত্তর বিচ্যুতিকে প্রশস্ত করে।

যদি আপনার নমুনার মানগুলি পুরো চার্টের উপরে থাকে তবে standard৮.২% আনার জন্য প্রথম স্ট্যান্ডার্ড বিচ্যুতির মধ্যে আপনার স্ট্যান্ডার্ড বিচ্যুতিটি আরও বিস্তৃত হওয়া দরকার। যদি আপনার ডেটা সবদিকেই পড়ে থাকে তবে t আরও কঠোর হতে পারে।

কেউ কেউ বলে যে এটি গণনা সহজ করে তোলা। বর্গক্ষেত্রের ইতিবাচক বর্গমূল ব্যবহার করে এটি সমাধান হয়ে যেত যাতে যুক্তিটি ভেসে না যায়।

|x|=x2

সুতরাং যদি বীজগণিতের সরলতা লক্ষ্য ছিল তবে এটি দেখতে এই রকম হত:

σ=E[(xμ)2]E[|xμ|]

স্পষ্টতই এটিকে স্কোয়ার করার ক্ষেত্রে বহির্মুখী ত্রুটিগুলি (দোহ!) এর প্রভাব রয়েছে।


Lp

প্রথম অনুচ্ছেদটি আমার ডাউনভোটের কারণ ছিল।
অ্যালেক্সিস

3
@ প্রিস্টন থায়েন: যেহেতু স্ট্যান্ডার্ড বিচ্যুতির প্রত্যাশিত মান নয়sqrt((x-mu)^2) , তাই আপনার সূত্রটি বিভ্রান্তিকর। উপরন্তু, শুধুমাত্র এই কারণে বর্গ amplifying বৃহত্তর ডেভিয়েশন প্রভাব রয়েছে অর্থ এই নয় যে এই উপর ভ্যারিয়েন্স করা উচিত ছিল কারণ ম্যাড । তোমার কিছু হয়ে গেলে যে যেহেতু বারংবার আমরা একটি নিরপেক্ষ সম্পত্তি চান আরো কিছু জোরালো মত ম্যাড । সর্বশেষে, যে ভ্যারিয়েন্স আরো গাণিতিকভাবে চেয়ে নম্র হয় ম্যাড অনেক গভীর ইস্যু গাণিতিকভাবে তারপর আপনি এই পোস্টে তুলে ধরা করেছি।
স্টিভ এস

0

স্ট্যান্ডার্ড বিচ্যুতিতে পরম মান গ্রহণের পরিবর্তে পার্থক্যটি কেন বর্গাকার?

আমরা x এর পার্থক্যটি গড় থেকে বর্গাকার কারণ ইউক্লিডিয়ান দূরত্ব, স্বাধীনতার ডিগ্রির বর্গমূলের সমানুপাতিক (জনসংখ্যার পরিমাপে x এর সংখ্যা), বিচ্ছুরণের সেরা পরিমাপ।

দূরত্ব গণনা করা হচ্ছে

পয়েন্ট 0 থেকে পয়েন্ট 5 এর দূরত্ব কত?

  • 50=5
  • |05|=5
  • 52=5

ঠিক আছে, এটি তুচ্ছ কারণ এটি একক মাত্রা।

0, 0 থেকে পয়েন্ট 3, 4 এ একটি বিন্দুর দূরত্ব কেমন?

যদি আমরা একসাথে কেবলমাত্র 1 টি মাত্রায় যেতে পারি (সিটি ব্লকের মতো) তবে আমরা কেবল সংখ্যাগুলি যুক্ত করব। (এটি কখনও কখনও ম্যানহাটন দূরত্ব হিসাবে পরিচিত)।

তবে একবারে দুটি মাত্রায় যাওয়ার কী? তারপরে (পাইথাগোরিয়ান উপপাদ্য অনুসারে আমরা সকলেই উচ্চ বিদ্যালয়ে শিখেছি), আমরা প্রতিটি মাত্রার মধ্যে দূরত্ব বর্গাকার করি, বর্গগুলি যোগ করি এবং তারপরে উত্স থেকে বিন্দুটির দূরত্ব নির্ধারণের জন্য বর্গমূলকে নিয়ে যাই।

32+42=25=5

0, 0, 0 থেকে 1, 2, 2 পয়েন্ট থেকে দূরত্বটি কেমন?

এটা যথাযথ

12+22+22=9=3

কারণ প্রথম দুটি এক্স এর দূরত্ব চূড়ান্ত এক্সের সাথে মোট দূরত্বের গণনা করার জন্য লেগ গঠন করে।

x12+x222+x32=x12+x22+x32

আমরা প্রতিটি মাত্রার দূরত্ব বর্গক্ষেত্রের নিয়মকে প্রসারিত করতে পারি, এটি হাইপার-ডাইমেনশনাল স্পেসে অরথোগোনাল পরিমাপের জন্য যাকে ইউক্লিডিয়ান দূরত্ব বলে তাকে সাধারণীকরণ করে:

distance=i=1nxi2

এবং সুতরাং অরথোগোনাল স্কোয়ারের যোগফল হল বর্গাকার দূরত্ব:

distance2=i=1nxi2

কোনটি পরিমাপের অর্থোগোনাল (বা ডান কোণে) করে অন্যকে? শর্তটি হল যে দুটি পরিমাপের মধ্যে কোনও সম্পর্ক নেই। আমরা এই পরিমাপগুলি স্বতন্ত্র এবং স্বতন্ত্রভাবে বিতরণের জন্য অনুসন্ধান করব , ( iid )।

অনৈক্য

জনসংখ্যার বৈকল্পিকের সূত্রটি পুনরায় স্মরণ করুন (যা থেকে আমরা মানক বিচ্যুতিটি পাব):

σ2=i=1n(xiμ)2n

যদি আমরা ইতিমধ্যে 0 কে ডেটা বিয়োগ করে ডেটা কেন্দ্র করে রেখেছি তবে আমাদের আছে:

σ2=i=1n(xi)2n

distance2

আদর্শ চ্যুতি

তারপরে আমাদের কাছে স্ট্যান্ডার্ড বিচ্যুতি রয়েছে, যা কেবলমাত্র পরিবর্তনের বর্গমূল:

σ=i=1n(xiμ)2n

যা সমানভাবে দূরত্ব , স্বাধীনতার ডিগ্রির বর্গমূল দ্বারা বিভক্ত:

σ=i=1n(xi)2n

পরম বিচ্যুতি

মিন অ্যাবসুলিউট ডেভিয়েশন (এমএডি) হ'ল ম্যানহাটান দূরত্ব বা গড় থেকে পার্থক্যের নিখুঁত মানগুলির যোগফলকে বিভক্ত করার একটি পরিমাপ।

MAD=i=1n|xiμ|n

আবার, ধরে নিই ডেটা কেন্দ্রিক (গড় বিয়োগ) আমাদের ম্যানহাটনের দূরত্বটি পরিমাপের সংখ্যার দ্বারা বিভক্ত করেছে:

MAD=i=1n|xi|n

আলোচনা

  • 2/π
  • বিতরণ নির্বিশেষে, গড় নিরঙ্কুশ বিচ্যুতিটি আদর্শ বিচ্যুতির চেয়ে কম বা সমান equal এমএডি স্ট্যান্ডার্ড বিচ্যুতির সাথে সম্পর্কিত, চূড়ান্ত মানগুলির সাথে সেট করে ডেটার বিচ্ছুরণের বিষয়টি হ্রাস করে।
  • গড় নিরঙ্কুশ বিচ্যুতি হ'ল বহিরাগতদের কাছে আরও দৃust় (যেমন আউটলিয়াররা স্ট্যাটিস্টিকের উপর এতটা প্রভাব ফেলবে না যতটা তারা স্ট্যান্ডার্ড বিচ্যুতির ক্ষেত্রে করে।
  • জ্যামিতিকভাবে বলতে গেলে, যদি পরিমাপগুলি একে অপরের কাছে orthogonal না হয় (iid) - উদাহরণস্বরূপ, যদি সেগুলি ইতিবাচকভাবে সম্পর্কিত হয়, তবে নিরঙ্কুশ বিচ্যুতি স্ট্যান্ডার্ড বিচ্যুতির চেয়ে ভাল বর্ণনামূলক পরিসংখ্যান হতে পারে, যা ইউক্যালিডিয়ান দূরত্বের উপর নির্ভর করে (যদিও এটি সাধারণত সূক্ষ্ম হিসাবে বিবেচিত হয়) )।

এই টেবিলটি আরও সংক্ষিপ্ত উপায়ে উপরের তথ্যগুলি প্রতিবিম্বিত করে:

MADσsizeσMADsize,N.8×σ1.25×MADoutliersrobustinfluencednot i.i.d.robustok

মন্তব্যসমূহ:

আপনার কাছে কি "সাধারণ বিতরণকৃত ডেটাসেটের জন্য আদর্শ বিচ্যুতির আকারের কাছাকাছি সর্বমোট বিচ্যুতির পরিমাণের প্রায় 8.8 গুণ আছে" এর জন্য আপনার কাছে কোনও রেফারেন্স রয়েছে? আমি যে সিমুলেশনগুলি চালাচ্ছি এটি এটিকে ভুল হতে দেখায়।

মানক সাধারণ বিতরণ থেকে এক মিলিয়ন নমুনার জন্য এখানে 10 টি সিমুলেশন রয়েছে:

>>> from numpy.random import standard_normal
>>> from numpy import mean, absolute
>>> for _ in range(10):
...     array = standard_normal(1_000_000)
...     print(numpy.std(array), mean(absolute(array - mean(array))))
... 
0.9999303226807994 0.7980634269273035
1.001126461808081 0.7985832977798981
0.9994247275533893 0.7980171649802613
0.9994142105335478 0.7972367136320848
1.0001188211817726 0.798021564315937
1.000442654481297 0.7981845236910842
1.0001537518728232 0.7975554993742403
1.0002838369191982 0.798143108250063
0.9999060114455384 0.797895284109523
1.0004871065680165 0.798726062813422

উপসংহার

আমরা বিস্তারের পরিমাপের গণনা করার সময় স্কোয়ার পার্থক্যগুলিকে পছন্দ করি কারণ আমরা ইউক্লিডিয়ান দূরত্বকে কাজে লাগাতে পারি, যা আমাদের বিচ্ছুরণের আরও ভাল ডিস্পেটিভ পরিসংখ্যান দেয়। যখন তুলনামূলকভাবে চূড়ান্ত মানগুলি থাকে, তখন ইউক্লিডিয়ান দূরত্ব পরিসংখ্যানগুলিতে এটির জন্য দায়বদ্ধ, যেখানে ম্যানহাটন দূরত্ব প্রতিটি পরিমাপকে সমান ওজন দেয়।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.