যদি মাধ্যমটি এত সংবেদনশীল হয় তবে কেন এটি প্রথম স্থানে ব্যবহার করবেন?


84

এটি একটি পরিচিত সত্য যে মিডিয়ান বিদেশিদের প্রতিরোধী। যদি এটি হয় তবে আমরা কখন এবং কেন প্রথম স্থানে অর্থটি ব্যবহার করব?

আমি যে বিষয়টি সম্ভবত ভাবতে পারি তা হ'ল বিদেশীদের উপস্থিতি বুঝতে পারা অর্থাত্ যদি মধ্যমা গড় থেকে দূরে থাকে তবে বিতরণটি স্কিউড হয় এবং বহিরাগতদের সাথে কী করা উচিত তা সিদ্ধান্ত নেওয়ার জন্য সম্ভবত ডেটা পরীক্ষা করা দরকার। অন্য কোন ব্যবহার আছে?


14
প্রথম প্রশ্নের বিষয়ে একটি দ্রুত দিকের নোট: পরিসংখ্যানের গড় অর্থ জনসংখ্যার প্রথম মুহুর্ত , আর মাঝারিটি নয়। সিএলটি, প্রচুর সংখ্যার আইন ইত্যাদি ব্যবহার করার চেষ্টা করে আপনি আবার সীমাবদ্ধ মুহুর্তগুলির অস্তিত্বের সাথে যুক্ত। যদিও উদাহরণস্বরূপ কচী বন্টন গ্রহণ করা: মিডিয়ান বিদ্যমান, যদিও এর অর্থ নেই;)
দিমিত্রিজ সেলভ

2
@ দিমিত্রিজ এটি একটি গভীর এবং অন্তর্দৃষ্টিপূর্ণ উত্তর। জবাবে আপনি এ বিষয়ে বিস্তারিত কেন বলছেন না?
হোবার

আপনি যদি এর অর্থটি ব্যবহার না করে থাকেন তবে আপনি তার অনুভূতিতে আঘাত করছেন? (দুঃখিত, প্রতিরোধ করতে পারেনি))
ড্যানিয়েল আর হিক্স

3
@ ড্যানিয়েল আর হিকস: এবং এর অর্থ পুরোপুরি, তাই না? (দুঃখিত, পাশাপাশি প্রতিরোধ করতে পারে না)।
মুহাম্মদ আলকারৌরি

3
এই প্রশ্নটি স্বাভাবিকের চেয়ে অনেক বেশি আকর্ষণীয়, "আমরা কীভাবে সবসময় শক্তিশালী অ্যালগরিদম ব্যবহার করি না?" প্রশ্ন, তবে একই মত অন্তর্নিহিত চিন্তাভাবনা থাকতে পারে যে "শক্তিশালী == যাদুকরী" এবং যদি আমরা কেবল শক্ত পদ্ধতি ব্যবহার করি তবে আমাদের ডেটা পরীক্ষা করতে হবে না, বুঝতে হবে না বা বিভিন্ন ধরণের নির্ভুলতার বিষয়ে চিন্তা করতে হবে না যেহেতু তারা "বলিষ্ঠ". তবুও, +1।
ওয়েইন

উত্তর:


113

এক অর্থে, গড়টি ব্যবহৃত হয় কারণ এটি ডেটা সংবেদনশীল। যদি বিতরণটি প্রতিসম হয় এবং লেজগুলি প্রায় সাধারণ বিতরণের মতো হয়, তবে এটি মধ্য প্রবণতার খুব দক্ষ সংক্ষিপ্তসার। মিডিয়ান যখন কোনও অবিচ্ছিন্ন বিতরণের জন্য দৃ rob় এবং সংজ্ঞায়িত হয়ে থাকে তবে ডেটা স্বাভাবিক বন্টন থেকে ডেটা আসে কিনা তা কেবলমাত্র হিসাবে দক্ষ হিসাবে কার্যকর। এটি মিডিয়ানের এই আপেক্ষিক অদক্ষতা যা আমাদের থেকে এটি আরও বেশি ব্যবহার করা থেকে বিরত রাখে। আপেক্ষিক অদক্ষতা একটি নমুনা নিখুঁত অদক্ষতার অনুবাদ করে কারণ নমুনার আকারটি বড় হয়, তাই বৃহত্তর আমরা মিডিয়ান ব্যবহারের ক্ষেত্রে আরও অপরাধবুক্ত হতে পারি। n2πn

এটি লক্ষণীয় আকর্ষণীয় যে পরিবর্তনের পরিমাপের জন্য (স্প্রেড, ছত্রভঙ্গ), খুব শক্তিশালী অনুমানক যা 0.98 স্ট্যান্ডার্ড বিচ্যুতি হিসাবে কার্যকর, যিনি গিনির গড় পার্থক্য। যে কোনও দুটি পর্যবেক্ষণের মধ্যে এটির মাঝামাঝি পার্থক্য। [গিনির গড় পার্থক্য দ্বারা অনুমান করা একই পরিমাণটি অনুমান করার জন্য আপনাকে নমুনা স্ট্যান্ডার্ড বিচ্যুতিটিকে এক ধরণের দ্বারা গুণন করতে হবে।] কেন্দ্রীয় প্রবণতার একটি কার্যকর পরিমাপ হজস-লেহম্যান অনুমানক, অর্থাত্ সমস্ত জোড়যুক্ত মাধ্যমের মাধ্যম। এর ব্যাখ্যাটি সহজ হলে আমরা এটি আরও ব্যবহার করব।


13
কেন্দ্রীয় প্রবণতার হজস-লেহম্যান অনুমানকারী উল্লেখ করার জন্য +1। অনেক ক্ষেত্রে এটি মাঝারি এবং মধ্যবর্তী মধ্যে রয়েছে। যদি কেবলমাত্র বৃহত নমুনায় গণনা করা সহজ হত তবে এটি অবস্থানের পরিমাপ হিসাবে গড় বা মধ্যমাধ্যমের চেয়ে বেশি জনপ্রিয় হত I
ttnphns

বিটিডাব্লু, @ ফ্র্যাঙ্ক, আপনি কি জানেন যে কোন তাত্ত্বিক নমুনা বিতরণ হজস-লেহম্যান কেন্দ্র অনুসরণ করে? আমি না - এবং আমি আগ্রহী।
ttnphns

16
মন্তব্যের জন্য ধন্যবাদ. আর-এর একটি ওয়ান-লাইনার এটি এন = 5000: পর্যন্ত দক্ষতার সাথে গণনা করতে পারে w <- outer(x, x, '+'); median(w[row(w) >= col(w)])/2। একে তুচ্ছ সি, ফোর্টরান, বা রেটফোর প্রোগ্রামটি দ্রুত জ্বলজ্বল করার জন্য আর ডাকে। আর-এর আইসিএসএনপি প্যাকেজের কার্যকারিতা সহ মোটামুটি দক্ষ বাস্তবায়ন রয়েছে hl.loc। এন = 5000 এর জন্য এটি উপরের কোডের চেয়ে 2.66 গুণ বেশি দ্রুত (মোট সময় 1.5 সেকেন্ড)। দক্ষতার সাথে একটি আত্মবিশ্বাসের ব্যবধানটি পেয়েও ভাল লাগবে।
ফ্র্যাঙ্ক হেরেল

@ স্ট্যান্ডার্ড বিচ্যুতির জন্য এবং অনুমান সম্পর্কে আপনি কী বলতে পারেন ? সাধারণ-স্বাভাবিক বিতরণের জন্য গিনির গড় পার্থক্যটি ব্যবহার করে অনুমানের জন্য আমার কোন ধ্রুবক ব্যবহার করা উচিত ? আমি উন্মুক্ত অ্যাক্সেস উত্সগুলিতে এই ধ্রুবকটির গণনার প্রক্রিয়া বর্ণনা করে এমন কাগজপত্রগুলি খুঁজে পেলাম না ... এছাড়াও গিনির গড় পার্থক্যের দৃ any়তা সম্পর্কে আমি কোনও তথ্য পাইনি, আপনি কোথায় এটি অনুসন্ধান করতে পারবেন? কিউ এন σSnQnσ
জার্মান ডেমিডভ

1
আমরা ছড়িয়ে পড়ার ব্যবস্থা সম্পর্কে কথা বলছি যাতে মডেলগুলির তুলনা সমস্যা হয় না (এবং "জিনির সূচক" দিয়ে বিভ্রান্ত করবেন না)। গিনির গড় পার্থক্য একটি পরম পরিমাপ। অন্যান্য ব্যবস্থাগুলির তুলনায় এটি ব্যাখ্যা করা আরও সহজ। প্রতিটি বিতরণের জন্য আপনাকে একটি ভিন্ন ধ্রুবক গণনা করার প্রয়োজনটি আমাকে জানিয়ে দেয় যে আমরা ধ্রুবকটি ব্যবহার করতে চাই না।
ফ্র্যাঙ্ক হ্যারেল

36

ইতিমধ্যে প্রচুর দুর্দান্ত উত্তর, কিন্তু, একধাপ পিছনে এসে আরও কিছুটা বেসিক পেয়েছি, আমি বলব কারণ আপনি যে উত্তর পেয়েছেন তা আপনার জিজ্ঞাসা প্রশ্নের উপর নির্ভর করে। গড় এবং মিডিয়ান বিভিন্ন প্রশ্নের উত্তর দেয় - কখনও কখনও একটি উপযুক্ত, কখনও কখনও অন্যটি।

এটি বলা সহজ যে সেখানে যখন বিদেশী থাকে, বা স্কিওড ডিস্ট্রিবিউশনের জন্য, বা যা কিছু থাকে তার মাঝারিটি ব্যবহার করা উচিত। তবে সবসময় এমন হয় না। ইনকাম নিন - প্রায় সবসময় মিডিয়ানের সাথে রিপোর্ট করা হয় এবং সাধারণত এটি সঠিক। তবে আপনি যদি একটি গোটা সম্প্রদায়ের ব্যয় শক্তির দিকে তাকান তবে এটি সঠিক নাও হতে পারে। এবং কিছু ক্ষেত্রে, এমনকি মোডটি সর্বোত্তম হতে পারে (উদাহরণস্বরূপ যদি ডেটাগুলি গ্রুপ করা থাকে)।


8
স্পষ্ট পয়েন্টের জন্য +1 এটিকে অন্য কারও কাছে সম্বোধন করার মতো মনে হয়নি: এগুলি ভিন্ন ধারণা এবং বিভিন্ন প্রশ্নের উত্তর। এছাড়াও অনেক ক্ষেত্রে সম্পূর্ণ বিতরণকে একটি সংক্ষিপ্ত সংখ্যায় ঘনীভূত করার মাধ্যমে অনেক কিছুই হারিয়ে যায়, তাই কখনও কখনও তারা দু'জনেই স্বল্প কাজ করেন।
মাইকেল ম্যাকগওয়ান

25

যখন কোনও মান আমাদের জন্য আবর্জনা হয়ে থাকে আমরা এটিকে "আউটরিয়ার" বলি এবং বিশ্লেষণ এটির পক্ষে দৃ be় হতে চাই (এবং মিডিয়ান পছন্দ করে); যখন সেই একই মানটি আকর্ষণীয় হয় তখন আমরা এটিকে "চরম" বলি এবং বিশ্লেষণগুলি এর প্রতি সংবেদনশীল হতে চাই (এবং তার মানে পছন্দ করি)। বিবাদ ...

বণ্টন কোথায় স্থানান্তরিত হয় তা নির্বিশেষে মিন মানের শিফটে সমান প্রতিক্রিয়া দেখায়। উদাহরণস্বরূপ, আপনার মধ্যে কোনও মান 2 1 2 3 4 5বাড়াতে পারে - গড় বৃদ্ধি একই হবে। মিডিয়ানের প্রতিক্রিয়া কম "সামঞ্জস্যপূর্ণ": 4 বা 5 ডেটা পয়েন্টগুলিতে 2 যোগ করুন এবং মিডিয়ান বৃদ্ধি পাবে না; তবে পয়েন্ট 2 এ 2 যুক্ত করুন - যাতে শিফটটি মধ্যবর্তীটির উপরে চলে যায়, এবং মাঝারিটি নাটকীয়ভাবে পরিবর্তিত হয় (গড়ের চেয়ে বড় পরিবর্তন হবে)।

গড় সর্বদা ঠিক অবস্থিত। মিডিয়ান নয়; উদাহরণস্বরূপ, 2 থেকে 3 এর মধ্যে যে 1 2 3 4 কোনও মান সেট করা হয় তাকে মাঝারি বলা যেতে পারে। সুতরাং, মিডিয়ানদের উপর ভিত্তি করে বিশ্লেষণগুলি সর্বদা অনন্য সমাধান নয়।

গড় হ'ল ন্যূনতম যোগফলের স্কোয়ার-বিচ্যুতির একটি লোকস। লিনিয়ার বীজগণিতের উপর ভিত্তি করে অনেক অপ্টিমাইজেশন টাস্ক (বিখ্যাত ওএলএস রিগ্রেশন সহ) এই স্কোয়ার ত্রুটিটি হ্রাস করে এবং সুতরাং গড়ের ধারণাটি বোঝায়। ন্যূনতম যোগফলের পরম-বিচ্যুতির একটি লোকাসকে মাঝারি। এই জাতীয় ত্রুটি হ্রাস করতে অনুকূলকরণ কৌশলগুলি অ-লিনিয়ার এবং আরও জটিল / খারাপ জ্ঞাত।


2
+1 আমার কিছুটা উদ্বেগ আছে যে প্রথম অনুচ্ছেদটি ভুল বোঝাবুঝি হতে পারে কারণ বোঝানো বাহ্যিক সনাক্তকরণ সম্পূর্ণরূপে একটি বিষয়গত প্রক্রিয়া। যদিও আপনি বোঝাতে চাইছেন বলে আমি মনে করি না।
হোবার

8
+1 | আমি মনে করি প্রথম বাক্যটি বোঝায় যে বহিরাগত সনাক্তকরণের প্রয়োগ সম্পূর্ণরূপে বিষয়ভিত্তিক এবং তাই আমি যেমন রাখি তেমন পক্ষে ভোট দিই।
জন

2
আমি বুঝিয়েছি যে বহিরাগত সনাক্তকরণটি বিষয়গত দার্শনিক বা নৈতিক শিকড়গুলির সাথে কঠোর প্রক্রিয়া
ttnphns

3
@ttnphns, "আউটিলার" এর পরিবর্তে "আউটলিয়ার" বানানটি ইচ্ছাকৃত, নাকি?
এমপিক্টাস

1
অনিচ্ছাকৃত টাইপ
ttnphns

16

এই প্রশ্নের অনেক উত্তর আছে। এখানে এমন একটি যা সম্ভবত আপনি অন্য কোথাও দেখতে পাবেন না তাই আমি এটি এখানে অন্তর্ভুক্ত করছি কারণ আমি বিশ্বাস করি এটি প্রাসঙ্গিক। লোকেরা প্রায়শই বিশ্বাস করে যে মিডিয়ানকে বহিরাগতদের কাছে একটি শক্ত ব্যবস্থা হিসাবে বিবেচনা করা হয় যা এটি বেশিরভাগ ক্ষেত্রেই শক্তিশালী। প্রকৃতপক্ষে, এটি স্কিউ বিতরণে পক্ষপাতিত্বকে শক্তিশালী হিসাবে বিবেচনা করা হয়। মাঝারি এই দুটি শক্তিশালী বৈশিষ্ট্য প্রায়শই এক সাথে শেখানো হয়। কেউ লক্ষ করে নিতে পারেন যে অন্তর্নিহিত স্কিউ বিতরণগুলি এমন ছোট্ট নমুনাও তৈরি করে যা দেখে মনে হয় যে তারা বিদেশী এবং প্রচলিত জ্ঞান হ'ল এই জাতীয় পরিস্থিতিতে কেউ মধ্যমা ব্যবহার করে use

#function to generate random values from a skewed distribution
rexg <- function (n, m, sig, tau) {
    rexp(n, rate = 1/tau) + rnorm(n, mean = m, sd = sig)
    }

(কেবলমাত্র একটি বিক্ষোভ যে এটি বদ্ধ এবং মৌলিক আকার)

hist(rexg(1e4, 0, 1, 1))

পটভূমি

এখন, আসুন দেখুন কি হয় যদি আমরা এই বিতরণ থেকে বিভিন্ন নমুনা আকার এবং নমুনা গণনা করি এবং তাদের মধ্যে পার্থক্যগুলি কী তা বোঝাতে বোঝায় তবে কী হয়।

#generate values with various n's
N <- 1e4
ns <- 2:30
y <- sapply(ns, function(x) mean(apply(matrix(rexg(x*N, 0, 1, 1), ncol = N), 2, median)))
plot(ns,y, type = 'l', ylim = c(0.85, 1.03), col = 'red') 
y <- sapply(ns, function(x) mean(colMeans(matrix(rexg(x*N, 0, 1, 1), ncol = N))))
lines(ns,y)

plot2

উপরের প্লট থেকে দেখা যাবে মিডিয়ান (লাল রঙের) গড়ের চেয়ে n এর চেয়ে অনেক বেশি সংবেদনশীল। এটি নিম্ন এনএস সহ মিডিয়ানদের ব্যবহার সম্পর্কে কিছু প্রচলিত জ্ঞানের বিরোধী, বিশেষত যদি বিতরণটি স্কিউড হয়। এবং, এটি সেই বিন্দুটিকে শক্তিশালী করে যে গড়টি একটি জ্ঞাত মান হয় তবে মধ্যমাটি অন্যান্য বৈশিষ্ট্যগুলির সংবেদনশীল হয়, এটি যদি এন হয়।

এই বিশ্লেষণ মিলার, জে। (1988) এর মতো। মাঝারি প্রতিক্রিয়া সময় সম্পর্কে একটি সতর্কতা। পরীক্ষামূলক মনোবিজ্ঞানের জার্নাল: মানব উপলব্ধি এবং পারফরম্যান্স , 14 (3): 539–543 43

REVISION

স্কিউ ইস্যু সম্পর্কে চিন্তা করে আমি বিবেচনা করেছি যে মিডিয়ানের উপর প্রভাব কেবলমাত্র কারণ সামান্য নমুনাগুলিতে আপনার আরও বেশি সম্ভাবনা থাকে যে মাঝারিটি বন্টনের লেজের মধ্যে থাকে, অন্যদিকে গড়টি প্রায় সর্বদা কাছাকাছি মানগুলি দ্বারা ভারিত হবে will মোড. অতএব, সম্ভবত যদি কেউ কেবলমাত্র বহিরাগতদের সম্ভাবনার সাথে নমুনা দিচ্ছিলেন তবে সম্ভবত একই ফলাফল ঘটতে পারে।

তাই আমি এমন পরিস্থিতিতে নিয়ে চিন্তা করেছি যেখানে আউটলিয়াররা ঘটতে পারে এবং পরীক্ষাগুলি সেগুলি অপসারণের চেষ্টা করতে পারে।

যদি আউটলিয়াররা ধারাবাহিকভাবে ঘটে থাকে, যেমন তথ্যগুলির প্রতিটি একক নমুনার মধ্যে একটি, তবে মিডিয়ানরা এই আউটলারের প্রভাব এবং মিডিয়ানদের ব্যবহার সম্পর্কে প্রচলিত গল্পের বিরুদ্ধে শক্তিশালী।

তবে এটি সাধারণত জিনিসগুলি যায় না।

কেউ হয়তো পরীক্ষার খুব কম কক্ষে একটি আউটলেটর খুঁজে পেতে পারে এবং এই ক্ষেত্রে গড়ের পরিবর্তে মিডিয়ান ব্যবহার করার সিদ্ধান্ত নিতে পারে। আবার মাঝারিটি আরও শক্তিশালী তবে এর প্রকৃত প্রভাব তুলনামূলকভাবে কম কারণ এখানে খুব কম সংখ্যক বিদেশী রয়েছে। এটি অবশ্যই একটি আরও সাধারণ ক্ষেত্রে হবে তবে উপরেরটি কিন্তু মিডিয়ান ব্যবহারের প্রভাব সম্ভবত এত ছোট হবে যে এটি খুব বেশি গুরুত্ব পাবে না।

সম্ভবত আরও সাধারণভাবে outliers ডেটা একটি এলোমেলো উপাদান হতে পারে। উদাহরণস্বরূপ, জনসংখ্যার প্রকৃত গড় এবং প্রমিত বিচ্যুতি প্রায় 0 হতে পারে তবে আমরা যেখানে বহিরাগত জনগোষ্ঠীর মধ্য থেকে গড় নমুনা পেয়েছি তার নমুনা 3 শতাংশ রয়েছে the নীচের সিমুলেশনটি বিবেচনা করুন, যেখানে কেবলমাত্র এমন জনসংখ্যার নমুনার পরিবর্তিত নমুনা দেওয়া হয় আকার।

#generate n samples N times with an outp probability of an outlier.
rout <- function (n, N, outp) {
    outPos <- sample(0:1,n*N, replace = TRUE, prob = c(1-outp,outp))
    numOutliers <- sum(outPos)
    y <- matrix( rnorm(N*n), ncol = N )
    y[which(outPos==1)] <- rnorm(numOutliers, 4)
    return(y)
    }

outp <- 0.1
N <- 1e4
ns <- 3:30
yMed <- sapply(ns, function(x) mean(apply(rout(x,N,outp), 2, median)))
var(yMed)
yM <- sapply(ns, function(x) mean(colMeans(rout(x,N,outp))))
var(yM)
plot(ns,yMed, type = 'l', ylim = range(c(yMed,yM)), ylab = 'Y', xlab = 'n', col = 'red') 
lines(ns,yM)

ফলাফল

মধ্যমাটি লালচে এবং কালো রঙের মধ্যে। এটি স্কিউড ডিস্ট্রিবিউশনের অনুরূপ অনুসন্ধান।

অপ্রত্যাশিতদের প্রভাব এড়ানোর জন্য মধ্যযুগীয়দের ব্যবহারের তুলনামূলকভাবে ব্যবহারিক উদাহরণে এমন একটি পরিস্থিতি উপস্থিত হতে পারে যেখানে গড়টি যখন ব্যবহৃত হয় তার চেয়ে যখন মিডিয়ান ব্যবহার করা হয় তখন অনুমানটি এন দ্বারা আরও বেশি প্রভাবিত হয়।


দুর্দান্ত উদাহরণ, তবে এটি সত্যিই বিতরণের উপর নির্ভর করে। আপনি যদি সাধারণ বিতরণ বা অভিন্ন বিতরণ ব্যবহার করেন তবে দুটি লাইন সুপারিম্পোজড থাকার সাথে গ্রাফটি খুব আলাদা। এটি তাত্পর্যপূর্ণ বিতরণ যা পার্থক্য তৈরি করে।
নিকো

1
-1 এই উত্তর "সংবেদনশীলতা" কে "পক্ষপাত" এর সাথে বিভ্রান্ত করে।
হোবার

4
অনেক ভাল; আমি ডাউনভোটটি সরিয়ে ফেলেছি। তবে আমি নতুন ব্যাখ্যাটি দ্বারা আগ্রহী: আপনি কোনও উত্স - একটি পাঠ্য, কাগজ বা ওয়েব সাইটটি চিহ্নিত করতে পারেন - যা আসলে দাবিটিকে "[মিডিয়েন] স্কিউড ডিস্ট্রিবিউশনে পক্ষপাতিত্বের পক্ষে শক্তিশালী হিসাবে বিবেচনা করা হয়" এবং ব্যাখ্যা করে তার মানে কি হতে পারে? আমি এর আগে এমন দাবির মুখোমুখি হইনি এবং নিশ্চিতভাবে জানি না এটি আসলে কী বলছে।
whuber

3
মনোবিজ্ঞানের গবেষণায় প্রতিক্রিয়ার সময়গুলি (স্কিউড হিসাবে পরিচিত) এর সাথে মোকাবিলা করার জন্য এটি আরও বেশি লোক জ্ঞান। আমি একটি গবেষণাপত্রের রেফারেন্স রেখেছিলাম যা মনোবিজ্ঞানের লোকজ্ঞানকে খণ্ডন করে (আমি আগে উল্লেখ না করে খারাপ মনে করি)।
জন

3
বিটিডাব্লু, মিলার (1988) সত্ত্বেও লোকেরা এখনও সম্ভাব্য হেরফের নিয়ে গবেষণায় মধ্যবর্তী প্রতিক্রিয়া বার ব্যবহার করে যেখানে শর্তগুলির বিভিন্ন সংখ্যার নমুনা থাকে এবং নীচেরটি সাধারণত ছোট হয়।
জন

11
  • গড় থেকে সমস্ত আইটেমের তুলনায় অঙ্ক গণনা করা সহজ, উদাহরণস্বরূপ আপনি যদি জনসংখ্যার গড় আয় এবং জনসংখ্যার আকার জানেন তবে আপনি তাত্ক্ষণিকভাবে পুরো জনগণের মোট আয় গণনা করতে পারেন।

  • O(n)সময় জটিলতায় গণনা করার জন্য গড়টি সোজা । রৈখিক সময়ে মধ্যম গণনা করা সম্ভব তবে আরও চিন্তাভাবনা প্রয়োজন। বাছাইয়ের স্পষ্ট সমাধানটির O(n log n)জটিলতা ( ) সময়ের জটিলতা।

এবং আমি অনুমান করি যে মধ্যমাটির চেয়ে গড় জনপ্রিয় হওয়ার আরও একটি কারণ রয়েছে:

  • স্কুলে আরও বেশি ব্যক্তিকে এই মাধ্যমটি শেখানো হয় এবং এটি সম্ভবত মেডিয়ানকে শেখানোর আগে শেখানো হয়

আপনার সময়ের জটিলতার জন্য এটি মানগুলি কীভাবে সংরক্ষণ করা হয় তার উপর নির্ভর করে। যদি মানগুলি ইতিমধ্যে সাজানো থাকে তবে অবশ্যই ও (1) সবচেয়ে খারাপ ক্ষেত্রে সময় জটিলতার মধ্যস্থ গণনা করা সম্ভব।
লুস্কুবাল

আমি সম্মত হই - অঙ্কের মতো গণনায় এটির প্রয়োগযোগ্যতা অর্থের অন্যতম প্রধান সুবিধা is আমি যখন লক্ষ্যটি কোনও কিছু বর্ণনা করা হয় তখন আমি প্রায়শই মাঝারিটিকে পছন্দ করি, যখন আমরা এটি অন্য কোনও গণনার ইনপুট হয় তখন আমরা প্রায়শই গড়টি ব্যবহার করি।
জোনাথন

5

"এটি একটি পরিচিত যে মিডিয়ান হ'ল বিদেশীদের প্রতিরোধী। এটি যদি হয় তবে আমরা কখন এবং কেন প্রথম জায়গায় অর্থটি ব্যবহার করব?"

ক্ষেত্রে কেউ জানেন যে কোনও বিদেশী নেই, উদাহরণস্বরূপ যখন কেউ ডেটা তৈরির প্রক্রিয়া জানেন (উদাহরণস্বরূপ গাণিতিক পরিসংখ্যানগুলিতে)।

একটি তুচ্ছ চিহ্নিত করা উচিত, যে, এই দুটি পরিমাণ (মাঝারি এবং মাঝারি) আসলে একই জিনিস পরিমাপ করা হয় না এবং বেশিরভাগ ব্যবহারকারীরা পূর্ববর্তীটির জন্য তাদের সত্যিকারের আগ্রহী হওয়ার জন্য কখন জিজ্ঞাসা করেন (এই বিষয়টি ভালভাবে চিত্রিত হয়েছে) মিডিয়েন-ভিত্তিক উইলকক্সন পরীক্ষাগুলি টি-টেস্টগুলির চেয়ে আরও সহজেই ব্যাখ্যা করা হয়)।

তারপরে, এমন কেস রয়েছে যেখানে কিছু ঘটনা বা অন্য কোনও কারণে কিছু বিধিবিধান তার অর্থ ব্যবহারের উপর চাপিয়ে দেয়।


2

যদি উদ্বেগটি আউটলিয়ারদের উপস্থিতি নিয়ে থাকে তবে আপনার ডেটা পরীক্ষা করার জন্য কিছু সোজা-এগিয়ে রয়েছে forward

প্রায় সংজ্ঞা অনুসারে আউটলিয়াররা আমাদের ডেটাতে আসে যখন ডেটা তৈরির প্রক্রিয়াতে বা ডেটা সংগ্রহের প্রক্রিয়াতে কিছু পরিবর্তন হয়। অর্থাত্ ডেটা একজাতীয় হয়ে যায়। যদি আপনার ডেটা একজাতীয় না হয় তবে মধ্যবর্তী বা মিডিয়ান উভয়ই খুব বেশি বোঝাতে পারেন না, যেহেতু আপনি দুটি পৃথক ডেটা সেটগুলির কেন্দ্রীয় প্রবণতা যা একসাথে মিশ্রিত করা হয়েছে তা অনুমান করার চেষ্টা করছেন।

সর্বনিম্নতা নিশ্চিত করার সর্বোত্তম পদ্ধতি হ'ল ডেটা উত্পন্ন এবং-কালেকশন প্রক্রিয়াগুলি পরীক্ষা করা যা আপনার সমস্ত ডেটা একক প্রক্রিয়া থেকে আসে তা নিশ্চিত করার জন্য। কিছুই এখানে একটু মস্তিষ্ক-শক্তি হারাচ্ছে না।

গৌণ পরীক্ষার হিসাবে, আপনি কয়েকটি পরিসংখ্যানগত পরীক্ষার একটিতে ফিরে যেতে পারেন: চি-স্কোয়ার্ড, ডিক্সনের কিউ-পরীক্ষা, গ্রুব্ব পরীক্ষা বা নিয়ন্ত্রণ চার্ট / প্রক্রিয়া আচরণের চার্ট (সাধারণত এক্স-বার আর বা এক্সএমআর)। আমার অভিজ্ঞতাটি হ'ল, যখন আপনার ডেটা সংগ্রহ করার সাথে সাথে অর্ডার করা যায়, প্রক্রিয়া আচরণের চার্টগুলি বহিরাগত পরীক্ষাগুলির চেয়ে বহিরাগতদের সনাক্তকরণে আরও ভাল। চার্টগুলির জন্য এই ব্যবহারটি কিছুটা বিতর্কিত হতে পারে তবে আমি বিশ্বাস করি যে এটি শেওহার্টের মূল উদ্দেশ্যটির সাথে সম্পূর্ণরূপে সামঞ্জস্যপূর্ণ এবং এটি এমন একটি ব্যবহার যা ডোনাল্ড হুইলারের দ্বারা সুস্পষ্টভাবে সমর্থন করে। আপনি বহিরাগতদের পরীক্ষা বা প্রক্রিয়া আচরণের চার্টগুলি ব্যবহার করুন না কেন, মনে রাখবেন যে সনাক্ত করা "আউটলেটর" কেবল সম্ভাবনার ইঙ্গিত দিচ্ছেঅ-একজাতীয়তা যা আরও পরীক্ষা করা দরকার। তারা কেন বিদেশী ছিল সে সম্পর্কে আপনার কাছে কিছু ব্যাখ্যা না থাকলে ডাটা পয়েন্টগুলি ছুঁড়ে ফেলা খুব কমই বোধগম্য হয়।

আপনি আর ব্যবহার করেন, তাহলে outliers প্যাকেজ outliers পরীক্ষা প্রদান করে, এবং প্রক্রিয়া আচরণ চার্টের জন্য আছে qcc , IQCC এবং qAnalyst। কিউসিসি প্যাকেজটির ব্যবহার এবং আউটপুটটির জন্য আমার ব্যক্তিগত পছন্দ রয়েছে।


2

আপনি কখন মধ্যমা চাইবেন?

অর্থ থেকে উদাহরণ:

  • বন্ড ফেরত:
    • মিডিয়ান বন্ড রিটার্ন সাধারণত কয়েক শতাংশ পয়েন্ট হবে।
    • ডিফল্ট হার এবং ডিফল্টে পুনরুদ্ধারের উপর নির্ভর করে গড় বন্ড রিটার্ন কম বা বেশি হতে পারে। মিডিয়ান এই সব উপেক্ষা করবে!
    • শুভকামনা আপনার বিনিয়োগকারীদের ব্যাখ্যা করে, "আমি জানি যে এই বছর আমাদের তহবিল 40% হ্রাস পেয়েছে কারণ প্রায় অর্ধেক বন্ডগুলি কোনও পুনরুদ্ধার না করেই বস্ট হয়ে যায়, তবে আমাদের মধ্যস্থ বন্ড 1% ফেরত!"
  • ভেনচার ক্যাপিটাল রিটার্ন:
    • বিপরীতে একই জিনিস। মিডিয়ান ভিসি বা অ্যাঞ্জেল ইনভেস্টমেন্ট একটি বস্ট, এবং সমস্ত রিটার্ন কয়েক বিজয়ীর কাছ থেকে আসে! (সাইড নোট / সতর্কতা: উদ্যোগের মূলধন বা বেসরকারী ইক্যুইটি রিটার্নের অনুমানগুলি অত্যন্ত সমস্যাযুক্ত ... সাবধান!

বৈচিত্র্যময় পোর্টফোলিও গঠনের সময়, কী কী বিনিয়োগ করবেন এবং কী পরিমাণ, সিদ্ধান্ত নেওয়ার সিদ্ধান্ত নেওয়ার সময় আপনার অপ্টিমাইজেশান সমস্যাটি শীর্ষস্থানীয় হতে পারে।


সম্মত হয়েছে, তবে মনে হয় যে এইরকম কোনও অবস্থাতেই গড় বা মিডিয়ান ফোকাস নয়: এটি বরং মূল বিষয়গুলি মূল পরিমাণ হতে পারে। স্বাভাবিকভাবেই এর পরিবর্তে বোঝা যায় এর অর্থ হবে মধ্যমদের চেয়ে ভাল সংক্ষিপ্তসার। তবে মঞ্জুর করা হয়েছে যে মিডিয়ান বন্ড রিটার্ন একটি মূর্খ উত্তর হতে পারে তবে কেউ কি এর প্রস্তাব দেয়?
নিক কক্স

@ নিককক্স দুই মন্তব্য। (1) মাঝারি বন্ধন ফেরত নির্বিকার যে পয়েন্ট! এই উত্তরগুলিতে দুর্দান্ত তত্ত্ব আছে, তবে আমি ভেবেছিলাম একটি অত্যন্ত সাধারণ উদাহরণ কিছু রঙ যুক্ত করতে পারে। ফ্র্যাঙ্কের উত্তরের উদ্ধৃতি দেওয়ার জন্য, "অর্থটি ব্যবহার করা হয় কারণ এটি ডেটা সংবেদনশীল" এবং পোর্টফোলিও রিটার্নগুলি একটি সাধারণ, বোধগম্য পরিস্থিতি দেয় যেখানে আপনি এটি চাইতেন। (২) "মোট" বনাম "অর্থ" সম্পর্কে যত্নশীলের মধ্যে পার্থক্য বরং নিকৃষ্ট হতে পারে। "আমার কি হেজ ফান্ডে বিনিয়োগ করা উচিত?" এর উত্তর দিতে, সম্ভবত আমি জানতে চাই, "হেজ তহবিলের গড় ফেরত কি?"
ম্যাথু গন

1
(1) আমি সম্মত, যেমন বলা হয়েছে; আমার প্রশ্নটি কেবলমাত্র মধ্যস্থকে এই উদ্দেশ্যে শিক্ষণ বা গবেষণা সাহিত্যে গুরুত্ব সহকারে উল্লেখ করা হয়েছে কিনা is (২) আমি মনে করি না যে আমার বক্তব্যটি নিউবুলাস; এটি প্রথমে কী আসে তার একটি সহজ প্রশ্ন, যা ব্যবহারিকভাবে প্রাথমিক আগ্রহ। আমি শিরোনামগুলি "মোট 200 বছর ধরে জেলে জেলে গেছি" এবং আমি জানি যে তারা কেন ছাপা হচ্ছে তবে তা সত্ত্বেও এটি সংক্ষিপ্ত করার একটি অদ্ভুত উপায়। বিপরীতে, বিভিন্ন দুর্যোগে 200 জন নিহত হওয়া প্রাথমিক, বরং প্রতিটিতে 40 জন মারা যাওয়ার বিপরীতে 5 টি বিপর্যয় ঘটে। (ছোট) ইস্যুটি বেছে নিচ্ছে কোন সংক্ষিপ্ত বিবৃতিটি সবচেয়ে উপযুক্ত।
নিক কক্স

@ নিককক্স পয়েন্ট নেওয়া হয়েছে। আমি সম্মত হই যে আপনি আপনার নিজের মোট বিনিয়োগের বিষয়ে যত্নশীল। যখন কোনও পোর্টফোলিও গঠন এবং নির্দিষ্ট সিকিওরিটির উপর পোর্টফোলিও ওজন নির্ধারণ করার সময়, আপনি সেই সুরক্ষার ফেরতের বৈশিষ্ট্যগুলি যত্ন করতে চলেছেন। আমি সমস্ত পৌরসভায় বন্ড কিনতে যাচ্ছি না, আমি মোটের জন্য সরাসরি যত্ন নিই না, তবে পৌরসভার বন্ডে গড় ফিরতি কী হবে সে সম্পর্কে আমি যত্নশীল? আমি যদি আমার পোর্টফোলিওটিতে কিছু যুক্ত করে থাকি তবে ঝুঁকি / ফেরতের বৈশিষ্ট্যগুলি কী কী?
ম্যাথু গন

একমত। এটাই এখানে অঞ্চল।
নিক কক্স
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.