কেন মাঝারিদের চেয়ে বিভিন্ন নমুনায় স্থির থাকে?


22

অ্যান্ডি ফিল্ডস দ্বারা আর ব্যবহার করে পরিসংখ্যান আবিষ্কারের অধ্যায় 1.7.2 , এবং সবগুলি, গড় বনাম মধ্যবর্তী গুণগুলির তালিকা করার সময় বলা হয়েছে:

... গড় বিভিন্ন নমুনায় স্থিতিশীল হতে থাকে।

এটি মধ্যমাধ্যমের বহু গুণাবলী ব্যাখ্যা করার পরে, যেমন

... বন্টনের উভয় প্রান্তে মিডিয়ান তুলনামূলকভাবে চূড়ান্ত স্কোর দ্বারা অপ্রত্যাশিত ...

প্রদত্ত যে মিডিয়ান তুলনামূলকভাবে স্কোর দ্বারা তুলনামূলকভাবে প্রভাবিত হয় না, আমি ভেবেছি এটি নমুনাগুলি জুড়ে আরও স্থিতিশীল হতে পারে। সুতরাং আমি লেখকদের দৃser়তা দেখে হতবাক হয়েছি। আমি একটি সিমুলেশন চালিয়েছি তা নিশ্চিত করতে - আমি 1 এম এলোমেলো সংখ্যা উত্পন্ন করেছি এবং 100 টি সংখ্যা 100 বার নমুনা করেছি এবং প্রতিটি নমুনার গণিত গড় এবং মধ্যক এবং তারপরে সেই নমুনার মাধ্যমগুলির ও এসডিগুলির গণনা করি।

nums = rnorm(n = 10**6, mean = 0, sd = 1)
hist(nums)
length(nums)
means=vector(mode = "numeric")
medians=vector(mode = "numeric")
for (i in 1:10**3) { b = sample(x=nums, 10**2); medians[i]= median(b); means[i]=mean(b) }
sd(means)
>> [1] 0.0984519
sd(medians)
>> [1] 0.1266079
p1 <- hist(means, col=rgb(0, 0, 1, 1/4))
p2 <- hist(medians, col=rgb(1, 0, 0, 1/4), add=T)

আপনি দেখতে পাচ্ছেন যে মাধ্যমগুলির চেয়ে মাধ্যমগুলি আরও শক্তভাবে বিতরণ করা হয়েছে।

এখানে চিত্র বর্ণনা লিখুন

সংযুক্ত ছবিতে লাল হিস্টোগ্রামটি মিডিয়ানদের জন্য - আপনি দেখতে পাচ্ছেন এটি কম লম্বা এবং চর্বিযুক্ত লেজ রয়েছে যা এটি লেখকের দৃ as়তার নিশ্চয়তা দেয়।

যদিও আমি এটি দ্বারা flabbergasted! আরও স্থিতিশীল মধ্যমা কীভাবে শেষ পর্যন্ত নমুনাগুলির চেয়ে আরও বেশি পরিবর্তিত হতে পারে? মনে হচ্ছে প্যারাডক্সিকাল! যে কোনও অন্তর্দৃষ্টি প্রশংসা করা হবে।


1
x¯x¯

10
লেখকের বক্তব্য সাধারণত সত্য নয়। (আমরা এখানে এই লেখকের বইগুলির ত্রুটি সম্পর্কিত অনেক প্রশ্ন পেয়েছি, সুতরাং এটি অবাক হওয়ার মতো কিছু নয়।) "স্থিতিশীল বিতরণ " গুলির মধ্যে স্ট্যান্ডার্ড কাউন্টারিক্সগুলি পাওয়া যায় , যেখানে এর অর্থ" স্থিতিশীল "ব্যতীত (কোনও যুক্তিসঙ্গত অর্থে) শব্দটি) এবং মিডিয়ান অনেক বেশি স্থিতিশীল।
whuber

1
"... বিভিন্ন নমুনায় গড় স্থির থাকে to" এটি একটি বাজে বক্তব্য। "স্থিতিশীলতা" ভালভাবে সংজ্ঞায়িত হয় না। (নমুনা) গড়টি একটি একক নমুনায় প্রকৃতপক্ষে বেশ স্থিতিশীল কারণ এটি একটি ননরানডম পরিমাণ। যদি ডেটা "অস্থায়ী" হয় (অত্যন্ত পরিবর্তনশীল?) তবে গড়টি "অস্থায়ী "ও হয়।
আদমো

1
এই প্রশ্নের উত্তর সম্ভবত স্ট্যাটাস.স্ট্যাকেক্সেঞ্জাওয়েজ.কম / সেশনস / 30৩০7 এ দেওয়া বিশদ বিশ্লেষণ দ্বারা দেওয়া হয়েছে , যেখানে একই প্রশ্নটি একটি নির্দিষ্ট উপায়ে জিজ্ঞাসা করা হয়েছে (যেখানে "স্থিতিশীল" ধারণাটি ভালভাবে সংজ্ঞায়িত হয়েছে)।
whuber

2
এর rnormসাথে প্রতিস্থাপনের চেষ্টা করুন rcauchy
এরিক টাওয়ার

উত্তর:


3

মিডিয়ান বহিরাগতদের কাছে সর্বাধিক শক্তিশালী, তবে উচ্চ শব্দে খুব সংবেদনশীল। আপনি যদি প্রতিটি বিন্দুতে একটি অল্প পরিমাণে শব্দের পরিচয় করিয়ে দেন তবে এটি মধ্যমকে প্রবেশ করবে যতক্ষণ না শব্দগুলি পয়েন্টগুলির আপেক্ষিক ক্রমটি পরিবর্তন না করার পক্ষে যথেষ্ট পরিমাণে ছোট। গড়ের জন্য এটি অন্য উপায়ে। শব্দের গড় গড় হয় তবে একক আউটলেট নির্বিচারে গড় পরিবর্তন করতে পারে।

আপনার পরীক্ষাটি বেশিরভাগ শব্দে দৃ to়তার পরিমাপ করে তবে আপনি সহজেই এমন একটি তৈরি করতে পারেন যেখানে মিডিয়ান আরও ভাল পারফর্ম করে। আপনি যদি এমন একটি অনুমানকারী চান যা উভয়ই বহিরাগত এবং শব্দের পক্ষে দৃ is়, কেবল উপরের এবং নীচের তৃতীয়টি ফেলে দিন এবং বাকী গড়টি গড় করুন।


"33% ছাঁটাই গড় " এর চেয়েও কি এই অ্যালগরিদমের আরও নির্দিষ্ট নাম আছে ?
ডেভিড ক্যারি

25

@ শুভ এবং অন্যান্যরা যেমন বলেছেন, বিবৃতিটি সাধারণভাবে সত্য নয়। এবং যদি আপনি আরও স্বজ্ঞাত হতে ইচ্ছুক হন - তবে আমি এখানে প্রায় গভীর গাণিতিক গিক্স ধরে রাখতে পারি না - আপনি অন্য উপায়ে বোঝাতে পারেন এবং মিডিয়ান স্থিতিশীল কিনা। এই উদাহরণগুলির জন্য, একটি বিজোড় সংখ্যক পয়েন্ট ধরে ধরে রাখুন যাতে আমি আমার বর্ণনাগুলি ধারাবাহিক এবং সহজ রাখতে পারি।

  1. আপনি একটি সংখ্যা লাইনে পয়েন্ট ছড়িয়ে আছে কল্পনা করুন। এখন কল্পনা করুন যে আপনি সমস্ত পয়েন্ট মাঝের উপরে রেখেছেন এবং তাদের 10x পর্যন্ত তাদের মানগুলিতে সরিয়ে নিয়েছেন। মিডিয়ান অপরিবর্তিত, গড়টি উল্লেখযোগ্যভাবে সরানো হয়েছে। সুতরাং মিডিয়ান আরও স্থিতিশীল বলে মনে হচ্ছে।

  2. এখন কল্পনা করুন এই বিষয়গুলি মোটামুটি ছড়িয়ে আছে। কেন্দ্র বিন্দুটি উপরে এবং নীচে সরান। একটি একক পদক্ষেপ মধ্যস্থতাকে এক এক করে পরিবর্তিত করে, তবে সবেমাত্র গড়টি সরানো হয়। মিডিয়ান এখন কম স্থিতিশীল এবং একক পয়েন্টের ছোট চলাচলের প্রতি সংবেদনশীল বলে মনে হচ্ছে।

  3. এখন কল্পনা করুন যে সর্বোচ্চ পয়েন্টটি নিয়েছেন এবং এটিকে সর্বোচ্চ থেকে নিম্নতম বিন্দুতে মসৃণভাবে সরান। গড়টিও সাবলীলভাবে চলবে। তবে মিডিয়ান অবিচ্ছিন্নভাবে অগ্রসর হবে না: যতক্ষণ না আপনার উচ্চ বিন্দু পূর্বের মাঝের চেয়ে কম হয়ে যায় ততক্ষণ এটি সরবে না, তারপরে এটি পরবর্তী বিন্দুটির নীচে না যাওয়া পর্যন্ত এটি বিন্দু অনুসরণ করা শুরু করবে, তারপরে মধ্যকটি সেই বিন্দুটির সাথে আঁকড়ে থাকবে এবং আবার কিছু করবে না আপনি আপনার পয়েন্টটি নিচের দিকে অগ্রসর হতে চললে আর সরবেন না [প্রতি মন্তব্য সম্পাদিত]

সুতরাং আপনার পয়েন্টগুলির বিভিন্ন রূপান্তরগুলির অর্থ হয় মাঝারি বা মাঝারিটি কোনও অর্থে কম মসৃণ বা স্থিতিশীল দেখায়। এখানে গণিতের ভারী-হিট-হিটরা আপনাকে এমন বিতরণগুলি দেখিয়েছে যা থেকে আপনি নমুনা দিতে পারেন যা আপনার পরীক্ষার সাথে আরও ঘনিষ্ঠভাবে মেলে, তবে আশা করি এই স্বজ্ঞাততাও সহায়তা করবে।


1
আইটেম 3 সম্পর্কিত: মিডিয়ানও কি সহজেই চলবে না? প্রাথমিক পয়েন্টগুলির সেটটি বলুন [1, 3, 5, 7, 9]। প্রাথমিকভাবে মধ্যমা হয় 5। পঞ্চম বিন্দু (প্রাথমিকভাবে 9) নীচে নেমে যাওয়া পর্যন্ত এটি মিডিয়ান থাকবে 5, যে বিন্দুতে মধ্যবর্তীটি হ্রাস হওয়ার সাথে সাথে পঞ্চম বিন্দুটি সহজেই অনুসরণ করবে, যতক্ষণ না এটি আঘাত করে 3, ঠিক কোন মুহূর্তে মধ্যবর্তীটি অবস্থান করবে 3। সুতরাং মধ্যস্থকে যে বিন্দুটি সংজ্ঞায়িত করে তা "জাম্পিং" (তৃতীয় বিন্দু থেকে পঞ্চম বিন্দুতে, দ্বিতীয় বিন্দুতে) হওয়া সত্ত্বেও, মধ্যমাটির আসল মানটির কোনও ঝাঁপ / বিচ্ছিন্নতা নেই।
স্কট এম

@ স্কটএম আপনি ঠিক মনে করছেন আমি কেন লাফিয়ে উঠব ভেবেছি তা নিশ্চিত নই সুযোগ পেলেই আমি মন্তব্য করব।
ওয়েইন

18

nμσ2<fmf~f~(z)=σf(μ+σz)zR। নমুনার গড় এবং নমুনার মাঝারিটির অ্যাসিম্পটোটিক ভেরিয়েন্স যথাক্রমে প্রদান করেছেন:

V(X¯n)=σ2nV(X~n)σ2n14f~(mμσ)2.

আমাদের তাই আছে:

V(X¯n)V(X~n)4f~(mμσ)2.

n

V(X¯n)<V(X~n)ff~(mμσ)<12.

nf=1/2π=0.3989423<1/2


অসাধারণ! ধন্যবাদ।
অলোক লাল

4

মন্তব্য: কেবলমাত্র আপনার সিমুলেশনটি প্রতিধ্বনিত করার জন্য, এমন একটি বিতরণ ব্যবহার করে যার জন্য এসডিগুলির অর্থ ও মিডিয়ানদের বিপরীত ফলাফল হয়:

বিশেষত, numsএখন একটি ল্যাপ্লেস বিতরণ (যাকে 'ডাবল এক্সপোনেনশিয়াল'ও বলা হয়) থেকে এসেছেন, যা একই হারের সাথে দুটি তাত্পর্যপূর্ণ বিতরণের পার্থক্য হিসাবে অনুকরণ করা যায় (এখানে ডিফল্ট হার 1)। [সম্ভবত ল্যাপ্লেস বিতরণ উইকিপিডিয়া দেখুন ।]

set.seed(2019)
nums = rexp(10^6) - rexp(10^6)
means=vector(mode = "numeric")
medians=vector(mode = "numeric")
for (i in 1:10^3) { b = sample(x=nums, 10^2); 
  medians[i]= median(b); means[i]=mean(b) }
sd(means)
[1] 0.1442126
sd(medians)
[1] 0.1095946   # <-- smaller

hist(nums, prob=T, br=70, ylim=c(0,.5),  col="skyblue2")
 curve(.5*exp(-abs(x)), add=T, col="red")

এখানে চিত্র বর্ণনা লিখুন

দ্রষ্টব্য: @ হুইবারের লিঙ্কে স্পষ্টভাবে উল্লিখিত আরেকটি সহজ সম্ভাবনা হ'ল কচি, যা এক ডিগ্রি স্বাধীনতার সাথে শিক্ষার্থীর টি বিতরণ হিসাবে অনুকরণ করা যায় rt(10^6, 1)। তবে এর লেজগুলি এত ভারী যে একটি দুর্দান্ত হিস্টোগ্রাম তৈরি করা সমস্যাযুক্ত।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.