মিডিয়ানের স্ট্যান্ডার্ড ত্রুটি


14

নীচের সূত্রটি কি সঠিক যদি আমি অ সাধারণ বন্টন (আমি পাইথন ব্যবহার করছি) এর সাথে একটি ছোট নমুনার ক্ষেত্রে মধ্যস্থতার স্ট্যান্ডার্ড ত্রুটি পরিমাপ করতে চাই?

 sigma=np.std(data)
 n=len(data)
 sigma_median=1.253*sigma/np.sqrt(n)

উত্তর:


12

@ মেরির কিছু মন্তব্যের ভিত্তিতে আমি মনে করি যে নিম্নলিখিতগুলি যথাযথ। নমুনা কম হওয়ায় তিনি মিডিয়ান বাছাই করছেন বলে মনে হচ্ছে।

আপনি যদি মিডিয়েন বাছাই করছিলেন কারণ এটি একটি ছোট নমুনা যা ভাল ন্যায়সঙ্গততা নয়। আপনি মিডিয়ান নির্বাচন করেন কারণ মিডিয়ান একটি গুরুত্বপূর্ণ মান। এটি গড় থেকে আলাদা কিছু বলে। আপনি এটি কিছু পরিসংখ্যানের গণনার জন্যও বেছে নিতে পারেন কারণ এটি নির্দিষ্ট কিছু সমস্যার মতো বিদেশী বা স্কিউর বিরুদ্ধে শক্ত। যাইহোক, ছোট নমুনার আকার সেগুলির শক্তিশালীগুলির মধ্যে একটি নয়। উদাহরণস্বরূপ, যখন নমুনার আকার ছোট হয় এটি আসলে গড়ের তুলনায় স্কুতে বেশি সংবেদনশীল হয়।


ধন্যবাদ জন! আপনি যে কারণটি লিখেছেন তা প্রকৃতপক্ষে আমি মিডিয়ানের পরিবর্তে মিডিয়ানটি ব্যবহার করতে পছন্দ করেছি। আমার বিভিন্ন নমুনা রয়েছে, তাদের সকলেরই গাউসির বিতরণ নেই। এখানে 50 টিরও বেশি পয়েন্ট সমেত নমুনা রয়েছে, অন্যরা 10 টিরও কম পয়েন্ট সমেত, তবে তাদের সবার জন্য আমি মনে করি আপনার মন্তব্যটি বৈধ, তাই না?
মেরি

এতগুলি পয়েন্ট সহ আমি অন্তর্নিহিত বিতরণ সম্পর্কে আপনি কী বলতে পারবেন তা নিশ্চিত নই। যদি আপনি 10 এর কম সংখ্যক নমুনাগুলির সাথে 50 টি উপস্থিত নমুনাগুলির সাথে তুলনা করেন এবং অন্তর্নিহিত বিতরণটি প্রতিসাম্য না হয় তবে কোনও মাঝারি কোনও প্রভাব না দেখালেও যদি এটির চেয়ে ছোট নমুনায় আরও পক্ষপাত থাকে। মানে হবে না।
জন

ভবিষ্যতে মাংসে আপনার প্রশ্নগুলি আরও ভাল করে জিজ্ঞাসা করুন এবং আপনার আসলে কী জানতে হবে সে সম্পর্কে আরও জিজ্ঞাসা করুন। আপনি এতক্ষণ যা করেছেন তা কেন বলুন এবং আপনার ভাল করা ডেটা বর্ণনা করুন। আপনি আরও ভাল উত্তর পাবেন।
জন

1
" ছোট ছোট নমুনার আকারের পক্ষে এটির শক্তিশালী সমস্যাগুলির মধ্যে একটি নয় " এর নিজস্ব মূল্য +1; বাকিটি একটি বোনাস
Glen_b -Rininstate মনিকা

প্রকৃতপক্ষে হুবার তাঁর বইয়ে একটি বক্তব্য রেখেছেন যে দৃust়তার কোনও একক ধারণা নেই। বিদেশিদের মধ্যে দৃust়তা রয়েছে (এবং এটিই মধ্যস্থতাকারী শক্তিশালী)। তবে অন্য একটি দৃষ্টিভঙ্গি হল পরিমাপের ত্রুটির প্রতি দৃust়তা এবং এর পরিমাপের ত্রুটিগুলির গড় হিসাবে এটি এর পক্ষে দৃust়। মিডিয়ানটি তবে ত্রুটির ওঠানামা পরিমাপের ক্ষেত্রে অত্যন্ত সংবেদনশীল কারণ তারা লেজগুলির মতোই বিতরণের মাঝখানেও খারাপ প্রভাব ফেলতে পারে।
স্টাসকে

12

সোকাল এবং রোহল্ফ তাদের বায়োমেট্রি গ্রন্থে (পৃষ্ঠা 139) এই সূত্রটি দিয়েছেন । "প্রয়োগযোগ্যতার বিষয়ে মন্তব্যসমূহ" এর অধীনে তারা লিখেছেন: সাধারণ জনসংখ্যা থেকে বড় নমুনা। সুতরাং, আমি আশঙ্কা করছি যে আপনার প্রশ্নের উত্তরটি না হয়। এখানেও দেখুন ।

সাধারণ-অ-সাধারণ বিতরণ সহ ছোট নমুনায় মধ্যস্থতার জন্য স্ট্যান্ডার্ড ত্রুটি এবং আত্মবিশ্বাসের ব্যবধানগুলি পাওয়ার একটি উপায় হ'ল বুটস্ট্র্যাপিং। এই পোস্টটি বুটস্ট্র্যাপিংয়ের জন্য পাইথন প্যাকেজগুলির লিঙ্ক সরবরাহ করে।

সতর্কতা

@ শুভর উল্লেখ করেছে যে ছোট নমুনায় মধ্যমা বুটস্ট্র্যাপিং খুব তথ্যবহুল নয় কারণ বুটস্ট্র্যাপের ন্যায্যতা অ্যাসিম্পটোটিক (নীচে মন্তব্য দেখুন)।


আপনার উত্তরের জন্য ধন্যবাদ! আমি জানি যে বুটস্ট্র্যাপিং একটি বিকল্প হবে, আমি কেবলমাত্র অনুমান করছিলাম যে যদি কোনও মাধ্যমের ত্রুটি অন্যভাবে পরিমাপ করার উপায় থাকে তবে। উত্তরটি কি এমইএন (একই ছোট ছোট নন গাউসিয়ান নমুনা) এর স্ট্যান্ডার্ড ত্রুটির জন্যও নয়?
মেরি

@mary গড়ের স্ট্যান্ডার্ড ত্রুটির জন্য, সোকাল এবং রোহল লিখেছেন যে এটি "[...] সীমাবদ্ধ বৈচিত্র সহ কোনও জনগোষ্ঠীর জন্য প্রযোজ্য" " সুতরাং গড়ের স্ট্যান্ডার্ড ত্রুটির উত্তরটি হ্যাঁ বলে মনে হচ্ছে , আপনি এটি গণনা করতে পারেন। সিডিনোট: যদিও এমন বিতরণ রয়েছে (যেমন কচী বিতরণ) যার কোনও সংজ্ঞায়িত বৈকল্পিক বা গড় নেই এবং এই জাতীয় ক্ষেত্রে, এসইএম গণনা করা যায় না।
COOLSerdash

5
tটি

@ শুভ আপনার মন্তব্যের জন্য ধন্যবাদ। এটা জানা ভাল. আমি আমার উত্তর থেকে ছোট নমুনায় মধ্যমা বুটস্ট্র্যাপ করার পরামর্শটি মুছে ফেলেছি।
COOLSerdash

1
আমি এটির খারাপ পরামর্শ দেওয়ার চেষ্টা করছিলাম না: আমি কেবল এর (অপরিবর্তনীয়) সীমাবদ্ধতাগুলি নির্দেশ করতে চেয়েছিলাম। ছোট ছোট নমুনাগুলি থেকে অনেক কিছু শেখা কঠিন। তবে ছোট নমুনাগুলির বুটস্ট্র্যাপিং দ্বিগুণ পরিপূর্ণ, কারণ এটির সমর্থন করার মত তাত্ত্বিক কোন যৌক্তিকতা নেই (সমস্ত যুক্তি অ্যাসিম্পটোটিক)।
হোবার

12

ম্যাজিক নম্বর 1,253 থেকে আসে মধ্যে asymptotic ভ্যারিয়েন্স সূত্র :

একজনগুলিভীএকটিR[মি^]=14(মি)2এন
কোথায় মি সত্যিকারের মাঝারি, এবং (মি) এই মুহুর্তে সত্য ঘনত্ব।

স্বাভাবিক ব্যতীত অন্য কোনও বিতরণের জন্য (এবং মেরি স্বীকার করে যে এটি তার ডেটাতে সন্দেহজনক), আপনার আলাদা কারণ রয়েছে। মধ্যম হিসাব পাওয়ামি^এটি এত বড় ব্যাপার নয়, যদিও আপনি এমনকি সিডিএফ বা এটির মতো কিছু উল্টানো বনাম এমনকি বহু সংখ্যক পর্যবেক্ষণের জন্য মাঝারি মানেরগুলি সম্পর্কে উদ্বেগ শুরু করতে পারেন। প্রয়োজনীয় ঘনত্বের মানটি কার্নেল ঘনত্বের অনুমানকারীদের দ্বারা অনুমান করা যায় , প্রয়োজনে। সামগ্রিকভাবে, এটি অবশ্যই তুলনামূলকভাবে সন্দেহজনক কারণ তিনটি আনুমানিক গ্রহণ করা হচ্ছে:

  1. যে ভিন্নতার জন্য অ্যাসিপটোটিক সূত্রটি ছোট নমুনার জন্য কাজ করে;
  2. যে আনুমানিক মিডিয়ান সত্যিকারের মাঝারিটির নিকটবর্তী;
  3. কার্নেলের ঘনত্বের অনুমানকারী একটি সঠিক মান দেয়।

নমুনার আকার যত কম হবে ততই সন্দেহজনক হয়।


3
ম্যাজিক নম্বরটি সম্ভবত যোগ করার মতো π21.253314
হেনরি
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.