কেন নমুনার আকার বৃদ্ধি (নমুনা) বৈকল্পিক হ্রাস করে?


35

বড় ছবি:

আমি কীভাবে নমুনার আকার বাড়ানো একটি পরীক্ষার শক্তি বাড়িয়ে তা বোঝার চেষ্টা করছি। আমার প্রভাষকের স্লাইডগুলি এটিকে 2 টি সাধারণ বিতরণের একটি চিত্র দিয়ে ব্যাখ্যা করে, একটি নাল-হাইপোথিসিসের জন্য এবং একটি বিকল্প-অনুমানের জন্য এবং তাদের মধ্যকার সিদ্ধান্তের দ্বার গ। তারা যুক্তি দেয় যে নমুনার আকার বৃদ্ধি করা বৈকল্পিকতা কমিয়ে দেবে এবং এর ফলে একটি উচ্চতর কার্টোসিস হয়, কার্ভগুলির নীচে ভাগ করা অঞ্চল হ্রাস করে এবং দ্বিতীয় ধরণের ত্রুটির সম্ভাবনা থাকে।

ছোট ছবি:

আমি বুঝতে পারি না একটি বড় নমুনার আকার কীভাবে বৈকল্পিকতা হ্রাস করবে।
আমি ধরে নিলাম আপনি কেবল নমুনার বৈকল্পিক গণনা করেছেন এবং এটি একটি সাধারণ বিতরণে প্যারামিটার হিসাবে ব্যবহার করেন।

আমি চেষ্টা করেছিলাম:

  • গুগলিং , তবে বেশিরভাগ স্বীকৃত উত্তরগুলির 0 টি উর্ধ্বতন রয়েছে বা এটি নিছক উদাহরণ
  • চিন্তাভাবনা : বড় সংখ্যক আইন অনুসারে প্রতিটি মান শেষ পর্যন্ত এর সম্ভাব্য মানটির আশেপাশে স্থির করা উচিত যা আমরা অনুমান করি যে সাধারণ বিতরণ অনুসারে। এবং বৈকল্পিকটি তাই আমাদের ধরে নেওয়া স্বাভাবিক বিতরণের পরিবর্তনে রূপান্তর করা উচিত। তবে সেই সাধারণ বিতরণের বৈকল্পিকতা কী এবং এটি কি সর্বনিম্ন মান অর্থাৎ আমরা নিশ্চিত হতে পারি যে আমাদের নমুনার বৈকল্পিকতা সেই মানটিতে হ্রাস পেয়েছে ?

আপনার চিন্তার পরীক্ষাটি সাধারণত বিতরণ করা ডেটা সম্পর্কিত তবে এটি অন্যান্য অনেক বিতরণ থেকে প্রাপ্ত ডেটার ক্ষেত্রেও প্রযোজ্য (@ অ্যাক্সাল দ্বারা উল্লিখিত, সমস্ত কিছু নয়! কচী এ জাতীয় খারাপ আচরণের একটি সাধারণভাবে উদ্ধৃত উদাহরণ)। দ্বিপদ ডেটার জন্য সেখানে কিভাবে ক্ষমতা ও মান ত্রুটি এ নমুনা আকার সঙ্গে পরিবর্তিত হতে ভাল আলোচনা stats.stackexchange.com/q/87730/22228
Silverfish

1
আপনি ক্রসভিলেটেডে নতুন হিসাবে, আমাকে এটি উল্লেখ করার অনুমতি দিন যে আপনি যদি সন্তোষজনক উত্তর হিসাবে বিবেচনা করেন তবে আপনি যদি তার বামদিকে একটি সবুজ টিক ক্লিক করে এটিকে "স্বীকৃত" হিসাবে চিহ্নিত করে বিবেচনা করবেন। এটি উত্তরদাতাদের জন্য অতিরিক্ত খ্যাতি সরবরাহ করে এবং প্রশ্নের সমাধান হিসাবে চিহ্নিত করেছে।
অ্যামিবা

আমি এটি সম্পর্কে এটি মনে করি: প্রতিটি নতুন পয়েন্টের অনন্য তথ্য রয়েছে। একটি নিখুঁত অনুমান করার জন্য অসীম পয়েন্টগুলির যথেষ্ট পরিমাণ রয়েছে। আমরা আরও বেশি স্যাম্পল পয়েন্ট যুক্ত করার সাথে সাথে আমাদের নিখুঁত অনুমান করার জন্য প্রয়োজনীয় তথ্যের মধ্যে পার্থক্য এবং আমাদের কাছে যে তথ্য আছে তা আরও ছোট এবং ছোট হয়ে যায়।
এনগ্রিস্টুডেন্ট - মনিকা

এটি বিভ্রান্তির উত্স: নমুনার বৈচিত্রটি যে হ্রাস পায় তা নয়, তবে নমুনার বৈকল্পিকতাটি। নমুনা বৈকল্পিক একটি অনুমানকারী (অতএব এলোমেলো পরিবর্তনীয়)। যদি আপনার ডেটা কোনও সাধারণ এন (0, 5) থেকে আসে তবে নমুনার বৈকল্পিকতা 5 টির কাছাকাছি থাকবে? নমুনার বৈকল্পিকতার জন্য আপনার অনুমানের বৈচিত্রের উপর নির্ভর করে। 100 ডেটা পয়েন্ট সহ, আপনি 4.92 এর মতো কিছু খুঁজে পেতে পারেন। 1000 দিয়ে, আপনি 4.98 এর মতো কিছু পাবেন। 10000 এর সাথে, আপনি 5.0001 পাবেন। আপনার পরিমাপের যথার্থতাটিও যা বাড়িয়ে তোলে, নিজের পরিমাপগুলি সেগুলিই নয়।
এন্টি

উত্তর:


32

গড় পর্যায়ের মানগুলি পৃথক পর্যবেক্ষণের স্ট্যান্ডার্ড বিচ্যুতির চেয়ে ছোট। [এখানে আমি সীমাবদ্ধ জনসংখ্যার বৈচিত্র সহ স্বতন্ত্রভাবে বিতরণ করা পর্যবেক্ষণগুলি ধরে নেব; প্রথম দুটি শর্তটি শিথিল করলে অনুরূপ কিছু বলা যেতে পারে]]

এটি সাধারণ সত্যের একটি পরিণতি যে দুটি এলোমেলো ভেরিয়েবলের যোগফলের স্ট্যান্ডার্ড বিচ্যুতিটি স্ট্যান্ডার্ড বিচ্যুতির যোগফলের চেয়ে ছোট (এটি কেবল তখনই সমান হতে পারে যখন দুটি ভেরিয়েবল পুরোপুরি সংযুক্ত থাকে)।

প্রকৃতপক্ষে, আপনি যখন নিরবিচ্ছিন্ন র্যান্ডম ভেরিয়েবলগুলি নিয়ে কাজ করছেন, তখন আমরা আরও নির্দিষ্ট কিছু বলতে পারি: তারতম্যের যোগফলের পরিমাণটি হ'ল তাদের রূপগুলির যোগফল।

এর অর্থ হ'ল স্বতন্ত্র (বা এমনকি কেবল অসংযুক্ত) একই বন্টনের সাথে পরিবর্তিত হয়, গড়ের প্রকরণটি নমুনার আকার দ্বারা বিভক্ত কোনও ব্যক্তির ভিন্নতা ।এন

অনুরূপভাবে একই বিতরণের সাথে স্বতন্ত্র (বা এমনকি কেবল অসংযুক্ত) তারতম্যের সাথে, তাদের গড়ের স্ট্যান্ডার্ড বিচ্যুতি হ'ল নমুনা আকারের বর্গমূল দ্বারা বিভক্ত কোনও ব্যক্তির মানক বিচ্যুতি:এন

σএক্স¯=σ/এন

আপনি আরও ডেটা যুক্ত করার সাথে সাথে আপনি গ্রুপের মাধ্যমের যথাযথ অনুমান ক্রমশ বাড়িয়ে তুলছেন। একই ধরনের প্রভাব রিগ্রেশন সমস্যাগুলিতে প্রযোজ্য।

যেহেতু আমরা নমুনার আকার বাড়িয়ে গড়ে গড়ের আরও সুনির্দিষ্ট অনুমান পেতে পারি, তাই আমরা খুব সহজেই আলাদা আলাদা উপায়গুলি বলতে পারছি যা একসাথে রয়েছে - যদিও ডিস্ট্রিবিউশনগুলি বেশ খানিকটা ওভারল্যাপ করে, একটি বড় নমুনা আকার নিয়ে আমরা এখনও তাদের অনুমান করতে পারি জনসংখ্যা হ'ল সঠিকভাবে বলতে যথেষ্ট যে তারা একই নয়।


8

এন বৃদ্ধি পেলে যে পরিবর্তনশীলতা সঙ্কুচিত হয় তা হ'ল নমুনাটির পরিবর্তনের, প্রায়শই স্ট্যান্ডার্ড ত্রুটি হিসাবে প্রকাশ করা হয়। অথবা, অন্য পদগুলিতে, নমুনা গড়ের সত্যতার সুনির্দিষ্টতা বৃদ্ধি পাচ্ছে।

কল্পনা করুন আপনি এমন একটি পরীক্ষা চালিয়েছেন যেখানে আপনি ৩ জন পুরুষ এবং ৩ জন মহিলা সংগ্রহ করেন এবং তাদের উচ্চতা পরিমাপ করেন। আপনি কতটা নিশ্চিত যে প্রতিটি গ্রুপের গড় উচ্চতাগুলি পুরুষ এবং মহিলাদের পৃথক জনগোষ্ঠীর আসল গড়? আমার মনে করা উচিত যে আপনি মোটেও নিশ্চিত নন। আপনি সহজেই 3 টি নতুন নমুনা সংগ্রহ করতে পারেন এবং প্রথমগুলির থেকে কয়েক ইঞ্চি নতুন উপায় খুঁজে পেতে পারেন। এই জাতীয় পুনরাবৃত্তির বেশ কয়েকটি পরীক্ষার ফলস্বরূপ এমনকি মহিলারা পুরুষদের চেয়ে লম্বা বলে ঘোষণা করতে পারে কারণ এর অর্থগুলি এত বেশি হয়। নিম্ন এন এর সাথে আপনার নমুনা থেকে গড়ের বিষয়ে খুব বেশি নিশ্চিততা নেই এবং এটি নমুনাগুলির মধ্যে অনেকগুলি পরিবর্তিত হয়।

এখন প্রতিটি গ্রুপে 10,000 টি পর্যবেক্ষণ কল্পনা করুন। এটি 10,000 এর নতুন নমুনাগুলি খুঁজে পাওয়া বেশ কঠিন হতে চলেছে যার অর্থ একে অপরের থেকে অনেক বেশি পৃথক। এগুলি অনেক কম পরিবর্তনশীল হবে এবং আপনি তাদের নির্ভুলতার বিষয়ে আরও বেশি নিশ্চিত হন।

আপনি যদি এই চিন্তাভাবনার লাইনটি মেনে নিতে পারেন তবে আমরা এটি স্ট্যান্ডার্ড ত্রুটি হিসাবে আপনার পরিসংখ্যানের গণনায় sertোকাতে পারি। যেমন আপনি এটির সমীকরণটি দেখতে পাচ্ছেন, এটি একটি প্যারামিটারের একটি অনুমান, (এটি n বৃদ্ধি হিসাবে আরও নির্ভুল হওয়া উচিত) সর্বদা n, সাথে বৃদ্ধি পাওয়া একটি মান দ্বারা বিভক্ত । এই স্ট্যান্ডার্ড ত্রুটিটি আপনার গণনাগুলির মাধ্যম বা প্রভাবগুলির পরিবর্তনশীলতা উপস্থাপন করছে। এটি যত ছোট, আপনার পরিসংখ্যান পরীক্ষা আরও শক্তিশালী।σএন

প্রাথমিক পরীক্ষার অনেকগুলি প্রতিরূপের মাধ্যমের কোনও মানক ত্রুটি এবং স্ট্যান্ডার্ড বিচ্যুতির মধ্যকার সম্পর্ককে প্রদর্শনের জন্য এখানে আর এ সামান্য সিমুলেশন। এই ক্ষেত্রে আমরা জনসংখ্যার গড় 100 এবং 15 এর মানক বিচ্যুতি দিয়ে শুরু করব।

mu <- 100
s <- 50
n <- 5
nsim <- 10000 # number of simulations
# theoretical standard error
s / sqrt(n)
# simulation of experiment and the standard deviations of their means
y <- replicate( nsim, mean( rnorm(n, mu, s) ) )
sd(y)

চূড়ান্ত মান বিচ্যুতি তাত্ত্বিক মান ত্রুটির কাছাকাছি কীভাবে তা নোট করুন। এখানে এন ভেরিয়েবলের সাথে খেলে আপনি দেখতে পাচ্ছেন যে পরিবর্তনগুলি পরিমাপ n বৃদ্ধি পাওয়ায় ছোট হবে।

[অন্যদিকে, গ্রাফগুলিতে কুর্তোসিসটি আসলেই পরিবর্তিত হচ্ছে না (ধরে নিলে তারা সাধারণ বন্টন। বৈকল্পিকতা হ্রাস করা কুর্তোসিস পরিবর্তন করে না তবে বিতরণটি আরও সংকীর্ণ দেখাবে। কুর্তোসিস পরিবর্তনগুলি দৃষ্টিভঙ্গিভাবে পরীক্ষা করার একমাত্র উপায় হ'ল বিতরণগুলি একই স্কেলের উপর রাখে]]


আপনি ঠিক বলেছেন, ভবিষ্যতে আমার পক্ষে আরও চিন্তাভাবনা জড়িত হওয়া উচিত: পি
জে__

দুটি জিনিস পুরোপুরি পরিষ্কার নয়: (1) নমুনা বন্টনের বিষয়ে ওপি যে ঘণ্টা বক্ররেখা আলোচনা করে? (২) নিয়ন্ত্রণ গ্রুপের নমুনাগুলির গড় বিতরণ এবং পরীক্ষামূলক গ্রুপের নমুনাগুলির গড় বিতরণ উভয়ের জন্য কী নমুনার আকারগুলি বিবেচনা করা হয়?
লেনার হোয়েট

4

আপনি যদি আমেরিকান নাগরিকদের গড় ওজন কী তা জানতে চেয়েছিলেন, তবে আদর্শ ক্ষেত্রে আপনি অবিলম্বে প্রত্যেক নাগরিককে স্কেলগুলিতে পদক্ষেপ নিতে এবং ডেটা সংগ্রহ করতে বলবেন ask আপনি একটি সঠিক উত্তর পেতে চাই । এটি খুব কঠিন, তাই সম্ভবত আপনি কয়েকজন নাগরিককে স্কেল এঁকে, গড় গণনা করতে এবং জনসংখ্যার গড় কী তা একটি ধারণা পেতে পারেন। আপনি আশা করতে চাই যে নমুনা গড় করা ঠিক জনসংখ্যা গড়ে পৌঁছাতে সমান? আমি আশা করি না.

এখন, আপনি কি একমত হবেন যে আপনি যদি আরও বেশি লোক পেয়ে থাকেন তবে কোনও এক সময় আমরা জনসংখ্যার কাছাকাছি চলে যাব? আমাদের উচিত, তাই না? শেষ পর্যন্ত আমরা যে বেশিরভাগ লোককে পেতে পারি তা হ'ল সম্পূর্ণ জনসংখ্যা এবং এর অর্থ আমরা যা খুঁজছি। এই অন্তর্দৃষ্টি।

এটি একটি আদর্শিক চিন্তার পরীক্ষা ছিল। বাস্তবে জটিলতা রয়েছে। আমি তোমাকে দুটো দেব।

  • কল্পনা করুন যে ডেটা একটি কাচি বিতরণ থেকে আসছে । আপনি আপনার নমুনা অসীমভাবে বাড়াতে পারেন, তবুও তারতম্য হ্রাস পাবে না। এই বিতরণে জনসংখ্যার বৈকল্পিকতা নেই। আসলে, কঠোরভাবে বলতে গেলে, এর কোনও নমুনার অর্থও নেই mean এটা দুঃখজনক. আশ্চর্যজনকভাবে, এই বিতরণটি বেশ বাস্তব, এটি পদার্থবিজ্ঞানে এখানে এবং সেখানে পপ আপ করে।
  • কল্পনা করুন যে আপনি আমেরিকান নাগরিকদের গড় ওজন নির্ধারণের কাজটি করার সিদ্ধান্ত নিয়েছেন। সুতরাং, আপনি আপনার স্কেল নেন এবং ঘরে ঘরে যান। এটি আপনাকে অনেক অনেক বছর সময় নেবে। আপনি লক্ষ লক্ষ পর্যবেক্ষণ সংগ্রহ করার সময়, আপনার ডেটা সেটে কিছু নাগরিক তাদের ওজন অনেকটাই বদলে ফেলবে, কিছু মারা গিয়েছিল point মূল বিষয়টি এই ক্ষেত্রে নমুনার আকার বাড়ানো আপনাকে সহায়তা করে না।

1
আমি সন্দেহ করি যে আপনি আপনার প্রথম বাক্যে "গড় ওজন" বোঝাচ্ছেন। আমি একটি চিন্তার পরীক্ষার ব্যবহার পছন্দ করি। আপনার পরিমাপের সরঞ্জাম থেকে আর একটি জটিলতা আসতে পারে - অর্থাত্ স্কেলগুলি যা পরিধান করবে, এতে প্যারালাক্স ত্রুটি বা ব্যবহারকারীর ত্রুটি থাকতে পারে যা অন্যান্য পরিবর্তনশীলতার পরিচয় দেয়।
MarkR

1

আমি বিশ্বাস করি যে বড় সংখ্যাগুলির আইন ব্যাখ্যা করে যে নমুনার আকার বাড়লে কেন ভেরিয়েন্স (স্ট্যান্ডার্ড ত্রুটি) হ্রাস পায়। এ সম্পর্কে উইকিপিডিয়ায় নিবন্ধ বলে:

আইন অনুসারে, বিপুল সংখ্যক বিচার থেকে প্রাপ্ত ফলাফলের গড় প্রত্যাশিত মানের কাছাকাছি হওয়া উচিত, এবং আরও পরীক্ষাগুলি সম্পাদনের সাথে আরও ঘনিষ্ঠ হওয়ার প্রবণতা থাকবে।

কেন্দ্রীয় সীমাবদ্ধ তত্ত্বের ক্ষেত্রে:

একটি একক এলোমেলো নমুনা অঙ্কন করার সময়, নমুনাটি যত বড় হবে নমুনা গড় জনসংখ্যার কাছাকাছি হবে (উপরের উদ্ধৃতিতে, "পরীক্ষার সংখ্যা" "নমুনা আকার" হিসাবে মনে করুন, সুতরাং প্রতিটি "বিচার" একটি পর্যবেক্ষণ )। অতএব, এলোমেলো নমুনার একটি সীমাহীন সংখ্যার অঙ্কন করার সময়, নমুনা বিতরণের বৈচিত্র্য প্রতিটি নমুনার আকারের চেয়ে কম হবে।

অন্য কথায়, প্রতিটি নমুনা ছোটের পরিবর্তে বড় হলে ঘন্টার আকৃতিটি আরও সংকীর্ণ হবে, কারণ সেই পদ্ধতিতে প্রতিটি নমুনার গড়টি বেলের কেন্দ্রের কাছাকাছি থাকবে।


0

যেমন একটি নমুনার আকার বৃদ্ধি পায়, নমুনার বৈকল্পিক (পর্যবেক্ষণের মধ্যে পার্থক্য) বৃদ্ধি পায় তবে নমুনার পরিবর্তনের অর্থ (স্ট্যান্ডার্ড ত্রুটি) হ্রাস পায় এবং তাই নির্ভুলতা বৃদ্ধি পায়।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.