যদি আপনার এলোমেলো নমুনাটি স্পষ্টভাবে প্রতিনিধি না হয় তবে কী হবে?


28

আপনি যদি কোনও এলোমেলো নমুনা নেন এবং আপনি দেখতে পাচ্ছেন তবে এটি সাম্প্রতিক এক প্রশ্নের মতোই প্রতিনিধিত্বমূলক নয় । উদাহরণস্বরূপ, যদি জনসংখ্যা বিতরণ 0 এর আশেপাশে প্রতিসম হিসাবে বিবেচিত হয় এবং আপনি যে নমুনা এলোমেলোভাবে আঁকেন তাতে ভারসাম্যহীন ইতিবাচক এবং নেতিবাচক পর্যবেক্ষণ রয়েছে, এবং ভারসাম্যহীনতা পরিসংখ্যানগতভাবে তাৎপর্যপূর্ণ, এটি আপনাকে ছেড়ে যায় কোথায়? পক্ষপাতদুষ্ট নমুনার ভিত্তিতে জনসংখ্যা সম্পর্কে আপনি কোন যুক্তিসঙ্গত বক্তব্য দিতে পারেন? এ জাতীয় পরিস্থিতিতে যুক্তিসঙ্গত পদক্ষেপ কী? আমাদের গবেষণায় যখন আমরা এই ভারসাম্যহীনতা লক্ষ্য করি তখন এটি কী আসে যায়?


2
মাইকেল, যদি আমরা পরিসংখ্যানিক তাত্পর্যটিকে আমাদের মেট্রিক হিসাবে ব্যবহার করি তবে এই সমস্যাটি 20 এ একবারে ঘটতে পারে বলে আশা করা যায়। প্রায়শই আমরা জানি না কখন আমরা এলোমেলোভাবে একটি প্রতিনিধি হিসাবে নমুনা বেছে নিয়েছি কারণ আমরা জনসংখ্যার বিষয়ে পর্যাপ্ত পরিমাণে জানি না। কিন্তু যখন আমরা জনসংখ্যা সম্পর্কে কিছু জানি, এবং আমরা যখন এই জাতীয় অসঙ্গতি লক্ষ্য করি, তখন আমরা কী করব?
জোয়েল ডাব্লু।

3
হ্যাঁ, সর্বাধিক সঠিক অনুশীলনটি হ'ল @ মিশেল চের্নিক লিখেছেন এমন একটি বিশাল যথেষ্ট এলোমেলো নমুনা অর্জন করা। তবে আমার একজন অধ্যাপক আমাকে বলেছেন যে তিনি মন্টি কার্লো সিমুলেশন দ্বারা যাচাই করেছেন যে, যখন কোনও গবেষককে নমুনার আকার বাড়াতে হয়, তখন কেবল নমুনায় পরিসংখ্যানিক ইউনিটি যুক্ত করা এতটা সঠিক নয়, তবে একজনকে নমুনাটি পুনরাবৃত্তি করতে হবে। অন্যথায়, পরিসংখ্যান পক্ষপাতদুষ্ট হতে পারে (আবারও!)।
this.is.not.a.nick

4
@ মিশেল, আপনার বক্তব্যটি কেন সত্য তা আমি বুঝতে পারি না। নমুনার আকার নির্বিশেষে 5% সময়ের নাল অনুমানের অধীনে .05 এর চেয়ে কম পি-মানটি ঘটবে । সুতরাং এটি কীভাবে সম্ভব যে বৃহত্তর নমুনার আকারগুলি এই সমস্যার সমাধান করবে? আমার কাছে মনে হয় আপনার প্রস্তাবটি অনুমানমূলক পরীক্ষার আকার এবং শক্তিকে বিভ্রান্ত করার জন্য স্পষ্টভাবে পাঠকদের আমন্ত্রণ জানিয়েছে।
whuber

2
@ মিশেল, আপনি কী বোঝাতে চেয়েছেন যে এলোমেলোভাবে আমাদের আরও ডেটা সংগ্রহ করা উচিত? আমরা কি আশা করব যে আমরা এলোমেলোভাবে অন্য দিকে পক্ষপাতদুষ্ট একটি নমুনা আঁকবো? যে কোনও ক্ষেত্রে, আমাদের অতিরিক্ত সংখ্যাগুলির সংখ্যাটি অঙ্কন করা উচিত? আপনি কি পরামর্শ দিচ্ছেন যে আমরা শুরুতে একটি সংখ্যা নির্ধারণ করি বা স্টপিং রুলটি ব্যবহার করি? যদি কোনও থামার নিয়ম থাকে তবে নিয়মটি কেমন দেখাচ্ছে? পরিশেষে, এমনকি যদি বৃহত্তর নমুনার কোনও পরিসংখ্যানগতভাবে তাৎপর্যপূর্ণ পক্ষপাত না থাকে, তবে আমরা জানি এটি দুটি নমুনা সমন্বিত, একটি পক্ষপাত সহ এবং একটি ছাড়া। এই জাতীয় জটিল নমুনার ভিত্তিতে জনসংখ্যা সম্পর্কে আপনি কোন যুক্তিসঙ্গত বক্তব্য দিতে পারেন?
জোয়েল ডাব্লু।

2
@ মিশেল একটি বিকল্প উপসংহারটি হ'ল একটি অত্যন্ত তাত্পর্যপূর্ণ, অত্যন্ত স্কিউ নমুনা নমুনা পদ্ধতিতে একটি সমস্যা নির্দেশ করে। যদি তা হয় তবে আরও বড় নমুনায় প্রতিসমতার অভাব বজায় থাকবে।
whuber

উত্তর:


7

উত্তর এমএলএস কর্তৃক প্রদত্ত (ব্যবহারের গুরুত্ব স্যাম্পলিং) শুধুমাত্র অনুমানের আপনি আপনার ডিস্ট্রিবিউশন সম্পর্কে করতে পারেন হিসাবে ভাল হয়। সীমাবদ্ধ জনসংখ্যার নমুনা দৃষ্টান্তের প্রধান শক্তিটি হ'ল এটি প্যারামিট্রিক নয়, কারণ এটি সীমাবদ্ধ জনসংখ্যার পরামিতিগুলিতে (বৈধ) ইনফারেন্সগুলি তৈরি করার জন্য ডেটা বিতরণ সম্পর্কে কোনও অনুমান করে না।

নমুনা ভারসাম্যহীনতা সংশোধন করার জন্য একটি পদ্ধতির নাম পোস্ট-স্ট্রেটিফিকেশন । আপনাকে নমুনাটি নন-ওভারল্যাপিং ক্লাসগুলিতে (স্ট্রটা-পরবর্তী) ভাঙ্গতে হবে এবং তারপরে জনসংখ্যার পরিচিত পরিসংখ্যান অনুসারে এই শ্রেণিগুলির পুনরায় ওজন করতে হবে। যদি আপনার জনসংখ্যা ০ এর মাঝারি হিসাবে পরিচিত হয় তবে আপনি ইতিবাচক এবং নেতিবাচক পর্যবেক্ষণগুলি পুনরায় তুলতে পারবেন যাতে তাদের ওজনযুক্ত অনুপাতটি 50-50 হয়ে যায়: যদি আপনার 10 টি নেতিবাচক পর্যবেক্ষণ এবং 20 ইতিবাচক পর্যবেক্ষণ সহ একটি দুর্ভাগ্য এসআরএস থাকে তবে আপনি এটি প্রদান করবেন নেতিবাচকগুলি 15/10 = 1.5 এর ওজন এবং ইতিবাচক, 15/20 = 0.75।

নমুনা ক্রমাঙ্কণের আরও সূক্ষ্ম ফর্মগুলি বিদ্যমান , যাতে আপনি আরও সাধারণ বাধা মেটাতে আপনার নমুনাকে ক্যালিব্রেট করতে পারেন, যেমন নির্দিষ্ট মানের সমান হতে পারে ধারাবাহিক পরিবর্তনশীলটির গড় থাকা। প্রতিসম সীমাবদ্ধতার সাথে কাজ করা বেশ কঠিন, যদিও এটি খুব কার্যক্ষমও হতে পারে। জিন আপসোমারের এ সম্পর্কে কিছু থাকতে পারে : জরিপের তথ্যের জন্য তিনি প্রচুর কার্নেল অনুমানের কাজ করছেন।


ভারসাম্যহীন নমুনাটিকে কেবল অস্বীকার করার জন্য এবং অন্য একটি নমুনা আঁকতে কীভাবে যৌগিক বা পরিসংখ্যানগতভাবে পোস্ট-স্ট্র্যাটিফিকেশন তুলনা করে? (কখনও কখনও নমুনা আঁকার গবেষণার শ্রম নিবিড় অংশ, তবে কখনও কখনও আপনি শ্রম নিবিড় যে নমুনাটি আঁকার পরে তা করা হয় এবং নমুনা আঁকা তুলনামূলকভাবে সামান্য প্রচেষ্টা জড়িত, যেমন অনেক পরীক্ষামূলক গবেষণায় in)
জোল ডাব্লু ।

2
আমি কখনই এমন পরিস্থিতিতে পড়িনি যেখানে ডেটা বাতিল করা সর্বোত্তম উত্তর এবং আমি জরিপের পরিসংখ্যানের কোনও বইতে এটি কখনও আলোচনা করে দেখিনি। বেশিরভাগ জরিপের পরিসংখ্যানগুলিতে, নিম্নোক্ত যে কোনও ডেটা প্রসেসিং এবং বিশ্লেষণের চেয়ে ডেটা পাওয়া কমপক্ষে পাঁচগুণ বেশি ব্যয়বহুল (সম্ভবত কিছু সস্তা ওয়েব সমীক্ষা ব্যতীত যেখানে ডেটা সংগ্রহ প্রায় বিনামূল্যে)। আপনি যদি পরীক্ষামূলক বিশ্বে থাকেন তবে আপনার পোস্টকে "নমুনা" ট্যাগ করা উচিত নয়, পরিবর্তে "পরীক্ষামূলক নকশা" ব্যবহার করা উচিত।
StasK

এলোমেলো নমুনাগুলি স্ট্র্যাটেডের পরিবর্তে ব্যবহার করা যেতে পারে কারণ আসল ওয়ার্ল্ড সেটিংয়ে স্ট্র্যাটিফাই করার অনেকগুলি সম্ভাব্য উপায় রয়েছে। এটি ঘটতে পারে যে কোনও পরীক্ষার জন্য দুটি এলোমেলো নমুনা নির্বাচন করার পরে, আপনি কিছু সুস্পষ্ট ভারসাম্যহীনতা লক্ষ্য করেন। তারপরে আপনি একটি শিলা এবং একটি শক্ত জায়গার মধ্যে আটকে আছেন: ভারসাম্যহীনতার সাথে বেঁচে থাকুন (উদাহরণস্বরূপ, এক গোষ্ঠীর সমস্ত প্রবীণ ব্যক্তি, একটি গোষ্ঠীর সমস্ত দেশীয় স্পিকার, একটি গ্রুপে সমস্ত পিএইচডি, ইত্যাদি) বা আঁকুন নতুন নমুনা এবং আপনি যা করেছেন এবং সমস্ত পরিসংখ্যানগত কৌশলগুলির অনুমানের মধ্যে সংযোগকে দুর্বল করে। পোস্ট-স্ট্রেটিফিকেশন দ্বিতীয় ধরণের বলে মনে হয়।
জোয়েল ডব্লিউ।

2

আমি এখানে জুনিয়র সদস্য, তবে আমি বলব যে বাতিল করা এবং শুরু করা সর্বদা সেরা উত্তর, যদি আপনি জানেন যে আপনার নমুনাটি উল্লেখযোগ্যভাবে উপস্থাপনযোগ্য নয় এবং যদি আপনার পক্ষে কোনও ধারণা না থাকে যে প্রথমে কীভাবে আপত্তিজনক নমুনা উঠেছিল এবং এটি সম্ভব হলে দ্বিতীয়বারের মতো কীভাবে এড়ানো যায়।

আপনি সম্ভবত একই নৌকায় উঠে পড়লে দ্বিতীয়বার নমুনা তৈরি করা কী ভাল?

যদি ডেটা সংগ্রহের বিষয়টি আবারও বোঝা না যায় বা প্রতিরোধমূলক ব্যয়বহুল হয় তবে আপনার যা আছে তা নিয়ে কাজ করতে হবে, স্তরবিন্যাস, অভিশংসন, ফ্যানসিয়ার মডেলিং বা যা-কিছু হোক না কেন প্রতিনিধিত্বমূলকতার জন্য ক্ষতিপূরণ দেওয়ার চেষ্টা করতে হবে। আপনাকে পরিষ্কারভাবে লক্ষ করতে হবে যে আপনি এইভাবে ক্ষতিপূরণ দিয়েছেন, কেন এটি প্রয়োজনীয় বলে মনে করেন এবং কেন এটি কাজ করে বলে মনে করেন। তারপরে আপনার বিশ্লেষণের মাধ্যমে পুরোপুরি আপনার ক্ষতিপূরণ থেকে উদ্ভূত অনিশ্চয়তার কাজ করুন। (এটি আপনার সিদ্ধান্তগুলি কম নির্দিষ্ট করে দেবে, তাই না?)

আপনি যদি এটি না করতে পারেন তবে আপনাকে প্রকল্পটি পুরোপুরি ফেলে দিতে হবে।


যদি আপনি না জানেন কেন নমুনাটি উপস্থাপনযোগ্য নয়, আপনি কি এখনও এটিকে বাতিল করে এবং একটি নতুন, এলোমেলো নমুনা আঁকার পক্ষে যুক্তিযুক্ত? তা না হলে কেন? এছাড়াও, ধরা যাক আপনি প্রথম নমুনাটি বাতিল করেন এবং দ্বিতীয়টি আঁকেন, বাতিল হওয়া প্রথম পরিসংখ্যানগুলিই আপনি বাতিল হওয়া প্রথম নমুনার কারণে কোনওভাবেই অপ্রয়োজনীয়ভাবে দ্বিতীয় নমুনার ভিত্তিতে গণনা করতে পারেন? উদাহরণস্বরূপ, আপনি যদি প্রতিনিধিত্বমূলক নমুনাগুলি ছাড়ার সাবস্ক্রাইব করেন তবে আপনি কি পরিসংখ্যান বিতরণ পরিবর্তন করছেন যা আপনার পরিসংখ্যানগত পরীক্ষার ভিত্তিতে রয়েছে? যদি তা হয় তবে আপনি কি পরিসংখ্যানগত তাত্পর্য খুঁজে পাওয়া সহজ বা কঠিন করে তুলছেন?
জোয়েল ডাব্লু।

@ ওয়েইন ভাল ধারণা।
সুভাষ সি। দাবার

1

qpp

sp=E{f(X)|Xp}s(p)f{x1,,xn}p

sp1ni=1nf(xi).
xiqsp
sp1ni=1np(xi)q(xi)f(xi).
E{p(X)q(X)f(X)|Xq}=p(X)f(X)dx,

আপনি বলছেন যে নমুনা পক্ষপাতদুষ্ট নয় এবং নমুনা ঠিক করার কোনও প্রচেষ্টা পক্ষপাতমূলক যোগ করবে। আমি প্রস্তাব দিয়েছি যে, যে প্রক্রিয়াটি দ্বারা নমুনা সংগ্রহ করা হয়েছিল তা পক্ষপাতহীন তবে বাস্তবে, নমুনা পক্ষপাতদুষ্ট, সম্ভবত মারাত্মক পক্ষপাতদুষ্ট। অপেক্ষাকৃত সামান্য অতিরিক্ত পক্ষপাতিত্ব প্রবর্তনের আশা করা যেতে পারে যে বড় বড় পক্ষপাত ঠিক করার চেষ্টা করার উপায় আছে?
জোয়েল ডাব্লু।

1
পরিভাষাটি কিছুটা বিশৃঙ্খল করার জন্য: আমি পক্ষপাতিত্বকে একটি এলোমেলো পরিবর্তনশীলের প্রত্যাশার সম্পত্তি হিসাবে মনে করি। অন্য কথায়, ডেটা সংগ্রহ করার প্রক্রিয়াটি যদি পক্ষপাতহীন হয়, তবে নমুনাটিও তাই। যাইহোক, নমুনা এখনও atypical হতে পারে এবং অযাচিত সিদ্ধান্তে বাড়ে। আপনি (পক্ষপাতহীন) নমুনা পদ্ধতিটি মানিয়ে নিচ্ছেন বলে এই পক্ষপাতদুষ্ট করার কোনও সাধারণ উপায়। সম্ভবত কম পক্ষপাতদুষ্ট পদ্ধতিটি নতুন নমুনাগুলি সংগ্রহ এবং ব্যবহার করা। কিছুটা পক্ষপাতদুষ্ট পদ্ধতির মাধ্যমে পুরানোগুলিতে এই নতুন নমুনাগুলি যুক্ত হবে, তবে আপনার মোট আরও বেশি নমুনা থাকায় ফলটি কম পরিবর্তনশীল হতে পারে।
এমএলএস

2
@ জোয়েল ডাব্লু। আপনি যখন বলছেন যে নমুনা পক্ষপাতদুষ্ট? পক্ষপাতদুষ্ট সেই নমুনার ভিত্তিতে কি গড়ের অনুমান? যে কোনও নমুনা অনুমানটি সত্যিকারের গড় থেকে পৃথক হতে চলেছে এবং কিছু দূরে হতে পারে। এলোমেলোভাবে নমুনা দেওয়ার সময় এটি বৈষম্যের কারণে নয় ias একটি নমুনা পক্ষপাতদুষ্ট বলা ঠিক নয় কারণ নমুনার বন্টন জনসংখ্যার জন্য বিতরণ থেকে অনেক আলাদা বলে পরিচিত। ছোট নমুনায় অনেকগুলি এক কারণে বা অন্য কারণে আপত্তিজনক দেখতে পারেন তবে এলোমেলো নমুনা পক্ষপাতিত্বমূলক নমুনা নয়।
মাইকেল আর চেরনিক

1
@ মিশেল, আমি সম্মত হই যে আমাদের যখন অবশ্যই করতে হবে তখন আমাদের অবশ্যই এলোমেলো রূপটি সনাক্ত করতে হবে এবং বেঁচে থাকতে হবে। আমি জিজ্ঞাসা করছি যখন আমরা অনিচ্ছাকৃত বৈকল্পিকটি সনাক্ত করি তখন যুক্তিসঙ্গতভাবে আমরা কী করতে পারি। যদি আমাদের এলোমেলো নমুনা তুলনায় তুলনামূলকভাবে অনেক অল্প বয়সী লোক, বা অনেকগুলি নীল কলার কর্মী, ইত্যাদি অন্তর্ভুক্ত হয়ে যায়, যখন এই বিভাগগুলি আমাদের গবেষণার সাথে প্রাসঙ্গিক হয়? আরও এগিয়ে যেতে, আমাদের নমুনাগুলি কি এইভাবে ভারসাম্যহীন কিনা তা পরীক্ষা করা উচিত? এবং যদি আমরা নমুনা নিয়ে আরও গবেষণা করার আগে বা নমুনাটি নিয়ে গবেষণা চালানোর জন্য সংস্থানগুলি বিনিয়োগ করার পরে এটি লক্ষ্য করি তবে কী তা বিবেচিত হয়?
জোয়েল ডাব্লু।

1
Covariate ভারসাম্যহীনতা খুব গুরুত্বপূর্ণ। যদি এটি কোনও নমুনায় বিদ্যমান থাকে তবে এটির জন্য সামঞ্জস্য করার জন্য একটি রিগ্রেশন মডেল ব্যবহার করা যেতে পারে। ভ্যান্স বার্গার এই বিষয়ে একটি বই লিখেছেন যা আমি সম্ভবত আগে এই ওয়েবসাইটে উদ্ধৃত করেছি। এখানে বইয়ের একটি বিবরণের একটি অ্যামাজন লিঙ্ক। amazon.com/Selection-Covariate-
ভারসাম্যগুলি- র্যান্ডমাইজড- স্ট্যাটিসটিক্স /…
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.