প্রদত্ত অনুমানের কৌশল এবং পরামিতিগুলির জন্য কোনও নমুনা কত বড় হওয়া উচিত?


12

প্রদত্ত সংখ্যার পরামিতিগুলির সাথে কোনও মডেলটি অনুমান করার জন্য কোনও নিয়মের কোনও থাম্ব বা এমনকি কোনও উপায়ে কি কোনও উপায় বলা উচিত?

সুতরাং, উদাহরণস্বরূপ, আমি যদি 5 টি পরামিতি সহ ন্যূনতম-স্কোয়ারের রিগ্রেশনটি অনুমান করতে চাই তবে নমুনাটি কত বড় হওয়া উচিত?

আপনি কী অনুমানের কৌশলটি ব্যবহার করছেন (যেমন সর্বাধিক সম্ভাবনা, ন্যূনতম স্কোয়ার্স, জিএমএম), বা আপনি কতগুলি বা কোন পরীক্ষাটি চালাচ্ছেন তা বিবেচনা করে না? সিদ্ধান্ত নেওয়ার সময় নমুনার পরিবর্তনশীলতাটি কি বিবেচনায় নেওয়া উচিত?

উত্তর:


11

তুচ্ছ উত্তরটি হ'ল বেশি ডেটা সর্বদা কম ডেটাতে পছন্দ করা হয়।

ছোট নমুনা আকার সমস্যা স্পষ্ট। লিনিয়ার রিগ্রেশন (ওএলএস) তে প্রযুক্তিগতভাবে আপনি ওএলএসের মতো এমন কোনও মডেল ফিট করতে পারেন যেখানে এন = কে + 1 তবে আপনি এটি থেকে আবর্জনা পাবেন খুব বড় স্ট্যান্ডার্ড ত্রুটি। আর্থার গোল্ডবার্গারের এই বিষয়টিতে মাইক্রোনুমারসিটি নামে একটি দুর্দান্ত কাগজ রয়েছে যা তার ইকোনোমেট্রিক্সে তাঁর পাঠ্যক্রমটি 'কোর্স' বইয়ের ২৩ অধ্যায়ে সংক্ষিপ্তসারিত হয়েছে ।

একটি সাধারণ হিউরিস্টিক হ'ল আপনি যে অনুমিতিটি অনুমান করতে চান তার জন্য 20 টি পর্যবেক্ষণ থাকা উচিত। এটি সর্বদা আপনার স্ট্যান্ডার্ড ত্রুটির আকার (এবং তাই তাত্পর্য পরীক্ষা করা) এবং আপনার নমুনার আকারের মধ্যে একটি বাণিজ্য is আমাদের মধ্যে কিছু তাত্পর্যপূর্ণ তাত্পর্যকে ঘৃণা করার একটি কারণ এটি হ'ল আপনি প্রচুর নমুনা সহ অবিশ্বাস্যভাবে ছোট (আপেক্ষিক) স্ট্যান্ডার্ড ত্রুটি পেতে পারেন এবং তাই নির্দোষ পরীক্ষাগুলিতে যেমন একটি রিগ্রেশন কোটারিফিয়াল শূন্য কিনা তা অর্থহীন পরিসংখ্যানিক তাত্পর্য খুঁজে পাবেন।

যদিও নমুনার আকার গুরুত্বপূর্ণ আপনার নমুনার গুণমান আরও গুরুত্বপূর্ণ যেমন নমুনা জনগণের পক্ষে জেনারালযোগ্য কিনা, এটি কি কোনও সাধারণ র্যান্ডম নমুনা বা অন্য কোনও উপযুক্ত নমুনা পদ্ধতি (এবং এটি বিশ্লেষণের সময় গণ্য করা হয়েছে), সেখানে কি পরিমাপের ত্রুটি রয়েছে? , প্রতিক্রিয়া পক্ষপাত, নির্বাচন পক্ষপাত, ইত্যাদি।


3

আমি পুনরায় মডেলিং ব্যবহার করতে চাই: আমি ডেটা সাবস্ক্রিপমেন্টের সাথে যা ব্যবহার করেছি তা পুনরায় বলি (বলুন 80% বা এমনকি সামগ্রীর 50%)। বিভিন্ন বিভিন্ন সাবমেল দিয়ে এটি করে, অনুমানগুলি কতটা শক্তিশালী তা অনুভব করি। অনেক অনুমান পদ্ধতির জন্য এটিকে আপনার ত্রুটিগুলির আসল (অর্থ প্রকাশযোগ্য) অনুমান হিসাবে তৈরি করা যেতে পারে।


2

এটি সর্বদা যথেষ্ট বড় হওয়া উচিত! ;)

সমস্ত পরামিতি অনুমান একটি অনুমানের অনিশ্চয়তা নিয়ে আসে যা নমুনার আকার দ্বারা নির্ধারিত হয়। আপনি যদি কোনও রিগ্রেশন বিশ্লেষণ করেন তবে এটি নিজেকে মনে করিয়ে দিতে সহায়তা করে যে ইনপুট ডেটা সেট থেকে Χ 2 বিতরণটি নির্মিত হয়েছে। যদি আপনার মডেলটিতে 5 টি প্যারামিটার থাকে এবং আপনার 5 টি ডেটা পয়েন্ট থাকে তবে আপনি কেবলমাত্র 2 ডলার বিতরণের একক পয়েন্ট গণনা করতে সক্ষম হবেন । যেহেতু আপনাকে এটি হ্রাস করতে হবে, আপনি কেবলমাত্র একটি পয়েন্টটিকে ন্যূনতম হিসাবে অনুমান হিসাবে বেছে নিতে পারেন তবে আপনার আনুমানিক পরামিতিগুলিতে অসীম ত্রুটিগুলি নির্ধারণ করতে হবে। আরও ডেটা পয়েন্ট থাকা আপনাকে প্যারামিটার স্পেসটি আরও ভালভাবে ম্যাপ করার সুযোগ দেয় যা সর্বনিম্ন Χ 2 বিতরণ এবং এর ফলে ছোট অনুমানের ত্রুটির একটি আরও ভাল অনুমানের দিকে যায় ।

পরিবর্তে আপনি কি সর্বাধিক সম্ভাবনা অনুমানকারী ব্যবহার করছেন পরিস্থিতিটি একই রকম হবে: আরও ডেটা পয়েন্টগুলি ন্যূনতম সম্পর্কে আরও ভাল অনুমানের দিকে নিয়ে যায়।

পয়েন্ট বৈকল্পিক হিসাবে, আপনার পাশাপাশি এটি মডেল করা প্রয়োজন। আরও তথ্য পয়েন্ট থাকা "সত্য" মানের আশেপাশের পয়েন্টগুলিকে আরও স্পষ্ট করে তুলবে (কেন্দ্রীয় সীমাবদ্ধ তাত্ত্বিক কারণে) এবং সেই বিন্দুটির সত্যিকারের মান হিসাবে একটি বৃহত, সম্ভাব্য ওঠানামা ব্যাখ্যা করার ঝুঁকি হ্রাস পাবে। এবং অন্য কোনও প্যারামিটারের ক্ষেত্রে পয়েন্ট ভেরিয়েন্সের জন্য আপনার অনুমান আরও স্থিতিশীল হয়ে উঠবে আপনার আরও ডেটা পয়েন্ট।


2

আমি এই বিষয়ে থাম্ব দুটি নিয়ম শুনেছি। কেউ মনে করেন যে কেন্দ্রীয় সীমাবদ্ধতা উপপাদ্য যেমন 20 বা 30 টি উক্ত করার জন্য ত্রুটি শব্দটিতে পর্যাপ্ত পর্যবেক্ষণ রয়েছে ততক্ষণ আপনি ভাল আছেন। অন্যটি ধারণ করে যে প্রতিটি অনুমানিত opeালের জন্য একজনের কমপক্ষে 20 বা 30 টি পর্যবেক্ষণ থাকা উচিত। টার্গেট নম্বর হিসাবে 20 বা 30 ব্যবহারের মধ্যে পার্থক্যটি যখন বিভিন্ন ক্ষেত্রে যথাযথভাবে কেন্দ্রীয় সীমাবদ্ধ তত্ত্বটি উপস্থাপনের জন্য পর্যাপ্ত পর্যবেক্ষণ থাকে তখন বিভিন্ন ধারণার উপর ভিত্তি করে।


1
উত্তর দুটি আমার কাছে খুব আলাদা দেখাচ্ছে। একটি 20 থেকে 30 বলে, অন্যটি 20 থেকে 30 বার opালু বলে। সুতরাং আপনার যদি 5 টি opালু থাকে তবে একটি নিয়ম আপনাকে 20 থেকে 30, অন্যটি 100 থেকে 150 টি পর্যবেক্ষণ বলে। এটা আমার কাছে ঠিক মনে হচ্ছে না ....
ভিভি

1
তারা বেশ বিভিন্ন দিকনির্দেশনা। আমি সন্দেহ করি যে সংযোগ বিচ্ছিন্ন হ'ল আপনি কি ভাবেন যে সামগ্রিক মডেলটির পরীক্ষা (নিম্ন এন গাইডলাইন) গুরুত্বপূর্ণ বা স্বতন্ত্র opালুগুলির (যা উচ্চতর এন গাইডলাইন) পরীক্ষা করে।
রাসেলপিয়ের্স
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.