বুটস্ট্র্যাপ পদ্ধতি / প্রস্তাবিত পদ্ধতির জন্য প্রয়োজনীয় নমুনা আকার নির্ধারণ করা


33

আমি জানি এটি একটি বরং উত্তপ্ত বিষয় যেখানে সত্যিকার অর্থে কেউ সহজ উত্তর দিতে পারে না। তবুও আমি ভাবছি যে নিম্নলিখিত পদ্ধতিটি কার্যকর না হতে পারে।

বুটস্ট্র্যাপ পদ্ধতি কেবল তখনই কার্যকর যখন আপনার নমুনা কম বেশি বা কম (সঠিকভাবে পড়ুন) মূল জনসংখ্যার মতো একই বন্টন অনুসরণ করে। নিশ্চিত হওয়ার জন্য এটি আপনার নমুনার আকারকে যথেষ্ট বড় করে তুলতে হবে। তবে কি যথেষ্ট বড়?

আমার অনুমান সঠিক হলে জনসংখ্যার গড় নির্ধারণের জন্য কেন্দ্রীয় সীমাবদ্ধ উপপাদ ব্যবহার করার সময় আপনার একই সমস্যা হয়। কেবলমাত্র যখন আপনার নমুনার আকার যথেষ্ট পরিমাণে বড় হয় তবে আপনি নিশ্চিত হতে পারবেন যে আপনার নমুনাটির জনসংখ্যা সাধারণত বিতরণ করা হয় (প্রায় জনসংখ্যার অর্থ প্রায়)। অন্য কথায়, আপনার নমুনাগুলিকে আপনার জনসংখ্যা (বিতরণ) যথেষ্ট পরিমাণে উপস্থাপন করতে হবে। কিন্তু আবার, যথেষ্ট বড় কি?

আমার ক্ষেত্রে (প্রশাসনিক প্রক্রিয়া: চাহিদার তুলনায় চাহিদা সমাপ্ত করার জন্য প্রয়োজনীয় সময়ের পরিমাণ) আমার একটি জনসংখ্যার একাধিক মডেল বিতরণ আছে (সমস্ত দাবি যা ২০১১ সালে শেষ হয়েছে) যার মধ্যে আমি ৯৯% নিশ্চিত যে এটি আরও কম জনসংখ্যার তুলনায় সাধারণত বিতরণ করা হয় (অতীতের বর্তমান সময়ের এবং এক দিনের মধ্যে যে সমস্ত দাবি শেষ হয়েছে, আদর্শভাবে এই টাইমস্প্যানটি যতটা সম্ভব ছোট) আমি গবেষণা করতে চাই।

আমার 2011 জনসংখ্যা যথেষ্ট ইউনিট থেকে বের বিদ্যমান করতে একটি নমুনা আকার নমুনা এন । আমি x এর মান বেছে নিয়েছি , ধরুন 10 ( )। একটি ভাল নমুনার আকার নির্ধারণ করতে এখন আমি পরীক্ষার এবং ত্রুটি ব্যবহার করি। আমি একটি নিয়েছি এবং আমার নমুনার অর্থ জনসংখ্যার সাধারণত কোলমোগোরভ-স্মারনভ ব্যবহার করে বিতরণ করা হয়েছে কিনা তা দেখুন। যদি তাই হয় তবে আমি একই ধাপগুলি আবার একটি নমুনা আকারের সাথে পুনরাবৃত্তি করি, যদি (ইত্যাদি) এর নমুনার আকারের সাথে পুনরাবৃত্তি না হয় ।xnx10x=10n=504060

কিছুক্ষণ পরে আমি এই সিদ্ধান্তে পৌঁছলাম যে আমার ২০১১ সালের জনসংখ্যার কম বা কম ভাল উপস্থাপনা পাওয়ার জন্য হ'ল পরম নূন্যতম আকার sample যেহেতু আমি জানি আমার আগ্রহের জনসংখ্যা (বর্তমান সময়ের এবং এক দিনের মধ্যে শেষ হওয়া সমস্ত দাবিগুলির) কম বৈচিত্র রয়েছে আমি বুটস্ট্র্যাপ করতে নিরাপদে এর একটি নমুনা আকার ব্যবহার করতে পারি । (পরোক্ষভাবে, আমার টাইমস্পানের আকার নির্ধারণ করে: চাহিদা পূরণের জন্য সময় প্রয়োজন ))n=45n=45n=4545

সংক্ষেপে এটি আমার ধারণা idea তবে যেহেতু আমি কোনও পরিসংখ্যানবিদ নই তবে একজন প্রকৌশলী, যার পরিসংখ্যানের পাঠগুলি বছরের মাথায় ঘটেছিল আমি কেবলমাত্র প্রচুর আবর্জনা তৈরি করার সম্ভাবনাটি বাদ দিতে পারি না :-)। তোমরা কি ভাবো? যদি আমার অনুমানটি বোঝায়, আমার কি বা তার চেয়ে ছোট এর চেয়ে বড় একটি ? আপনার উত্তরগুলির উপর নির্ভর করে (আমার কি বিব্রত বোধ করা উচিত বা না? :-) আমি আরও কিছু আলোচনা ধারণা পোস্ট করব।x10

প্রথম উত্তরে প্রতিক্রিয়া জবাব দেওয়ার জন্য ধন্যবাদ, আপনার উত্তরটি আমার বিশেষত বইয়ের লিঙ্কগুলির জন্য খুব দরকারী।
তবে আমি আশঙ্কা করছি যে তথ্য দেওয়ার প্রয়াসে আমি আমার প্রশ্নটি পুরোপুরি মেঘলা করে ফেলেছি। আমি জানি যে বুটস্ট্র্যাপের নমুনাগুলি জনসংখ্যার নমুনার বিতরণ করে। আমি আপনাকে সম্পূর্ণ অনুসরণ করি কিন্তু ...

আপনার মূল জনসংখ্যার নমুনার পরিমাণ যথেষ্ট পরিমাণে হওয়া দরকার যে আপনার জনসংখ্যার নমুনার বন্টন জনসংখ্যার 'আসল' বিতরণের সাথে মিলে যায় (সমান)।

আপনার মূল নমুনার আকারটি কত বড় হওয়া দরকার তা নির্ধারণ করার জন্য এটি কেবলমাত্র একটি ধারণা যা নমুনা বিতরণ জনসংখ্যার বিতরণের সাথে সামঞ্জস্যপূর্ণ।

ধরুন আপনার কাছে দ্বিমুখী জনসংখ্যা বন্টন রয়েছে এবং একটি শীর্ষ অপরটির চেয়ে অনেক বড়। যদি আপনার নমুনার আকার 5 হয় তবে সম্ভাবনাটি বড় হয় যে সমস্ত 5 টি ইউনিটের একটি বৃহত্তর শীর্ষের খুব কাছাকাছি একটি মান থাকে (এলোমেলোভাবে একটি ইউনিট আঁকার সুযোগটি সবচেয়ে বড়)) এক্ষেত্রে আপনার নমুনা বিতরণ মনোমোডাল দেখায়।

একশো নমুনা আকারের সাথে আপনার নমুনা বিতরণও বিমোডাল হওয়ার সুযোগটি অনেক বড় !! বুটস্ট্র্যাপিংয়ের সমস্যাটি হ'ল আপনার কেবলমাত্র একটি নমুনা রয়েছে (এবং আপনি সেই নমুনায় আরও তৈরি করেন)। যদি নমুনা বিতরণ জনসংখ্যার বিতরণের সাথে সত্যই মিল না করে তবে আপনি সমস্যায় পড়েছেন। আপনার নমুনার আকার অপ্রত্যাশিতভাবে বড় না করে যতটা সম্ভব কম 'খারাপ নমুনা বিতরণ' করার সুযোগ তৈরি করার পক্ষে এটি একটি ধারণা।

উত্তর:


38

আমি এই প্রশ্নে আগ্রহী কারণ আমি বুটস্ট্র্যাপ শব্দটি দেখেছি এবং আমি বুটস্ট্র্যাপে বই লিখেছি। এছাড়াও লোকেরা প্রায়শই জিজ্ঞাসা করেন "বুটস্ট্র্যাপের ফলাফলের জন্য মন্টি কার্লোয়ের একটি ভাল আনুমানিকতা পেতে আমার কয়টি বুটস্ট্র্যাপ নমুনাগুলি দরকার?" এই প্রশ্নের আমার প্রস্তাবিত উত্তর হ'ল আপনি একীভূত না হওয়া পর্যন্ত আকারটি বাড়িয়ে রাখা। কোনও নম্বরই সমস্ত সমস্যার সাথে খাপ খায় না।

nnnআসল নমুনা থেকে। বুটস্ট্র্যাপের নীতিটি রাখে বা না কোনও পৃথক নমুনার "জনগণের প্রতিনিধি খুঁজছেন" এর উপর নির্ভর করে না। এটি নির্ভর করে যা আপনি অনুমান করছেন এবং জনসংখ্যা বিতরণের কিছু বৈশিষ্ট্য (উদাহরণস্বরূপ, এটি স্যাম্পলিংয়ের জন্য কাজ করে এমন জনসংখ্যা বিতরণের সাথে যার সীমাবদ্ধ বৈকল্পিক থাকে তবে তা নয় যখন তাদের অসীম বৈকল্পিক থাকে)। জনসংখ্যা বিতরণ নির্বিশেষে চূড়ান্ত অনুমানের জন্য এটি কাজ করবে না।

বুটস্ট্র্যাপের তত্ত্বটিতে অনুমানের ধারাবাহিকতা দেখানো জড়িত। সুতরাং এটি তাত্ত্বিকভাবে দেখানো যেতে পারে যে এটি বড় নমুনাগুলির জন্য কাজ করে। তবে এটি ছোট নমুনাগুলিতেও কাজ করতে পারে। আমি দেখেছি এটি শ্রেণিবদ্ধকরণ ত্রুটির হার অনুমানের জন্য কাজ করেছে বিশেষত ছোট নমুনা আকারগুলিতে যেমন বিভাজনীয় ডেটার জন্য 20।

এখন যদি নমুনার আকার খুব ছোট হয় --- 4 বলুন --- কেবল বুটস্ট্রাপের নমুনাগুলির সেট যথেষ্ট পরিমাণে সমৃদ্ধ না হওয়ায় বুটস্ট্র্যাপ কাজ করতে পারে না। আমার বই বা পিটার হলের বইটিতে খুব ছোট একটি নমুনার আকারের বিষয়টি নিয়ে আলোচনা করা হয়েছে। তবে স্বতন্ত্র বুটস্ট্র্যাপের এই সংখ্যাগুলি খুব দ্রুত বড় হয়ে যায়। সুতরাং এটি 8 টির মতো ছোট আকারের নমুনার ক্ষেত্রেও কোনও সমস্যা নয় আপনি এই উল্লেখগুলি একবার দেখে নিতে পারেন:


3
সেখানে (উদাহরণস্বরূপ 4 নমুনা) পর্যাপ্ত নয় কিনা তা পরীক্ষা করার জন্য রান করার কোনও মানক পরীক্ষা আছে? আমার একটি ডেটাসেট রয়েছে যেখানে আমি গড়ের জন্য বুটস্ট্র্যাপযুক্ত আত্মবিশ্বাসের ব্যবধানগুলি গণনা করছি তবে কিছু ব্যক্তির কাছে খুব কম ডেটাপয়েন্ট রয়েছে (<8 কিছু ক্ষেত্রে)। আমার প্রবৃত্তি আমাকে বলেছে যে আমার কাছে এন ডাটা পয়েন্টের চেয়ে কম ব্যক্তিদের উপেক্ষা করা উচিত, তবে তারপরে আমি কীভাবে এই কাটফট এন সংজ্ঞায়িত করব? আমি একটি সাধারণভাবে গ্রহণযোগ্য কাটঅফ মান (একটি মিশ্র-মডেল বিশ্লেষণে প্রতি গ্রুপে নমুনাগুলির সংখ্যার জন্য স্বেচ্ছাসেবী কাট-অফ পয়েন্ট কীভাবে সাদৃশ্যপূর্ণ) সন্ধানের প্রত্যাশা করছিলাম।
আরটিবিকার্ড

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.