আমি অবাক হয়েছি যে কেউ ডেটার বৈশিষ্ট্যগুলির ভিত্তিতে (পর্যবেক্ষণের সংখ্যা ইত্যাদি) এবং / অথবা ভেরিয়েবলগুলি অন্তর্ভুক্ত করে বুটস্ট্র্যাপ নমুনাগুলির সংখ্যা ব্যবহারের ক্ষেত্রে কোনও সাধারণ নিয়মাবলী জানেন কিনা?
আমি অবাক হয়েছি যে কেউ ডেটার বৈশিষ্ট্যগুলির ভিত্তিতে (পর্যবেক্ষণের সংখ্যা ইত্যাদি) এবং / অথবা ভেরিয়েবলগুলি অন্তর্ভুক্ত করে বুটস্ট্র্যাপ নমুনাগুলির সংখ্যা ব্যবহারের ক্ষেত্রে কোনও সাধারণ নিয়মাবলী জানেন কিনা?
উত্তর:
আমার অভিজ্ঞতা হ'ল পরিসংখ্যানবিদরা পুনরাবৃত্তির সংখ্যা 1000 এর বেশি না হলে সিমুলেশন বা বুটস্ট্র্যাপগুলি গুরুত্ব সহকারে নেবেন না। এমসির ত্রুটি একটি বড় সমস্যা যা প্রশংসা করার সামান্য। উদাহরণস্বরূপ, এই কাগজটিNiter=50
বৈশিষ্ট্য নির্বাচনের সরঞ্জাম হিসাবে লাসোকে প্রদর্শন করতে ব্যবহৃত হয়েছিল। আমার থিসিসটি চালানোর জন্য অনেক কম সময় লাগত যদি 50 টি পুনরাবৃত্তি গ্রহণযোগ্য বলে মনে করা হত! আমি আপনাকে পরামর্শ দিচ্ছি যে আপনার সর্বদা বুটস্ট্র্যাপের নমুনাগুলির হিস্টোগ্রামটি পরীক্ষা করা উচিত । তাদের বিতরণ মোটামুটি নিয়মিত উপস্থিত হওয়া উচিত। আমি মনে করি না যে কোনও সাধারণ সংখ্যার নিয়ম যথেষ্ট হবে এবং এমসির ত্রুটিটি মূল্যায়নের জন্য একটি ডাবল-বুটস্ট্র্যাপ সম্পাদন করা, বলার অপেক্ষা রাখে না over
ধরুন আপনি দুটি স্বতন্ত্র স্ট্যান্ডার্ড স্বাভাবিক এলোমেলো ভেরিয়েবলের অনুপাত থেকে গড়টি নির্ণয় করছেন, কিছু পরিসংখ্যানবিদ এটিকে বুটস্ট্র্যাপিংয়ের পরামর্শ দিতে পারেন কারণ অবিচ্ছেদ্য গণনা করা শক্ত। যদি আপনার বেল্টের নীচে বুনিয়াদি সম্ভাবনা তত্ত্ব থাকে তবে আপনি বুঝতে পারবেন যে এই অনুপাতটি অ-অস্তিত্বহীন গড়ের সাথে একটি কাচি র্যান্ডম ভেরিয়েবল গঠন করে। অন্য কোনও লেপটোকুর্টিক বিতরণে আরও নিয়মিত গাউসিয়ান ডেনসিটি কাউন্টার পার্টের তুলনায় বেশ কয়েকটি অতিরিক্ত বুটস্ট্র্যাপ পুনরাবৃত্তি প্রয়োজন হবে। সেক্ষেত্রে 1000, 100000 বা 10000000 বুটস্ট্র্যাপ নমুনাগুলি যা বিদ্যমান নেই তা অনুমান করার জন্য অপর্যাপ্ত হবে। এই বুটস্ট্র্যাপগুলির হিস্টোগ্রাম অনিয়মিত এবং ভুল দেখায়।
সেই গল্পটিতে আরও কয়েকটি কুঁচকে আছে। বিশেষত, বুটস্ট্র্যাপটি কেবল তখনই ন্যায়সঙ্গত হয় যখন ডেটা উত্পন্ন সম্ভাবনার মডেলগুলির মুহুর্তগুলি উপস্থিত থাকে। এর কারণ আপনি প্রকৃত সম্ভাব্যতার মডেলটির জন্য স্ট্রো ম্যান হিসাবে অভিজ্ঞতা অভিজ্ঞতা বিতরণ ব্যবহার করছেন এবং ধরে নিচ্ছেন যে তাদের একই গড়, আদর্শ বিচ্যুতি, স্কিউনেস, 99 তম পার্সেন্টাইল ইত্যাদি রয়েছে ing
সংক্ষেপে, কোনও পরিসংখ্যানের বুটস্ট্র্যাপের প্রাক্কলন এবং তার স্ট্যান্ডার্ড ত্রুটি কেবল তখনই ন্যায়সঙ্গত হয় যখন বুটস্ট্র্যাপযুক্ত নমুনার হিস্টগ্রাম যুক্তিসঙ্গত সন্দেহের বাইরে নিয়মিত উপস্থিত হয় এবং যখন বুটস্ট্র্যাপটি ন্যায়সঙ্গত হয়।
সম্পাদনা:
আপনি যদি যথেষ্ট নমুনা রাখার বিষয়ে গুরুতর হন তবে আপনাকে যা করা উচিত তা হ'ল আপনার বুটস্ট্র্যাপ পদ্ধতিটি চালানো, আপনি কী আশা করছেন, যথেষ্ট নমুনা বেশ কয়েকবার এবং দেখুন বুটস্ট্র্যাপের অনুমান "প্রায় লাফিয়ে" কতটা। যদি বারবার অনুমানগুলি খুব বেশি পৃথক না হয় (যেখানে "নির্দিষ্ট" আপনার নির্দিষ্ট পরিস্থিতির উপর নির্ভর করে) আপনার সম্ভবত খুব ভাল। অবশ্যই আপনি অনুমান করতে পারবেন যে নমুনা এসডি বা অনুরূপ গণনা করে বারবার অনুমানগুলি কতটা লাফিয়ে যায়।
আপনি যদি একটি রেফারেন্স চান এবং থাম্বের নিয়ম উইলকক্স (2010) লিখেন তবে "5999 সাধারণ ব্যবহারের জন্য প্রস্তাবিত হয়।" তবে এটি কেবল একটি গাইডলাইন বা আপনার ন্যূনতম নমুনার সংখ্যা বিবেচনা করা উচিত। আপনি যদি নিরাপদে থাকতে চান তবে কোনও কারণ নেই (যদি এটি গণনামূলকভাবে সম্ভব হয়) কেন আপনার আরও বেশি নমুনার ক্রম তৈরি করা উচিত নয়।
ব্যক্তিগত নোটে আমি "নিজের জন্য" অনুমান করার সময় 10,000 টি নমুনা চালানোর প্রবণতা করি এবং অন্যের কাছে কোনও কিছু পাস করার অনুমান করার সময় 100,000 নমুনাগুলি চালিত করি (তবে আমি ছোট ডেটাসেটের সাথে কাজ করার সাথে সাথে এটি দ্রুত)।
উইলকক্স, আরআর (2010)। আধুনিক পরিসংখ্যানগত পদ্ধতির মৌলিক বিষয়গুলি: যথেষ্ট পরিমাণে শক্তি এবং নির্ভুলতার উন্নতি করে। স্প্রিঙ্গের।
কিছু পরিস্থিতি রয়েছে যেখানে আপনি আগে বা কয়েক পুনরাবৃত্তির পরে বলতে পারেন যে বিপুল সংখ্যক বুটস্ট্র্যাপ পুনরাবৃত্তি শেষ পর্যন্ত সহায়তা করবে না।
ফলাফলগুলির অর্থবহ ব্যাখ্যার জন্য প্রয়োজনীয় নির্ভুলতার পরিমাণ সম্পর্কে আপনার আশা ইতিমধ্যে রয়েছে have আপনি না না পারলে তথ্য বিশ্লেষণের পিছনে সমস্যাটি সম্পর্কে আরও কিছুটা জানার সময় এসেছে। যাইহোক, কয়েকটি পুনরাবৃত্তির পরে আপনি আরও কতগুলি পুনরাবৃত্তির প্রয়োজন তা অনুমান করতে পারবেন।
স্পষ্টতই, আপনার যদি খুব কম কেস থাকে (বলুন, নীতিশাস্ত্র কমিটি 5 ইঁদুরকে অনুমতি দিয়েছে) আপনাকে কয়েক হাজার হাজার পুনরাবৃত্তির বিষয়ে চিন্তা করার দরকার নেই। সম্ভবত সমস্ত সম্ভাব্য ড্রগুলিতে নজর রাখা ভাল। এবং সম্ভবত এটি থামিয়ে চিন্তা করা আরও ভাল হবে যে 5 ইঁদুরের উপর ভিত্তি করে কোনও ধরণের উপসংহার (না) কীভাবে নির্ধারণ করা যায়।
ফলাফলগুলির মোট অনিশ্চয়তা সম্পর্কে চিন্তা করুন। আমার ক্ষেত্রে, আপনি যে অনিশ্চয়তার অংশটি বুটস্ট্র্যাপিং দ্বারা পরিমাপ করতে এবং হ্রাস করতে পারবেন তা সম্পূর্ণ অনিশ্চিয়তার একটি সামান্য অংশই হতে পারে (যেমন পরীক্ষাগুলির নকশায় বিধিনিষেধের কারণে পরিবর্তনের গুরুত্বপূর্ণ উত্স প্রায়শই পরীক্ষার দ্বারা আবৃত হয় না - বলুন , আমরা সেল লাইনে পরীক্ষা-নিরীক্ষা দিয়ে শুরু করি যদিও চূড়ান্ত লক্ষ্য অবশ্যই রোগী হবে)। এই পরিস্থিতিতে এটি অনেকগুলি পুনরাবৃত্তি চালানোর কোনও অর্থ রাখে না - এটি যাইহোক চূড়ান্ত ফলাফলকে সহায়তা করবে না এবং তদ্ব্যতীত এটি নিশ্চিততার একটি মিথ্যা ধারনা আনতে পারে।
কোনও সম্পর্কিত (যদিও ঠিক একই নয়) সমস্যাগুলি বুটস্ট্র্যাপের বাইরে বা মডেলের ক্রস বৈধতার সময় ঘটে: আপনার কাছে অনিশ্চয়তার দুটি উত্স রয়েছে: সসীম (এবং আমার ক্ষেত্রে সাধারণত স্বতন্ত্র ক্ষেত্রে খুব কম সংখ্যক) এবং (ইন) বুটস্ট্র্যাপযুক্ত মডেলগুলির স্থায়িত্ব। আপনার পুনরায় মডেলিং বৈধতার সেট আপের উপর নির্ভর করে আপনার মধ্যে কেবল একটির পুনরায় মডেলিং প্রাক্কলনে অবদান রাখতে পারে। সেক্ষেত্রে আপনি পুনরায় মডেলিংয়ের মাধ্যমে আপনার কী নিশ্চিততা অর্জন করতে হবে এবং যখন এটি চূড়ান্ত ফলাফলকে সহায়তা করা বন্ধ করে দেয় তখন বিচারের জন্য আপনি বৈকল্পিকের অন্যান্য উত্সের একটি অনুমান ব্যবহার করতে পারেন।
অবশেষে, এখনও অবধি আমার চিন্তাভাবনাগুলি কীভাবে কম পুনরাবৃত্তি করতে হবে সে সম্পর্কে আরও কিছু করার পক্ষে এখানে একটি ব্যবহারিক বিবেচনা দেওয়া হয়েছে :
অনুশীলনে বুটস্ট্র্যাপ চালানোর পরে আমার কাজ করা হয় না। বুটস্ট্র্যাপের আউটপুটকে সংক্ষিপ্ত পরিসংখ্যান এবং / বা পরিসংখ্যানগুলিতে একত্রিত করা দরকার। ফলাফলগুলি কাগজ বা প্রতিবেদন লেখার জন্য ব্যাখ্যা করা দরকার। এর মধ্যে বেশিরভাগই বুটস্ট্র্যাপের কয়েকটি পুনরাবৃত্তির প্রাথমিক ফলাফলগুলির সাথে সম্পন্ন করা যেতে পারে (যদি ফলাফলগুলি পরিষ্কার হয় তবে তারা ইতিমধ্যে কয়েকটি পুনরাবৃত্তির পরে দেখায়, যদি তারা সীমান্তরেখায় থাকে তবে তারা সীমান্তরেখা থাকবে)। তাই আমি প্রায়শই এমনভাবে বুটস্ট্র্যাপিং সেট আপ করি যা আমাকে প্রাথমিক ফলাফলগুলি টানতে দেয় যাতে কম্পিউটারের কম্পিউটারের সময় আমি কাজ চালিয়ে যেতে পারি। বুটস্ট্র্যাপিংয়ে আরও কয়েক দিন সময় লাগলে এটি আমাকে খুব বেশি বিরক্ত করে না।
TLDR। 10,000 টি থাম্বের একটি ভাল নিয়ম বলে মনে হচ্ছে, উদাহরণস্বরূপ, এই বৃহত বা বৃহত্তর বুটস্ট্র্যাপের নমুনাগুলির থেকে পি-মানগুলি সময়ের 95% সময়ের পদ্ধতির জন্য "সত্য পি-মান" এর 0.01 এর মধ্যে থাকবে।
আমি কেবল নীচের পারসেন্টাইল বুটস্ট্র্যাপ পদ্ধতির বিষয়টি বিবেচনা করি, যা সর্বাধিক ব্যবহৃত পদ্ধতি (আমার জ্ঞানের কাছে) তবে স্বীকার করেও দুর্বলতা রয়েছে এবং ছোট নমুনাগুলি ব্যবহার করা উচিত নয় ।
কিছুটা রিফ্রামিং। বুটস্ট্র্যাপ ব্যবহারের ফলে প্রাপ্ত অনিশ্চয়তার জন্য ধারণা পেতে বুটস্ট্র্যাপ থেকে প্রাপ্ত ফলাফলের সাথে সম্পর্কিত অনিশ্চয়তা গণনা করা কার্যকর হতে পারে। নোট করুন যে এটি বুটস্ট্র্যাপের সম্ভাব্য দুর্বলতাগুলি সমাধান করে না (যেমন উপরের লিঙ্কটি দেখুন), তবে এটি কোনও নির্দিষ্ট অ্যাপ্লিকেশনটিতে "পর্যাপ্ত" বুটস্ট্র্যাপ নমুনা রয়েছে কিনা তা মূল্যায়নে সহায়তা করে। সাধারণত, বুটস্ট্র্যাপের নমুনা আকারের সাথে সম্পর্কিত ত্রুটি অনন্তের n
মতো শূন্যে n
চলে যায় এবং প্রশ্নটি জিজ্ঞাসা করে, n
ছোট বুটস্ট্র্যাপের নমুনা আকারের সাথে সম্পর্কিত ত্রুটির জন্য কত বড় হওয়া উচিত ?
একটি পি-মান মধ্যে বুটস্ট্র্যাপ অনিশ্চয়তা। অনুমিত পি-মানটির অনর্থক বলুন, pv_est বুটস্ট্র্যাপ থেকে অনুমান করা পি-মান, প্রায় 2 x sqrt(pv_est * (1 - pv_est) / N)
যেখানে N
বুটস্ট্র্যাপের নমুনার সংখ্যা। এটি বৈধ pv_est * N
এবং (1 - pv_est) * N
যদি উভয়ই হয় >= 10
। এর মধ্যে যদি একটি 10 এর চেয়ে কম হয় তবে এটি কম সুনির্দিষ্ট তবে মোটামুটি একই আশেপাশের অঞ্চলে mate
আত্মবিশ্বাসের ব্যবধানে বুটস্ট্র্যাপ ত্রুটি। যদি 95% আত্মবিশ্বাসের ব্যবধান ব্যবহার করা হয়, তবে বুটস্ট্র্যাপ বিতরণের পরিমাণের 2.5% এবং 97.5% এর পার্সেন্টাইলগুলিতে (2.5% পার্সেন্টাইলের জন্য) পরীক্ষা করে দেখুন কীভাবে তার পরিবর্তনশীলতা দেখুন 2.5 +/- 2 * 100 * sqrt(0.025 * 0.975 / n)
। এই সূত্রটি নেওয়া বুটস্ট্র্যাপ নমুনাগুলির সংখ্যার ভিত্তিতে 95% আত্মবিশ্বাস ব্যবধানের নীচের প্রান্তের অনিশ্চয়তার যোগাযোগ করে। উপরের প্রান্তে অনুরূপ অন্বেষণ করা উচিত। যদি এই অনুমানটি কিছুটা অস্থির হয়, তবে আরও বুটস্ট্র্যাপের নমুনাগুলি নিতে ভুলবেন না!
আমাদের আছে
আমি ডেভিডসন, আর। এবং ম্যাককিনন, জিজি (2000) থেকে নিম্নলিখিত তথ্য নিয়েছি । বুটস্ট্র্যাপ পরীক্ষা: কয়টি বুটস্ট্র্যাপ ?. একনোমেট্রিক পর্যালোচনা, 19 (1), 55-68। (কাজের কাগজ সংস্করণ অবাধে ডাউনলোডযোগ্য)।
"এটি বোঝা সহজ যে কেন প্রিস্টিটিং পদ্ধতিটি ভালভাবে কাজ করে। নাল অনুমানটি সত্য হলে, বি নিরাপদে ছোট হতে পারে, কারণ আমরা ক্ষমতার বিষয়ে মোটেই উদ্বিগ্ন নই Similarly একইভাবে, নালটি মিথ্যা এবং পরীক্ষার ক্ষমতা অত্যন্ত বেশি হলে, বি বড় হওয়ার দরকার নেই, কারণ বিদ্যুৎ হ্রাস কোনও গুরুতর সমস্যা নয়।তবে, যখন নালটি মিথ্যা হয় এবং পরীক্ষার শক্তিটি মাঝারি পরিমাণে বেশি থাকে, ক্ষমতার ক্ষতি এড়াতে খ-কে আরও বড় হওয়া দরকার The বি ছোট যখন এটি নিরাপদে ছোট এবং বড় হতে পারে যখন এটি বড় হওয়ার দরকার হয়।
আমি দেখেছি বেশিরভাগ বুটস্ট্র্যাপিং অ্যাপ্লিকেশনগুলি প্রায় 2,000 থেকে 100 কে পুনরাবৃত্তির প্রতিবেদন করেছে। পর্যাপ্ত সফ্টওয়্যার সহ আধুনিক অনুশীলনে, বুটস্ট্র্যাপের প্রধান সমস্যাগুলি পরিসংখ্যানগুলি হ'ল সময় এবং কম্পিউটিং ক্ষমতা থেকে বেশি more এক্সেল সহ নবীন ব্যবহারকারীদের জন্য, উন্নত ভিজ্যুয়াল বেসিক প্রোগ্রামিংয়ের প্রয়োজনের আগে কেউ কেবল কয়েকশত পারফর্ম করতে পারে। তবে, আর ব্যবহার করা সহজ এবং হাজার হাজার বুটস্ট্র্যাপ করা মানকে সহজ এবং সোজা করে তোলে।