কোনও ডেটাসেটের বৈকল্পিকতার জন্য আস্থার ব্যবধান গণনা করতে বুটস্ট্র্যাপ পুনরায় মডেলিং ব্যবহার করা যেতে পারে?


9

আমি জানি যে আপনি যদি অনেকবার ডেটা সেট থেকে পুনরায় নমুনা নেন এবং প্রতিবার গড় গণনা করেন তবে এই উপায়গুলি একটি সাধারণ বিতরণ (সিএলটি দ্বারা) অনুসরণ করবে। সুতরাং, আপনি ডেটা সেটটির সম্ভাব্যতা বিতরণ সম্পর্কে কোনও অনুমান না করে ডেটা সেটের গড়ের উপর একটি আত্মবিশ্বাসের ব্যবধান গণনা করতে পারেন।

আমি ভাবছিলাম যে আপনি বৈকল্পিকতার জন্য অনুরূপ কিছু করতে পারেন। এটি হ'ল, যদি আমি অনেকবার কোনও ডেটা সেট থেকে পুনরায় নমুনা তৈরি করতে এবং প্রতিবার তারতম্যটি গণনা করতে পারি, তবে এই রূপগুলি কোনও নির্দিষ্ট বিতরণ অনুসরণ করবে (ডেটা সেটটির মূল সম্ভাবনা বিতরণ কী ছিল তা নির্বিশেষে)?

আমি জানি যে যদি সেই আসল ডেটা সেটটি স্বাভাবিক হয়, তবে রূপগুলি চি-স্কোয়ার বিতরণকে অনুসরণ করবে follow তবে এমন ক্ষেত্রে কী হবে যে এটি স্বাভাবিক নয়?

উত্তর:


10

কোনও ডেটা সেটের বৈচিত্রের জন্য আস্থা অন্তর গণনা করতে বুটস্ট্র্যাপ পুনরায় মডেলিং ব্যবহার করা যেতে পারে?

হ্যাঁ, ঠিক তেমন অন্যান্য পরিসংখ্যানের মতোই।

আমি জানি যে আপনি যদি অনেকবার ডেটা সেট থেকে পুনরায় নমুনা নেন এবং প্রতিবার গড় গণনা করেন তবে এই উপায়গুলি একটি সাধারণ বিতরণ (সিএলটি দ্বারা) অনুসরণ করবে।

এটি সর্বদা ক্ষেত্রে নয় যে আপনি বুটস্ট্র্যাপটি গড় হিসাবে বুটস্ট্র্যাপ করলে একটি সাধারণ বন্টন অনুসরণ করবে এমনকি এমন বিতরণগুলির জন্যও যা সিএলটি প্রযোজ্য।

এখানে একটি উদাহরণ যেখানে আমি আকারের নমুনার জন্য গড়টি পুনরায় মডেল করেছি এন=100, যেখানে আমি 10000 বার পুনরায় মডেল করেছি:

এখানে চিত্র বর্ণনা লিখুন

এটি দূরবর্তীভাবে স্বাভাবিক নয়।

আসল নমুনাতে পঁচানব্বই '0' মান এবং একটি '1', '2' এবং '100' রয়েছে।

উপরের প্লটটি তৈরি করতে আমি যে (আর) কোডটি দৌড়েছি তা এখানে:

 x <- c(rep(0,97),1,2,100)
 y <- replicate(10000,mean(sample(x,replace=TRUE)))
 plot(table(y),type="h")

সমস্যাটি হ'ল এই ক্ষেত্রে এই ধরণের বিতরণ আকারের সাথে সিএলটি প্রয়োগের জন্য নমুনার আকার (100) খুব ছোট; আমরা এটি কতবার পুনরায় নমুনা দেই তা বিবেচ্য নয়।

তবে, যদি নমুনার আসল আকারটি আরও বড় হয় তবে নমুনার পুনর্নির্মাণের বন্টন এর মতো কোনও কিছুর জন্য আরও সাধারণ দেখায় (যদিও সর্বদা বিচ্ছিন্ন)।

উপরের ডেটা (কালো) পুনরায় মডেল করার সময় এবং একই অনুপাতের মানগুলির জন্য তবে বহুগুণ দশগুণ (লাল; অর্থাত, এন = 1000) সহ এ্যাকডিএফ রয়েছে:

এখানে চিত্র বর্ণনা লিখুন

যেমনটি আমরা দেখতে পাই, বৃহত্তর নমুনাটি পুনরায় মডেল করার সময় বিতরণ ফাংশনটি আরও সাধারণ দেখায়।

যদি আমি অনেকবার ডেটা সেট থেকে পুনরায় নমুনা তৈরি করি এবং প্রতিবার তারতম্যটি গণনা করি তবে এই রূপগুলি কোনও নির্দিষ্ট বিতরণ অনুসরণ করবে

না, একই কারণে এটি প্রয়োজনের জন্য যথাযথভাবে সত্য নয়।

তবে, সিএলটি বৈকল্পিক * এর ক্ষেত্রেও প্রযোজ্য; এটি ঠিক যে আপনি তর্ক করতে পারবেন না যে সিএলটি অনেকগুলি প্রতিকার গ্রহণ করে বুটস্ট্র্যাপ পুনরায় মডেলিংয়ের জন্য প্রয়োগ করে। যদি আসল হয় নমুনার আকারটি যথেষ্ট পরিমাণে বড় হয় তবে এটি (সঠিক অবস্থার অধীনে) পুনরায় মডেলিং বিতরণ করার উপায় তৈরি করতে পারে (এবং উচ্চতর মুহূর্তগুলি, যদি তারা উপস্থিত থাকে) তুলনামূলকভাবে একটি সাধারণ বিতরণের (আরও ছোট নমুনায় বিতরণের সাথে সম্পর্কিত) অন্তত)।

* আপনি যদি বিবেচনা করেন তবে সিএলটি সাধারণত পরিবর্তনের ক্ষেত্রে প্রযোজ্য (যথাযথ মুহুর্তগুলি উপস্থিত রয়েছে ধরে নেওয়া) স্বজ্ঞাত গুলিএন2=1এনΣআমি=1এন(এক্সআমি-এক্স¯)2। দিনYআমি=(এক্সআমি-এক্স¯)2; তারপরগুলিএন2=Y¯সুতরাং, যদি সিএলটি প্রয়োগ হয় Yপরিবর্তনশীল, এটি প্রয়োগ করা যেতে পারে গুলিএন2। এখনগুলিএন-12 এর মাত্র একটি ছোট আকারের সংস্করণ গুলিএন2; সিএলটি যদি প্রয়োগ হয়গুলিএন2 এটি প্রযোজ্য হবে গুলিএন-12। একটি যুক্তির এই রূপরেখা পুরোপুরি শক্ত নয় তবে কিছু ব্যতিক্রম রয়েছে যা আপনি প্রথমে আশা করতে পারেন না।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.