একটি "নিষ্পাপ বুটস্ট্র্যাপ" ব্যর্থ হয় যেখানে উদাহরণ কি?


86

মনে করুন অজানা বা জটিল বিতরণ থেকে আমার কাছে নমুনা ডেটার একটি সেট রয়েছে এবং আমি তথ্যের একটি পরিসংখ্যান কিছুটা অনুমান করতে চাই । আমার ডিফল্ট প্রবণতা শুধু প্রতিস্থাপন সঙ্গে বুটস্ট্র্যাপ নমুনা একটি গুচ্ছ উৎপন্ন এবং আমার পরিসংখ্যাত নিরূপণ করা হয় প্রতিটি বুটস্ট্র্যাপ নমুনার উপর জন্য আনুমানিক বিতরণ তৈরি করতে ।TTT

উদাহরণস্বরূপ যেখানে এটি একটি খারাপ ধারণা?

উদাহরণস্বরূপ, নির্লিপ্তভাবে এই বুটস্ট্র্যাপটি সম্পাদন করার ক্ষেত্রে একটি ক্ষেত্রে হ'ল যদি আমি সময় সিরিজের ডেটাতে বুটস্ট্র্যাপ ব্যবহার করার চেষ্টা করি (বলুন, আমার উল্লেখযোগ্য স্বতঃসংযোগ আছে কিনা তা পরীক্ষা করার জন্য)। উপরে বর্ণিত নিষ্পাপ বুটস্ট্র্যাপ (আমার মূল সিরিজ থেকে প্রতিস্থাপনের সাথে স্যাম্পলিংয়ের মাধ্যমে নবম বুটস্ট্র্যাপ নমুনা সিরিজের ম ডেটাপয়েন্ট নিয়োগ করা) (আমার মনে হয়) খারাপ পরামর্শ দেওয়া হবে, যেহেতু এটি আমার মূল সময় সিরিজের কাঠামোটিকে উপেক্ষা করে এবং তাই আমরা ব্লক বুটস্ট্র্যাপের মতো ফ্যানসিয়ার বুটস্ট্র্যাপ কৌশলগুলি পান।i

এটি অন্য উপায়ে বলতে গেলে, "প্রতিস্থাপনের সাথে নমুনা দেওয়ার" পাশাপাশি বুটস্ট্র্যাপের কী আছে?


আপনি যদি আইডির ডেটাগুলির মাধ্যমের জন্য অনুমান করতে চান তবে বুটস্ট্র্যাপ একটি দুর্দান্ত সরঞ্জাম। অন্য সমস্ত কিছু প্রশ্নবিদ্ধ, এবং দুর্বল অভিলাপের কেস-বাই-কেস প্রমাণ প্রয়োজন।
স্টাসকে

উত্তর:


67

আগ্রহের পরিমাণ, সাধারণত কোনও বিতরণের কার্যক্ষম, যদি যুক্তিসঙ্গতভাবে মসৃণ হয় এবং আপনার ডেটা আইড হয়, আপনি সাধারণত বেশ নিরাপদ অঞ্চলে থাকেন। অবশ্যই, অন্যান্য পরিস্থিতি রয়েছে যখন বুটস্ট্র্যাপ পাশাপাশি কাজ করবে।

বুটস্ট্র্যাপের "ব্যর্থ" হওয়ার অর্থ কী

বিস্তৃতভাবে বলতে গেলে, বুটস্ট্র্যাপের উদ্দেশ্য হ'ল স্বার্থের পরিসংখ্যানের জন্য একটি স্যাম্পলিং বিতরণ আনুমানিক। এটি প্যারামিটারের প্রকৃত অনুমান সম্পর্কে নয়। সুতরাং, যদি আগ্রহের পরিসংখ্যান (কিছুটা উদ্ধার ও কেন্দ্রিকের অধীনে) যদি এবং আমরা আমাদের বুটস্ট্র্যাপ বিতরণ করতে চাই বিতরণে রূপান্তর করুন । আমাদের যদি এটি না থাকে, তবে আমরা তৈরি ইনফারেন্সগুলিতে বিশ্বাস করতে পারি না।X^nX^nXX

চূড়ান্ত অর্ডার পরিসংখ্যানের নমুনা বিতরণ আনুমানিক করার চেষ্টা করার সময় আইআইডি কাঠামোর মধ্যেও বুটস্ট্র্যাপটি ব্যর্থ হতে পারে তার ক্যানোনিকাল উদাহরণ। নীচে একটি সংক্ষিপ্ত আলোচনা করা হয়।

একটি বিতরণ থেকে এলোমেলো নমুনার সর্বাধিক অর্ডার পরিসংখ্যানU[0,θ]

যাক উপর IID অভিন্ন র্যান্ডম ভেরিয়েবল একটা ক্রম হতে । যাক । বিতরণের হয় (দ্রষ্টব্য যে খুব সাধারণ যুক্তি দিয়ে, এটি প্রকৃতপক্ষে সম্ভাব্যতায় দেখায় এবং প্রায় অবশ্যই , যদি এলোমেলো ভেরিয়েবলগুলি একই জায়গাতে সংজ্ঞায়িত করা হয়।)X1,X2,[0,θ]X(n)=max1knXkX(n)

P(X(n)x)=(x/θ)n.
X(n)θ

একটি প্রাথমিক গণনা বা অন্য কথায়, ডিস্ট্রিবিউশনে রূপান্তরিত করে একটি ঘনঘন র্যান্ডম ভেরিয়েবলকে গড়- ।

P(n(θX(n))x)=1(1xθn)n1ex/θ,
n(θX(n))θ

এখন আমরা একটি (সাদাসিধা) গঠন বুটস্ট্র্যাপ বিতরণের হিসাব রীস্যাম্পেলিং দ্বারা প্রতিস্থাপন সঙ্গে পেতে ও বন্টন ব্যবহার এর উপর শর্তাধীন ।n(θX(n))X1,,XnX1,,Xnn(X(n)X(n))X1,,Xn

তবে, লক্ষ্য করুন যে সম্ভাব্যতা সাথে , এবং তাই বুটস্ট্র্যাপ বিতরণ শূন্যে একটি পয়েন্ট ভর রয়েছে এমনকি অ্যাসিপোটোটিকভাবে সত্ত্বেও প্রকৃত সীমাবদ্ধ বিতরণ অবিচ্ছিন্ন যে সত্য।X(n)=X(n)1(11/n)n1e1

আরো স্পষ্টভাবে, যদিও সত্য সীমিত বন্টন গড় সঙ্গে সূচকীয় হয় , সীমিত বুটস্ট্র্যাপ বন্টন একটি স্থান বিন্দু ভর আকার শূন্য এ প্রকৃত মূল্যের স্বাধীন । গ্রহণ করে ভালোই বড়, আমরা বন্টন কোনো নির্দিষ্ট বিরতি জন্য নির্বিচারে ছোট সীমিত সত্য সম্ভাবনা করতে পারেন , এখনো বুটস্ট্র্যাপ পাবেন ( এখনও !) রিপোর্ট আছে যে এই ব্যবধান অন্তত 0,632 সম্ভাব্যতা! এ থেকে এটি স্পষ্ট হওয়া উচিত যে বুটস্ট্র্যাপ এই সেটিংটিতে নির্বিচারে খারাপ আচরণ করতে পারেθ1e10.632 θθ[0,ε)

সংক্ষেপে, এই ক্ষেত্রে বুটস্ট্র্যাপ ব্যর্থ (দুর্ভাগ্যজনকভাবে)। প্যারামিটার স্পেসের প্রান্তে প্যারামিটারগুলি নিয়ে কাজ করার সময় জিনিসগুলি ভুল হতে থাকে।

সাধারণ র্যান্ডম ভেরিয়েবলের নমুনা থেকে প্রাপ্ত একটি উদাহরণ

আশ্চর্যজনকভাবে সহজ পরিস্থিতিতে বুটস্ট্র্যাপের ব্যর্থতার অনুরূপ অন্যান্য উদাহরণ রয়েছে।

একটি নমুনা বিবেচনা থেকে যেখানে জন্য প্যারামিটার স্থান অবধি সীমিত থাকবে । এই ক্ষেত্রে এমএলই । আবার, আমরা বুটস্ট্র্যাপ অনুমান । আবার, এটি দেখানো যেতে পারে যে (পর্যবেক্ষণের নমুনায় শর্তসাপেক্ষ) এর বিতরণ হিসাবে একই সীমাবদ্ধ বিতরণে রূপান্তরিত করে না ।X1,X2,N(μ,1)μ[0,)X^n=max(X¯,0)X^n=max(X¯,0)n(X^nX^n)n(X^nμ)

বিনিময়যোগ্য অ্যারে

সম্ভবত সর্বাধিক নাটকীয় উদাহরণগুলির মধ্যে একটি হল এক্সচেঞ্জযোগ্য অ্যারে। যাক এলোমেলো ভেরিয়েবলের একটি অ্যারে হয়ে , প্রতিটি জোড় পেরুমিউশন ম্যাট্রিকেসের জন্য এবং , অ্যারে এবং joint এর একই যৌথ বন্টন রয়েছে। অর্থাৎ, এর সারি এবং কলামগুলি অনুমতি দেওয়া বিতরণটিকে অবিচ্ছিন্ন রাখে। (উদাহরণস্বরূপ প্রতি সেল প্রতি এক পর্যবেক্ষণ সহ আপনি দ্বিমুখী র্যান্ডম এফেক্টস মডেল সম্পর্কে ভাবতে পারেন, যদিও মডেলটি আরও সাধারণ।Y=(Yij)PQYPYQY

ধরা যাক আমরা (সমস্ত উপায়ের উপরে বর্ণিত বিনিময়যোগ্যতা অনুমানের কারণে একটি আস্থার ব্যবধান অনুমান করতে চাই কোষগুলি অবশ্যই একই হবে)।μ=E(Yij)=E(Y11)

ম্যাককুলাঘ (2000) এই জাতীয় অ্যারে বুটস্ট্র্যাপিংয়ের দুটি পৃথক প্রাকৃতিক (অর্থাত্ নিষ্পাপ) উপায় বিবেচনা করেছিল। তাদের কেউই নমুনাটির অর্থ হিসাবে সংক্ষিপ্ত বিবরণ লাভ করতে পারে না। তিনি একমুখী বিনিময়যোগ্য অ্যারে এবং লিনিয়ার রিগ্রেশন এর কয়েকটি উদাহরণ বিবেচনা করেন।

তথ্যসূত্র

দুর্ভাগ্যক্রমে, বিষয়টি অনানুষ্ঠানিক, সুতরাং এগুলির কোনওটিই বিশেষভাবে পড়া সহজ নয়।

পি। বিকেল এবং ডি ফ্রিডম্যান, বুটস্ট্র্যাপের জন্য কিছু অ্যাসিম্পটোটিক তত্ত্বঅ্যান। তাত্ক্ষণিকবাজার। , খণ্ড। 9, না। 6 (1981), 1196–1217।

DWK অ্যাণ্ড্রুজ, বুটস্ট্র্যাপ যখন একটি প্যারামিটার প্যারামিটার স্থান সীমানা হয় অসঙ্গতিগুলি , Econometrica , ভোল। 68, না। 2 (2000), 399–405।

পি। ম্যাককুলাঘ, পুনরায় মডেলিং এবং এক্সচেঞ্জযোগ্য অ্যারে , বার্নোল্লি , খণ্ড। 6, না। 2 (2000), 285–301।

ই এল লেহম্যান এবং জেপি রোমানো, পরিসংখ্যানের হাইপোথেসিস পরীক্ষা করছেন , ৩ য়। এডি।, স্প্রিংগার (2005)। [১৫ তম অধ্যায়: সাধারণ বড় নমুনা পদ্ধতি]


ক্রমের পরিসংখ্যান বুটস্ট্র্যাপের আচরণটি আমার কাছে যুক্তিসঙ্গত বলে মনে হয়, সূচকীয় বিতরণ শূন্যের অনুরূপ "পয়েন্ট ভর" রয়েছে - একটি ক্ষতিকারক বিতরণের মোড 0 হয়, সুতরাং এটি যুক্তিসঙ্গত বলে মনে হয় যে সম্ভাবনাটি শূন্য-অ-শূন্য হওয়া উচিত সম্ভবত মূল্য! বুটস্ট্র্যাপ সম্ভবত জ্যামিতিক বিতরণের মতো আরও কিছু হবে যা তাত্পর্যপূর্ণর একটি পৃথক এনালগ। আমি এটিকে এখানে বুটস্ট্র্যাপের "ব্যর্থতা" হিসাবে গ্রহণ করব না - আনুমানিক পরিমাণ হিসাবে সর্বদা যথাযথ বিরতিতে থাকে liesθθX(n)
সম্ভাব্যতা ব্লগ

1
@ কার্ডিনাল - অ্যাসিম্পটোটিক বিতরণ উপযুক্ত মানদণ্ড নয় - যদি না আপনার কাছে অসীম নমুনা থাকে। বুটস্ট্র্যাপ বিতরণ সীমাবদ্ধ নমুনা বিতরণের সাথে তুলনা করা উচিত যা এটি আনুমানিকর জন্য ডিজাইন করা হয়েছিল। আপনি যা দেখাতে চান তা হ'ল বুটস্ট্র্যাপ পুনরাবৃত্তির সংখ্যা অসীমের দিকে যাওয়ার সাথে সাথে বুটস্ট্র্যাপ বিতরণ সীমাবদ্ধ নমুনা বিতরণে রূপান্তরিত হয় । লেট একটি আনুমানিক সমাধান একটি সঠিক নয়। n
সম্ভাব্যতাব্লোগিক

5
@ কার্ডিনাল +1, আমি আগে প্রশ্নটি উত্সাহিত করেছি, তবে আমি কেবল একটি খুব ভাল উত্তর, উদাহরণ এবং নিবন্ধগুলির লিঙ্কগুলির জন্য ধন্যবাদ জানাতে চাই।
এমপিটকাস

@ প্রোব্যাবিলিটিস্লোগিক, অবশ্যই অ্যাসিপটোটিক তত্ত্বের সাধারণ প্রয়োগটি কনভার্জেন্স হারের উপর নির্ভর করে, যদি এটি ধীর হয় তবে এটি প্রযোজ্য নয়। তবে আপনি তখন এই হারটি ধীরগতিতে দেখান, যেহেতু আমার সন্দেহ হয় যে উদাহরণ হিসাবে ইউনিফর্ম বিতরণে নমুনা আকার 100 নেওয়া হয় তবে আপনি @ কার্ডিনাল বর্ণিত সমস্যাগুলির মুখোমুখি হবেন।
এমপিক্টাস

3
@ প্রোব্যাবিলিটিস্লোগিক, প্রথমে আমি কেবল আপনার দুটি সাম্প্রতিক মন্তব্যগুলির উত্তরটি দেখেছি। পূর্ববর্তীটিকে সম্বোধন করার জন্য, আপনি "বুটস্ট্র্যাপের 'ব্যর্থ' হওয়ার অর্থ কী" শীর্ষক বিভাগের প্রথম দুটি বাক্য দেখতে পাবেন, যেখানে এটি সুস্পষ্টভাবে সম্বোধন করা হয়েছে। বুটস্ট্র্যাপ প্যারামিটারটি অনুমান করার বিষয়ে নয়। আমরা ধরে নিই আমাদের কাছে পছন্দসই প্যারামিটারটি অনুমান করার একটি ভাল উপায় রয়েছে (এই ক্ষেত্রে, কাজ করেবুটস্ট্র্যাপটি প্যারামিটারের বিতরণ সম্পর্কে কিছু জানা সম্পর্কে যাতে আমরা অনুমান করতে পারি। এখানে, বুটস্ট্র্যাপটি বিতরণটি ( খুব! ) ভুল পেয়েছে । X(n)
কার্ডিনাল

8

নিম্নলিখিত বইয়ের একটি অধ্যায় (Ch.9) রয়েছে "যখন বুটস্ট্র্যাপিং ব্যর্থতার প্রতিকারের সাথে ব্যর্থতার সাথে ব্যর্থ হয়":

এমআর চেরনিক, বুটস্ট্র্যাপ পদ্ধতি: অনুশীলনকারী এবং গবেষকদের জন্য একটি গাইড , দ্বিতীয় সংস্করণ। হোবোকেন এনজে: উইলি-ইন্টারসায়েন্স, ২০০৮।

বিষয়গুলি হ'ল:

  1. একটি নমুনা আকার খুব ছোট
  2. অসীম মুহুর্তের সাথে বিতরণ
  3. চূড়ান্ত মানগুলি অনুমান করা
  4. জরিপ নমুনা
  5. ডেটা সিকোয়েন্সগুলি যা এম- নির্ভরশীল
  6. অস্থির অটোরেগ্রেসিভ প্রক্রিয়াগুলি
  7. দীর্ঘ পরিসীমা নির্ভরতা

1
আপনি কি এই থ্রেডের উত্তরে এই মন্তব্যটি দেখেছেন ? ঘটনাচক্রে, এই মন্তব্যটি চেরনিকের বইয়ের জন্য একটি অ্যামাজন পৃষ্ঠায় লিঙ্ক করেছে; পাঠক পর্যালোচনা আলোকিত হয়।
শুক্র

@ শুভ আচ্ছা, আমি এই মন্তব্যটি লক্ষ্য করিনি। আমার উত্তর সরিয়ে দেওয়া উচিত?
সাদেঘদ

1
কারণ আপনার মন্তব্যে রেফারেন্সের চেয়ে আরও বিশদ বিশদ, এটির সম্ভাব্য মূল্য রয়েছে: তবে এসই নীতি এবং লক্ষ্যগুলি ধরে রেখে, আপনি কেন এই বইয়ের সুপারিশ করছেন বা এর চেয়ে আরও ভাল ব্যাখ্যা সহ এটি এটিকে প্রশস্ত করে দেখলে ভাল লাগবে - - এতে তথ্যের সংক্ষিপ্তসার অন্তর্ভুক্ত করুন। অন্যথায় এটি সামান্য যোগ করে এবং মুছে ফেলা বা প্রশ্নের মন্তব্যে রূপান্তর করা উচিত।
whuber

1

নিষ্পাপ বুটস্ট্র্যাপ নমুনার আকার বড় হওয়ার উপর নির্ভর করে, যাতে তথ্যের জন্য অনুশীলনীয় সিডিএফ "সত্য" সিডিএফ-এর একটি ভাল সান্নিধ্য হয়। এটি নিশ্চিত করে যে تجرباتي সিডিএফ থেকে নমুনা তৈরি করা "সত্য" সিডিএফ থেকে নমুনা দেওয়ার মতো like চরম কেসটি যখন আপনি কেবল একটি ডেটা পয়েন্ট স্যাম্পল করেন - বুটস্ট্র্যাপিং এখানে কিছুই অর্জন করে না। এই অধঃপতন মামলার কাছে আসার সাথে সাথে এটি আরও অকেজো হয়ে উঠবে।

নির্লিপ্তভাবে বুটস্ট্র্যাপিং সময়ের প্রয়োজনে সিরিজ বিশ্লেষণে ব্যর্থ হবে না (যদিও এটি অকার্যকর হতে পারে) - আপনি যদি ধারাবাহিক সময়ের জন্য ধারাবাহিক সময়ের ভিত্তিক ফাংশন (যেমন একটি কিংবদন্তী বহুপদী) ব্যবহার করে এবং চক্রাকারের জন্য ধারাবাহিক সময়ের সাইন এবং কোজাইন ফাংশনগুলি ব্যবহার করে সিরিজটি মডেল করেন if উপাদান (প্লাস সাধারণ শব্দ ত্রুটি শব্দ)। তারপরে আপনি যে কোনও সময় সম্ভাব্যতার কাজটিতে নমুনা নেওয়ার ঘটনা ঘটেন। এখানে বুটস্ট্র্যাপিংয়ের জন্য কোনও বিপর্যয় নেই।

যে কোনও অটো-পারস্পরিক সম্পর্ক বা এআরআইএমএ মডেলের উপরের এই ফর্ম্যাটে একটি প্রতিনিধিত্ব রয়েছে - এই মডেলটি ব্যবহার করা সহজ এবং আমি বুঝতে এবং ব্যাখ্যা করতে চাই (সাইন এবং কোসাইন ফাংশনগুলিতে চক্রগুলি বোঝা সহজ, একটি এআরআইএমএ মডেলের সহগুণাবলী বোঝা শক্ত)। উদাহরণস্বরূপ অটো-রিলেশন ফাংশন হ'ল একটি সময়ের সিরিজের পাওয়ার বর্ণালীটির বিপরীত ফুরিয়ার রূপান্তর।


@ প্রোব্যাবিলিটিস্লোগিক -১, আমি দুর্ঘটনাক্রমে উত্তরটি আগেই উন্নত করেছিলাম (অপেরা মিনিকে দোষ দেই) সুতরাং ডাউনওয়েতে সক্ষম হতে আমাকে এডিট করতে হয়েছিল, এই জাতীয় কৌশল ব্যবহারের জন্য আমি দুঃখিত। আমি এটি কেবল তখনই করেছি কারণ আমি উত্তরটি প্রথমে পছন্দ করি নি, তবে ডাউনটি করি নি কারণ আমি আমার যুক্তি প্রস্তুত করতে চেয়েছিলাম, যা আমি নীচের মন্তব্যে দেব give
এমপিটকাস

1
@ প্রোব্যাবিলিটিস্লোগিক, টাইম-সিরিজ প্রক্রিয়াগুলির জন্য সময়টি গুরুত্বপূর্ণ ভূমিকা পালন করে, তাই ভেক্টরের বিতরণ থেকে আলাদা । নিষ্পাপ বুটস্ট্র্যাপে করা পুনরায় মডেলিং এই কাঠামোটিকে ধ্বংস করে দেয়, উদাহরণস্বরূপ আপনি যদি এআর (1) মডেল ফিট করার চেষ্টা করেন তবে পরে আপনি পেতে পারেন যে আপনি fit হিসাবে হিসাবে ফিট করতে চেষ্টা করছেন যা হ'ল স্বাভাবিক মনে হয় না। আপনি যদি "বুটস্ট্র্যাপিং টাইম সিরিজ" এর জন্য গুগল করেন তবে দ্বিতীয় নিবন্ধটি সময়ের ধারাবাহিকের (Xt,Xt+1)(Xt+1,Xt)Y10ρY15
বিবিধতার

2
@probabilityislogic, এটা তোমার সরল বুটস্ট্র্যাপ অনুমান জন্য আপনার উত্তর আপনার ধারণা প্রকট জন্য সম্ভব হবে শিরোণামে (1) মডেল ? আমি মনে করি না যে এটি সম্ভব, তাই ডাউনভোটের মূল কারণ। আমি ভুল প্রমাণিত খুশি হবে। ρYt=ρYt1+ut
এমপিক্টাস

1
@ প্রব্যাবিলিসিস্লোগিক, এবং? এক্ষেত্রে অনুমান কী হবে ? আমি পেস্টারিংয়ের জন্য দুঃখিত, তবে আমি সত্যিকার অর্থে দেখতে পাচ্ছি না যে আপনি কীভাবে দেখাতে পারেন যে নিষ্পাপ বুটস্ট্র্যাপ এই ক্ষেত্রে ব্যর্থ হবে না। rho
এমপিক্টাস

4
আমার বই এখানে যখন বুটস্ট্র্যাপ কিভাবে বুটস্ট্র্যাপ সময় সিরিজ প্রয়োগ করা হয় একটি অধ্যায় ব্যর্থ হয় এবং এছাড়াও একটি অধ্যায় রয়েছে। সময় সিরিজের জন্য বুটস্ট্র্যাপটি মডেল ভিত্তিক পদ্ধতির কোনও মডেল থেকে অবশিষ্টাংশগুলিতে প্রয়োগ করা যেতে পারে। অন্যান্য ননপ্যারমেট্রিক সময় ডোমেন পদ্ধতির ব্লক বুটস্ট্র্যাপ যা এর মধ্যে অনেক ধরণের রয়েছে।
মাইকেল চেরনিক
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.