নির্ভরযোগ্য পর্যবেক্ষণগুলির উপর বুটস্ট্র্যাপের মাধ্যমে আত্মবিশ্বাসের ব্যবধানগুলি গণনা করা

বুটস্ট্র্যাপটি এর মানক আকারে, অনুমানের পরিসংখ্যানগুলির আস্থা অন্তর গণনা করতে ব্যবহার করা যেতে পারে যদি পর্যবেক্ষণ iid হয় i আই ভিজার এট আল। " লুকানো মার্কোভ মডেল প্যারামিটারগুলির জন্য কনফিডেন্স ইন্টারভেলস" এ এইচএমএম প্যারামিটারগুলির জন্য সিআই গণনা করার জন্য একটি প্যারাম্যাট্রিক বুটস্ট্র্যাপ ব্যবহার করেছিল। যাইহোক, আমরা যখন পর্যবেক্ষণের ক্রমটিতে এইচএমএম ফিট করি, আমরা ইতিমধ্যে পর্যবেক্ষণগুলি নির্ভরশীল (মিশ্রণের মডেলের বিপরীতে) ধরে নিয়েছি।

আমার দুটি প্রশ্ন আছে:

আইডি অনুমানটি বুটস্ট্র্যাপের সাথে কী করে?
প্যারামেট্রিক বুটস্ট্র্যাপে আমরা আইডির প্রয়োজনীয়তা উপেক্ষা করতে পারি?

দর্শনার্থী এবং অন্যান্য। পদ্ধতিটি নিম্নরূপ:

ধরা যাক, আমাদের কাছে পর্যবেক্ষণের অনুক্রম প্যারামিটারগুলির প্রকৃত কিন্তু অজানা সেট - এইচএমএম-এর নমুনা ফলস্বরূপ । $Y=o_1,o_2,...,o_n$ $\theta=\theta_1,\theta_2,...,\theta_l$
EM অ্যালগরিদম ব্যবহার করে প্যারামিটারগুলি অনুমান করা যায়: $\hat{\theta}=\hat{\theta}_1,\hat{\theta}_2,...,\hat{\theta}_l$
আকারের একটি বুটস্ট্র্যাপ নমুনা জেনারেট করতে আনুমানিক HMM ব্যবহার করুন : $n$ $Y^*=o^*_1,o^*_2,...,o^*_n$
বুটস্ট্র্যাপের নমুনা অনুসারে এইচএমএমের প্যারামিটারগুলির অনুমান করুন: $\hat{\theta}^*=\hat{\theta}^*_1,\hat{\theta}^*_2,...,\hat{\theta}^*_l$
বার (যেমন = 1000) এর জন্য 3 এবং 4 পদক্ষেপগুলি পুনরাবৃত্তি করুন যার ফলস্বরূপ বুটস্ট্র্যাপের অনুমান: $B$ $B$ $B$ $\hat{\theta}^*(1),\hat{\theta}^*(2),...,\hat{\theta}^*(B)$
বুটস্ট্র্যাপ অনুমানে এর বিতরণ ব্যবহার করে প্রতিটি অনুমিত প্যারামিটার এর সিআই গণনা করুন । $\hat{\theta}_i$ $\hat{\theta}^*_i$

নোট (আমার অনুসন্ধান):

পার্সেন্টাইল পদ্ধতিটি সঠিক কভারেজের জন্য সিআই গণনা করার জন্য ব্যবহার করা উচিত (স্বাভাবিকতা একটি খারাপ ধারণা)।
বুটস্ট্র্যাপ বিতরণের বায়াস সংশোধন করা উচিত। এর অর্থ এর বিতরণ মানে আমাকে স্থানান্তর করা উচিত $\hat{\theta}^*_i$ $\hat{\theta}_i$

confidence-interval bootstrap hidden-markov-model

— Sadeghd
সূত্র

অন্য কথায় প্রথম প্রশ্ন: বুটস্ট্র্যাপে আইআইডি অনুমানের প্রভাব কী? এটি কি সরলকরণ অনুমান যা আরও জটিল অ্যালগরিদম বা সূত্র অনুসরণ করে মুছে ফেলা যায়?

— সাদেঘদ

সংক্ষিপ্ত উত্তর: 1. এটি এটিকে সরল করে। (সত্যি বলতে গেলে, আমি প্রশ্নটি পাইনি)। ২. না, আপনি এটিকে কখনই উপেক্ষা করতে পারবেন না, কারণ আইডির অভাবের সাথে আপনি যা অনুমান করছেন তার বৈকল্পিকতায় তাত্ক্ষণিক পরিণতি ঘটেছে।

মাঝারি উত্তর: বুটস্ট্র্যাপের সাথে কেন্দ্রীয় সমস্যাটি অনেকটাই, 'প্রস্তাবিত পদ্ধতিটি কি ডেটার বৈশিষ্ট্যগুলি পুনরুত্পাদন করে?' । আইআইডি অনুমানের লঙ্ঘন একটি বড় বিষয়: আপনার ডেটা নির্ভরশীল, আপনার (একইভাবে) একই আকারের আইডির নমুনার চেয়ে আপনার ডেটাতে কম তথ্য রয়েছে এবং যদি আপনি একটি নিষ্পাপ বুটস্ট্র্যাপ চালান (পৃথক ব্যক্তিকে পুনরায় নমুনা দেন) পর্যবেক্ষণ), আপনি যে স্ট্যান্ডার্ড ত্রুটিগুলি পান এটি খুব ছোট হবে। প্রস্তাবিত পদ্ধতিটি মডেল কাঠামো এবং পরামিতিগুলির উপর নির্ভরতা ক্যাপচারের মাধ্যমে (বা কমপক্ষে ক্যাপচার চেষ্টা করতে) স্বাধীনতার অভাবজনিত সমস্যাটিকে সরিয়ে দেয়। যদি সফল হয় তবে প্রতিটি বুটস্ট্র্যাপ নমুনা প্রয়োজন মতো ডেটার বৈশিষ্ট্য পুনরুত্পাদন করবে।

দীর্ঘ উত্তর:বুটস্ট্র্যাপ সম্পর্কিত অনুমানের একাধিক স্তর রয়েছে এবং এমনকি সহজতম সম্ভাব্য ক্ষেত্রে (আইআইডি ডেটা, গড়ের অনুমান) আপনাকে কমপক্ষে তিনটি অনুমান করতে হবে: (১) আগ্রহের পরিসংখ্যানটি ডেটাগুলির একটি মসৃণ ফাংশন (গড়ের ক্ষেত্রে সত্য, পারসেন্টাইলের ক্ষেত্রেও এতটা সত্য নয়, নিকটতম প্রতিবেশীর সাথে মিলে যাওয়া অনুমানের কথা পুরোপুরি বন্ধ); (২) আপনি যে বিতরণটি থেকে বুটস্ট্র্যাপ করেন তা জনসংখ্যার বিতরণের "কাছাকাছি" থাকে (আইআইডি ডেটার ক্ষেত্রে ঠিক কাজ করে; নির্ভরশীল ডেটার ক্ষেত্রে ঠিক কাজ করতে পারে না, যেখানে আপনার কাছে মূলত কেবল একটি ট্র্যাজেক্টরি = একটি পর্যবেক্ষণ রয়েছে সময়ের সিরিজের ক্ষেত্রে, এবং আপনাকে আধিকারিক জনগোষ্ঠীর মধ্যে এই একক পর্যবেক্ষণকে প্রশস্ত করতে মিশ্রণ এবং মিশ্রণের মতো অতিরিক্ত অনুমানের অনুরোধ করতে হবে); (3) আপনার মন্টি কার্লো বুটস্ট্র্যাপ স্যাম্পলিং সমস্ত সম্ভাব্য নমুনাগুলির সাথে সম্পূর্ণ বুটস্ট্র্যাপের জন্য যথেষ্ট পরিমাণে সমীকরণ (আপনি ক্যাপচার করার চেষ্টা করছেন এমন অনিশ্চয়তার চেয়ে মন্টে কার্লো বনাম সম্পূর্ণ বুটস্ট্র্যাপ ব্যবহারের অনড়তা) অনেক কম)। প্যারামেট্রিক বুটস্ট্র্যাপের ক্ষেত্রে, আপনি একটি ধারণাও তৈরি করেন যে (4) আপনার মডেলটি ডেটার সমস্ত বৈশিষ্ট্যকে পুরোপুরি ব্যাখ্যা করে।

(4) এর সাথে কী কী ভুল হতে পারে তার একটি সতর্কতা হিসাবে, হিটারোস্কেস্টিক ত্রুটিগুলির সাথে রিগ্রেশন সম্পর্কে চিন্তা করুন: , ভার , বলুন। যদি আপনি কোনও ওএলএস মডেলের ফিট করে থাকেন এবং অবশিষ্টাংশগুলিকে আইডির মতো পুনরায় নমুনা পান তবে আপনি একটি ভুল উত্তর পেয়ে যাবেন some যেখানে হয় যথাযথ পরিবর্তে গড়ে গড়ে $y=x\beta + \epsilon$ $[\epsilon] = \exp[ x\gamma]$ $\bar\sigma^2 (X'X)^{-1}$ $\bar\sigma^2$ $1/n \sum_i \exp[x_i \gamma]$ $(X'X)^{-1} \sum \exp[x_i \gamma] x_i x_i' (X'X)^{-1}$ )। সুতরাং আপনি যদি পুরোপুরি প্যারামিট্রিক বুটস্ট্র্যাপ সমাধান করতে চান তবে আপনাকে মডেলটির সাথে সাথে ভিন্নতার সাথে মডেলটি ফিট করতে হবে। এবং যদি আপনি সিরিয়াল বা অন্য ধরণের সম্পর্ক সম্পর্কিত সন্দেহ করেন তবে আপনাকে এটির জন্যও মডেলটি ফিট করতে হবে। (দেখুন, বুটস্ট্র্যাপের নন-প্যারামিমেট্রিক বিতরণ-মুক্ত স্বাদটি আপাতত বেশিরভাগ সময় শেষ হয়ে গেছে, কারণ আপনি আপনার মডেলের সংশ্লেষিত ভয়েসের সাথে ডেটার ভয়েস প্রতিস্থাপন করেছেন))

আপনি যে পদ্ধতিটি বর্ণনা করেছেন তা সম্পূর্ণ নতুন নমুনা তৈরি করে আইড অনুমানের চারপাশে কাজ করে। নির্ভরযোগ্য ডেটা বুটস্ট্র্যাপের সাথে সর্বাধিক সমস্যা হ'ল সেই নমুনাটি তৈরি করা যাতে নির্ভরতা নিদর্শনগুলি থাকে যা মূল ডেটাগুলির সাথে যথেষ্ট পরিমাণে কাছে থাকে। সময় সিরিজের সাথে, আপনি ব্লক বুটস্ট্র্যাপগুলি ব্যবহার করতে পারেন; ক্লাস্টারযুক্ত ডেটা সহ, আপনি পুরো ক্লাস্টারগুলি বুটস্ট্র্যাপ করুন; হেটেরোস্কেস্টেস্টিক রিগ্রেশন সহ, আপনাকে বন্য বুটস্ট্র্যাপগুলি সহ করতে হবে (যা আপনি যদি হেটেরোস্কেস্টাস্টি মডেলটি ফিট করে থাকেন তবে তা অবশিষ্টাংশের বুটস্ট্র্যাপের চেয়ে ভাল ধারণা)। ব্লক বুটস্ট্র্যাপে আপনাকে একটি শিক্ষিত অনুমান করতে হবে (বা, অন্য কথায় বিশ্বাস করার ভাল কারণ থাকতে হবে) যে সময়ের সিরিজের দূরবর্তী অংশগুলি প্রায় স্বতন্ত্র, যাতে পারস্পরিক সম্পর্ক কাঠামোর সমস্ত সংলগ্ন 5 বা 10 দ্বারা বন্দী হয় ব্লক গঠন যে পর্যবেক্ষণ। সুতরাং পর্যবেক্ষণগুলিকে একে একে পুনরায় মডেল করার পরিবর্তে, যা সময়-সিরিজের সম্পর্ক সম্পর্কিত কাঠামোটিকে সম্পূর্ণ উপেক্ষা করে, আপনি এগুলি ব্লকগুলিতে পুনরায় প্রতিস্থাপন করছেন, এই আশায় যে এটি পারস্পরিক সম্পর্ককে সম্মান করবে। আপনি যে প্যারাম্যাট্রিক বুটস্ট্র্যাপটি উল্লেখ করেছেন তা বলেছেন: "ডেটা ফিড করে এবং পুরাতনগুলির টুকরোগুলি থেকে নতুন পুতুলকে একত্রিত করার পরিবর্তে আমি কেন কেবল আপনার জন্য পুরো ছাঁচে থাকা বার্বিটিকে স্ট্যাম্প করব না? আমি কী ধরণের খুঁজে বের করেছি? আপনার পছন্দ মতো বার্বিগুলির এবং আমি প্রতিশ্রুতি দিচ্ছি যে আপনার পছন্দসই একটিও করব "" পুরানোগুলির টুকরোগুলি থেকে ডেটা ফিড করা এবং নতুন পুতুল একত্রিত করার পরিবর্তে আমি কেন কেবল তার পরিবর্তে পুরো ছাঁচে থাকা বার্বিটিকে স্ট্যাম্প করব না? আপনারা কী ধরণের বার্বি পছন্দ করেন তা আমি খুঁজে বের করেছি এবং আমি প্রতিশ্রুতি দিয়েছি যে আপনিও একটি পছন্দ করব। " পুরানোগুলির টুকরোগুলি থেকে ডেটা ফিড করা এবং নতুন পুতুলকে একত্রিত করার পরিবর্তে আমি কেন কেবল তার পরিবর্তে পুরো moldালানো বার্বিটিকে স্ট্যাম্প করব না? আপনি কী ধরণের বার্বি পছন্দ করেন তা আমি খুঁজে বের করেছি এবং আমি প্রতিশ্রুতি দিয়েছি যে আপনিও একটি পছন্দ করুন। "

আপনার বর্ণিত প্যারামিট্রিক বুটস্ট্র্যাপের ক্ষেত্রে, আপনাকে অবশ্যই নিশ্চিত হতে হবে যে আপনার এইচএমএম মডেল ফিটটি বেশ নিখুঁত, অন্যথায় আপনার প্যারামিমেট্রিক বুটস্ট্র্যাপের ফলে ভুল ফলাফল হতে পারে (বার্বিজ যা তাদের বাহু সরাতে পারে না)। উপরের হেটেরোসটেস্টিক রিজেসিওন উদাহরণটি সম্পর্কে চিন্তা করুন; অথবা এআর (5) ডেটাতে একটি এআর (1) মডেল ফিটিং করার বিষয়ে চিন্তা করুন: প্যারামেট্রিকিকভাবে সিমুলেটেড ডেটা দিয়ে আপনি যা-ই করুন না কেন, তাদের মূল কাঠামোর কাঠামো থাকবে না।

সম্পাদনা করুন : সাদেঘদ তাঁর প্রশ্নটি স্পষ্ট করার সাথে সাথে আমিও তার প্রতিক্রিয়া জানাতে পারি। বুটস্ট্র্যাপ পদ্ধতিগুলির একটি প্রচুর পরিমাণ রয়েছে, প্রতিটি স্ট্যাটিস্টিক, নমুনার আকার, নির্ভরতা, বা বুটস্ট্র্যাপের ক্ষেত্রে যে কোনও সমস্যা হতে পারে তার মধ্যে নির্দিষ্ট গতিতে সম্বোধন করে। নির্ভরতা সম্বোধনের কোনও একক উপায় নেই, উদাহরণস্বরূপ। (আমি জরিপ বুটস্ট্র্যাপগুলি নিয়ে কাজ করেছি, প্রায় 8 টি পৃথক পদ্ধতি রয়েছে, যদিও কিছুগুলি ব্যবহারিক আগ্রহের চেয়ে বেশিরভাগ পদ্ধতিগত হয়; এবং কিছুগুলি স্পষ্টত নিকৃষ্ট হয় যে এগুলি কেবল বিশেষ ক্ষেত্রে প্রযোজ্য, সহজেই সাধারণীকরণযোগ্য নয়, কেস))) বুটস্ট্র্যাপের সাথে আপনি যে সমস্যার মুখোমুখি হতে পারেন সেগুলির সাধারণ আলোচনা, ক্যান্টি, ডেভিসন, হিংকলে এবং ভেন্টুরা (2006) দেখুন। বুটস্ট্র্যাপ ডায়াগনস্টিকস এবং প্রতিকারগুলি। কানাডিয়ান জার্নাল অফ স্ট্যাটিস্টিকস, 34 (1), 5-27 ।

— StasK
সূত্র

আপনার কাছে যখন নির্ভরশীল ডেটা নির্ভর ক্লাস্টার থাকে ( মিডিয়াম বিভাগে) তখন কম তথ্য থাকার বিষয়ে আপনার বক্তব্যটিতে কিছুটা যুক্ত করার জন্য , আমি বিশ্বাস করি এটি একটি সত্য যেখানে ক্লাস্টারের মধ্যে ইতিবাচক ইন্ট্রক্লাস পারস্পরিক সম্পর্ক রয়েছে তবে বিপরীতটি সত্য যেখানে negativeণাত্মক থাকে ইন্ট্রাক্লাস পারস্পরিক সম্পর্ক। অবশ্যই, এটি মনে হয় যে বেশিরভাগ বাস্তব ডেটা অ্যাপ্লিকেশনগুলিতে ইন্ট্রাক্লাসের সম্পর্কগুলি ইতিবাচক হয়।

— ম্যাক্রো

@ ম্যাক্রো: আপনি অবশ্যই উভয় গুণে সঠিক আছেন (এটি প্রযুক্তিগতভাবে সম্ভব এবং এটি কার্যত অপ্রাসঙ্গিক)। যদি আপনি কোনও এআর (1) প্রক্রিয়াটির নেতিবাচক সম্পর্কের সাথে গড়ের স্তরটি অনুমান করেন তবে একই কথাটি সত্য হবে তবে আমি আবার এই বৈশিষ্ট্যটি থাকতে পারে এমন বাস্তব প্রক্রিয়াগুলির ক্ষতি নিয়ে ভাবছি। ইতিবাচক স্ব-সংশ্লেষণের বিপরীতে যা বিভিন্ন সময়ের স্কেলগুলিতে স্ব-প্রজননযোগ্য, আপনি যদি আপনার রেফারেন্স পিরিয়ডের দৈর্ঘ্য দ্বিগুণ করেন তবে নেতিবাচক সম্পর্কটি অদৃশ্য হয়ে যেতে হবে। (মার্কিন জিডিপির মতো ব্যবসায় চক্রের ডেটাগুলির প্রায় তিন বছরের

— ব্যবধানে

আপনার বিস্তারিত উত্তরের জন্য ধন্যবাদ। আমি উপসংহারে এসেছি যে প্যারামেট্রিক পুনরায় স্যাম্পলিং নির্ভরতার প্রভাব হ্রাস করতে পারে। যাইহোক, প্যারামেট্রিক বিতরণ অবশ্যই যথেষ্ট পরিমাণে সত্য জনসংখ্যার প্রতিনিধি এবং নির্ভরশীলতার ধরণগুলি পুনরায় স্যাম্পলিংয়ে পুনরায় তৈরি করা উচিত।

— সাদেঘদ