বুটস্ট্র্যাপ বনাম মন্টি কার্লো, ত্রুটির অনুমান


12

আমি ভূতাত্ত্বিক গণনায় অ্যান্ডারসন (1976) তে মন্টি কার্লো পদ্ধতি দ্বারা ত্রুটি প্রচারের নিবন্ধটি পড়ছি এবং এমন কিছু আছে যা আমি বেশ বুঝতে পারি না।

কিছু পরিমাপ করা ডেটা Consider এবং এমন একটি প্রোগ্রাম বিবেচনা করুন যা এটি প্রক্রিয়া করে এবং প্রদত্ত মান প্রদান করে। নিবন্ধে, এই প্রোগ্রামটি প্রথমে ডেটাগুলির মাধ্যমগুলি (যেমন: ) ব্যবহার করে সেরা মান অর্জন করতে ব্যবহৃত হয় ।{ একটি , বি , সি }{A±σA,B±σB,C±σC}{A,B,C}

তারপরে লেখক তার অনিশ্চয়তার সীমাতে ইনপুট পরামিতিগুলি ( এবং স্ট্যান্ডার্ড বিচ্যুতিগুলির সাথে দিয়ে গাউসীয় বিতরণ দ্বারা প্রদত্ত) সর্বোত্তম মানটির জন্য একটি অনিশ্চয়তা নির্ধারণের জন্য একটি মন্টি কার্লো পদ্ধতি ব্যবহার করেন ) প্রোগ্রামে তাদের খাওয়ানোর আগে। এটি নীচের চিত্রে চিত্রিত হয়েছে:{ σ একজন , σ বি , σ সি }{A,B,C}{σA,σB,σC}

এখানে চিত্র বর্ণনা লিখুন

( কপিরাইট: সায়েন্সডাইরেক্ট )

যেখানে চূড়ান্ত বিতরণ থেকে অনিশ্চয়তা পাওয়া যায় ।Z

যদি এই মন্টি কার্লো পদ্ধতির পরিবর্তে আমি একটি বুটস্ট্র্যাপ পদ্ধতি প্রয়োগ করি তবে কী হবে? এটার মতো কিছু:

এখানে চিত্র বর্ণনা লিখুন

এটি হ'ল: প্রোগ্রামটিতে এটি খাওয়ানোর আগে তাদের অনিশ্চয়তার মধ্যে ডেটা পরিবর্তনের পরিবর্তে আমি সেগুলি থেকে প্রতিস্থাপনের নমুনা দিয়েছি।

এক্ষেত্রে এই দুটি পদ্ধতির মধ্যে পার্থক্য কী? এগুলির কোনও প্রয়োগের আগে আমার কোন সাবধানতা অবলম্বন করা উচিত?


আমি এই প্রশ্নটি সম্পর্কে বুটস্ট্র্যাপ, মন্টি কার্লো অবগত , তবে এটি আমার সন্দেহের যথেষ্ট সমাধান করতে পারে না, এই ক্ষেত্রে, ডেটাটিতে নির্ধারিত অনিশ্চয়তা রয়েছে।


কেবল পরিষ্কার করার জন্য: এমসির পদ্ধতিতে "এলোমেলো পরিবর্তন" এলোমেলোভাবে গবেষক উত্পন্ন? অর্থাৎ শব্দ / ত্রুটিগুলি ইনপুট ডেটাতে কৃত্রিমভাবে যুক্ত হচ্ছে?
ছায়াছবির

এটি "এলোমেলোভাবে উত্পন্ন", পরিমাপ করা তথ্যের অনিশ্চয়তার উপর ভিত্তি করে (যেমন: গুলি) এবং এই ত্রুটিগুলির জন্য একটি নির্দিষ্ট বিতরণ (সাধারণত গাউসিয়ান) ধরে নেওয়া হয়। সুতরাং না, ত্রুটিগুলি কৃত্রিমভাবে যুক্ত করা হয় না। ইনপুট ডেটা পরিমাপ প্রক্রিয়া দ্বারা প্রদত্ত একটি সম্পর্কিত ত্রুটি রয়েছে। σ
গ্যাব্রিয়েল

আমি বুঝতে পারি না আমি বুঝতে পেরেছি। এটি কৃত্রিম গোলমাল, তবে ডেটা থেকে অনুমিত একটি স্ট্যান্ডার্ড বিচ্যুতি নিয়ে
শ্যাডটলকার

তারপরে আমি সম্ভবত বুঝতে পারি না যে "কৃত্রিম গোলমাল" কী (এবং "কৃত্রিম শব্দ" কী হবে)। আপনি নিবন্ধটি দেখেছেন? এটি অবশ্যই আমার চেয়ে অনেক ভাল বিষয় ব্যাখ্যা করে।
গ্যাব্রিয়েল

প্রাকৃতিক গোলমাল: আমার ডেটাতে এলোমেলো প্রকরণ। কৃত্রিম কোলাহল: সম্ভাব্যতা বিতরণ থেকে নম্বর আঁকতে একটি এলোমেলো সংখ্যা জেনারেটর ব্যবহার করে এবং সেগুলি আমার ডেটাতে যুক্ত করে
শ্যাডট্যালকার

উত্তর:


7

আপনার প্রশ্নটি আমি যতদূর বুঝতে পেরেছি, "মন্টে কার্লো" পদ্ধতির এবং বুটস্ট্র্যাপ পদ্ধতির মধ্যে পার্থক্যটি মূলত প্যারামেট্রিক এবং নন-প্যারামেট্রিক পরিসংখ্যানের মধ্যে পার্থক্য।

প্যারাম্যাট্রিক ফ্রেমওয়ার্কে, কেউ ঠিক কীভাবে ডেটা তৈরি করে তা মডেলের প্যারামিটারগুলি ( , , & । আপনার বর্ণনায়), আপনি এই জাতীয় ডেটাসেটের নতুন উপলব্ধি তৈরি করতে পারেন , এবং সেগুলি থেকে আপনার পরিসংখ্যান পদ্ধতির নতুন উপলব্ধি (বা "আউটপুট")। গাণিতিক ডেরাইভেশন বা মন্টি কার্লো পরীক্ষার মাধ্যমে এই বিতরণ থেকে স্বেচ্ছাসেবীর আকারের নমুনা ফিরিয়ে দেওয়া, আউটপুট সম্পূর্ণ এবং ঠিক সম্ভাবনা বন্টনকে এভাবে বর্ণনা করা সম্ভব ।σ জেডx1,,xNAσAZ

নন-প্যারাম্যাট্রিক কাঠামোতে, কেউ ডেটা সম্পর্কে এই ধরনের অনুমান করা পছন্দ করে না এবং এইভাবে ডেটা এবং কেবলমাত্র ডেটা ব্যবহার করে তার বন্টন অনুমান করে, । বুটস্ট্র্যাপটি এমন একটি পন্থা যা অজানা বন্টন অনুমান করা হয় অনুমিত বন্টন দ্বারা নমুনার প্রতিটি বিন্দুতে এর সম্ভাব্যতা ওজন নির্ধারণ করে তৈরি করা হয় (ডেটা আইড করার সময় সবচেয়ে সহজ ক্ষেত্রে)। সত্যিকারের বিতরণ প্রতিস্থাপন হিসাবে এই অভিজ্ঞতাগত বন্টন ব্যবহার করে , মন্টে কার্লো সিমুলেশনগুলি আউটপুট আনুমানিক বিতরণের মাধ্যমে বের করতে পারে ।এফ 1 / এন এফ এফ জেডFF^1/nF^FZ

সুতরাং, উভয় পদ্ধতির মধ্যে প্রধান পার্থক্য হ'ল ডেটার বিতরণ সম্পর্কে কেউ এই প্যারাম্যাট্রিক অনুমান করে কিনা।


2
প্রায় দু'বছর পরে, আমি জানি এটি সেরা উত্তর বলে বিশ্বাস করি কারণ এটি প্যারামিট্রিক এবং নন-প্যারামেট্রিক পদ্ধতির মধ্যে স্পষ্টভাবে উল্লেখ করেছে (যা আমি তখন জানতাম না) এইভাবে, আমি এইটির উত্তর গ্রহণ করছি ।
গ্যাব্রিয়েল

তবে প্যারামস্ট্রিক পদ্ধতির জন্য কেউ প্যারামেট্রিক বুটস্ট্র্যাপ ব্যবহার করতে পারেন?
টম ভেনসিলিয়ার্স

12

আপনার মন্টি কার্লো মডেলের র্যান্ডম চেঞ্জটি একটি বেল কার্ভ দ্বারা উপস্থাপিত হয় এবং গণনাটি সম্ভবত সাধারণত বিতরণ করা "ত্রুটি" বা "পরিবর্তন" ধরে নেয়। কমপক্ষে, আপনার কম্পিউটারের বিতরণটি থেকে কিছু পরিবর্তন প্রয়োজন যা থেকে "পরিবর্তন" আঁকতে হবে। বুটস্ট্র্যাপিং অগত্যা এই ধরনের অনুমান করা উচিত নয়। এটি পর্যবেক্ষণ হিসাবে পর্যবেক্ষণ নেয় এবং যদি তাদের ত্রুটি asymetrically বিতরণ করা হয়, তবে এটি মডেলটিতে সেভাবে যায়।

বুটস্ট্র্যাপিং পর্যবেক্ষণ থেকে আঁকতে হয় এবং এর ফলে বেশ কয়েকটি সত্য পর্যবেক্ষণ প্রয়োজন। আপনি যদি কোনও বইতে পড়েন, যে সিটির গড় মান হয় 5 এর প্রমিত বিচ্যুতির সাথে, আপনি মন্টে কার্লো মডেল সেট আপ করতে পারেন তার চেয়েও আপনার কাছে পর্যবেক্ষণ না থাকলেও। যদি আপনার পর্যবেক্ষণের অভাব হয় (মনে করুন: জ্যোতির্বিজ্ঞান) আপনি 6 টি পর্যবেক্ষণ এবং তাদের বিতরণ সম্পর্কে কিছু ধারণা নিয়ে একটি মন্টি কার্লো মডেল স্থাপন করতে পারেন তবে আপনি 6 টি পর্যবেক্ষণ থেকে বুটস্ট্র্যাপ করবেন না।

পর্যবেক্ষণ করা ডেটা এবং কিছু সিমুলেটেড (অনুমানমূলক) ডেটা থেকে আঁকা কিছু ইনপুট সহ মিশ্রিত মডেলগুলি সম্ভব।

সম্পাদনা করুন: মন্তব্যে নিম্নলিখিত আলোচনায় মূল পোস্টারটি নিম্নলিখিত হেল্পফুলকে পেয়েছে:

"আসল প্রোগ্রাম" কোনও মূল্য দেয় না, আপনি কোনও গড় এবং কোনও বিচ্যুতি থেকে গণনা করেন বা এটি কোনও প্রাকৃতিক প্রক্রিয়াতে একটি গড় এবং সত্যিকারের বিচ্যুততার সত্যিকারের উপলব্ধি care


1
আপনার উত্তরের জন্য ধন্যবাদ বার্নহার্ড! কিছু প্রশ্ন যা আমার মনে আসে। ১. আমি কি সঠিকভাবে বুঝতে পারি যে এই দুটি পদ্ধতির মধ্যে একমাত্র (প্রধান?) পার্থক্যটি হ'ল বুটস্ট্র্যাপ না থাকলে এমসির অনিশ্চয়তার জন্য বিতরণ গ্রহণ করা দরকার? ২. যদি আমার কাছে যথেষ্ট পরিমাণে ডেটাসেট থাকে এবং আমি বহুবার পুনরাবৃত্তি সম্পাদন করি (N ), তবে এই দুটি পদ্ধতি কি সর্বোত্তম মান হিসাবে নির্ধারিত আনুমানিক অনিশ্চয়তার পরে একত্রিত হবে ? ৩. আমি কি বুটস্ট্র্যাপ পদ্ধতিতে ইনপুট ডেটাতে নির্ধারিত অনিশ্চয়তা ব্যবহার না করে মূল্যবান ডেটা বর্জন করছি না ?
গ্যাব্রিয়েল

1
আমি পরিসংখ্যানগতভাবে / মেশিন-লার্নিংয়ে স্ব-শিক্ষিত, তাই আমি দাবি করব না যে আমি বর্ণিত কোনও পার্থক্য কেবলমাত্র একটি। আমি এমনকি নিশ্চিত নই, বুটস্ট্র্যাপিং নিজেকে মন্টি কার্লো পদ্ধতি হিসাবে বিবেচনা করা হয় কিনা। উভয় অ্যালগরিদমই প্রচুর পরিমাণে বাস্তবের দৃশ্যের অনুকরণ করে। আপনি হয় অনুমান বা পর্যবেক্ষণ থেকে ইনপুট আঁকতে পারেন। আমার ক্ষেত্রটি ওষুধ এবং অনুমানগুলি সেই ক্ষেত্রে কুখ্যাতভাবে ভুল। তাই আমি পর্যবেক্ষণের সাথে যাওয়ার চেষ্টা করব যখনই তারা প্রচুর পরিমাণে উপলব্ধ। পদার্থ বিজ্ঞান বা রসায়নের কাছাকাছি ক্ষেত্রে এটি ভাল হতে পারে ...
বার্নহার্ড

1
... যে পদার্থবিদ্যা বা রসায়নের কাছাকাছি ক্ষেত্রগুলিতে অনুমানগুলি আরও নির্ভরযোগ্য। 2 পয়েন্ট হিসাবে: আপনি যদি ধরে নেন যে আপনি যথেষ্ট পরিমাণে নমুনা এবং পুনরাবৃত্তিগুলি অনুসরণ করেন তবে আপনি দেখতে পাবেন যে সত্যিকারের ডেটা কখনই স্বাভাবিকভাবে বিতরণ করা হয় না এবং আপনার অনুমানগুলি সবসময় কিছুটা ভুল হয় তবে আমি কোনও জ্ঞান দাবি করতে পারি না। পয়েন্ট 3 হিসাবে: বুটস্ট্র্যাপ পদ্ধতিতে মূল্যবান ডেটা বর্জন করে আপনি কী বোঝাতে চেয়েছিলেন তা আমি শিউরে উঠছি না। "অনিশ্চয়তা নির্ধারণ করা" হ'ল মানবসৃষ্ট, ডেটা বাস্তবতা থেকে আসে। আবার এটি আমার মাঠের উপর নির্ভর করে আমার বিশ্বাস। বাস্তবে, আপনার খুব কমই ভাল তত্ত্ব এবং বড় ডেটা থাকবে
বার্নহার্ড

1
σA,σB,σC

1
প্রতিটি পর্যবেক্ষণ একটি পরিমাপ করা মান এবং সুতরাং ইতিমধ্যে এটি নিজস্ব পরিমাপ ত্রুটি এবং অনিশ্চয়তা ধারণ করে। "আসল প্রোগ্রাম" কোনও মূল্য দেয় না, আপনি কোনও গড় এবং কোনও বিচ্যুতি থেকে গণনা করেন বা এটি কোনও প্রাকৃতিক প্রক্রিয়াতে একটি গড় এবং সত্যিকারের বিচ্যুততার সত্যিকারের উপলব্ধি care তবে অবশ্যই, সমস্ত পুনর্নির্মাণের কৌশলগুলি একটি বৃহত ডেটা ভিত্তিতে নির্ভর করে এবং আপনি স্বেচ্ছাসেবী সংখ্যা বা এলোমেলো সংখ্যা গণনা করতে পারেন তবে সাধারণত পর্যবেক্ষণের স্বেচ্ছাসেবী সংখ্যা তৈরি করতে পারেন না। সুতরাং যেখানে আপনার প্রচুর পরিমাণে পর্যবেক্ষণ রয়েছে, সেখানে আমি ডেটা ফেলে দেওয়া হয় না।
বার্নহার্ড

1

আউটপুট Z এর সাথে ইনপুট সম্পর্কিত ফাংশনটি যুক্তিসঙ্গতভাবে লিনিয়ার হয় (অর্থাত ইনপুটগুলির প্রকরণের পরিসরের মধ্যে), জেডের ভেরিয়েন্স ইনপুটগুলির প্রকরণ এবং সমবায়ুগুলির সংমিশ্রণ। বিতরণের বিশদটি খুব বেশি গুরুত্ব দেয় না ... সুতরাং, উভয় পদ্ধতিরই একই ফল পাওয়া উচিত।

জিএমএমে পরিপূরক 1 দেখুন


ফাংশনটি যথাযথভাবে রৈখিক না হলে কী ঘটে ? তাহলে এই দুটি পদ্ধতির কীভাবে আলাদা হবে?
গ্যাব্রিয়েল

সেক্ষেত্রে বার্নহার্ডের দ্বারা আপনার উপরের উত্তরটি উল্লেখ করা উচিত। এটি হ'ল তাদের সাথে মিলে যাওয়ার জন্য, মন্টি কার্লোর জন্য আপনার ডেটা পিডিএফের একটি বিশ্বস্ত বর্ণনা থাকতে হবে।
পাসকাল

0

বুটস্ট্র্যাপের অর্থ ডেটা নিজের পক্ষে কথা বলা for মন্টি কার্লো পদ্ধতিতে, আপনি অভিন্ন বিতরণের মাধ্যমে আরোপিত সিডিএফ (সাধারণ; গামা; বিটা ...) থেকে অনেকগুলি এলোমেলো অঙ্কনের নমুনা তৈরি করেন এবং একটি এমপিরিয়াল পিডিএফ তৈরি করেন (সিডিএফ অবিচ্ছিন্ন এবং উপার্জনযোগ্য হয় তবে) create পুরো মন্টি কার্লো প্রক্রিয়াটির একটি আকর্ষণীয় ব্যাখ্যায় জানা গেছে: স্বাস্থ্য অর্থনৈতিক মূল্যায়নের জন্য ব্রিগেস এ, শুল্পার এম, ক্ল্যাক্সটন কে। সিদ্ধান্ত মডেলিং। অক্সফোর্ড: অক্সফোর্ড ইউনিভার্সিটি প্রেস, 2006: 93-95।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.