প্যারামেট্রিক এবং নন-প্যারাম্যাট্রিক বুটস্ট্র্যাপ সম্পর্কিত প্রশ্ন


14

আমি কেভিন মার্ফির বই " মেশিন লার্নিং - একটি সম্ভাব্য দৃষ্টিভঙ্গি " থেকে ঘন ঘন পরিসংখ্যানের অধ্যায়টি পড়ছি । বুটস্ট্র্যাপের বিভাগটি পড়ে:

বুটস্ট্র্যাপ নমুনা বিতরণ আনুমানিক জন্য একটি সহজ মন্টি কার্লো কৌশল। এটি বিশেষত ক্ষেত্রে সেই ক্ষেত্রে দরকারী যেখানে অনুমানকারী সত্য পরামিতিগুলির একটি জটিল ফাংশন।

ধারণাটি সহজ। আমরা সত্য পরামিতি জানত তাহলে , আমরা অনেক (বলুন উৎপন্ন পারে ) জাল ডেটাসেট, আকার প্রতিটি , সত্য বন্টন, থেকে x_i ^ গুলি \ সিম পি (· | θ ^ *) , জন্য গুলি = 1: এস, i = 1: এন । তারপরে আমরা প্রতিটি নমুনা, \ টুপি \ \ থাটা} s f = f (x ^ s_ {1: N}) থেকে আমাদের অনুমানকটি গণনা করতে পারি এবং নমুনা বিতরণের আমাদের অনুমান হিসাবে ফলাফলের নমুনাগুলির অভিজ্ঞতা অভিজ্ঞতা ব্যবহার করতে পারি। যেহেতু ta থিতাটি অজানা, তাই প্যারামেট্রিক বুটস্ট্র্যাপের ধারণাটি পরিবর্তে \ টুপি \ ta থিতা} (ডি) ব্যবহার করে নমুনা তৈরি করা gene এসএন এক্স এসθSNxisp(·|θ)s=1:S,i=1:Nθs^=f(x1:Ns)θθ^(D)

নন-প্যারামেট্রিক বুটস্ট্র্যাপ নামে একটি বিকল্প xis মূল ডেটা ডি থেকে x ^ s_i (প্রতিস্থাপন সহ) নমুনা দেওয়া D, এবং তারপরে প্রেরিত বিতরণকে পূর্বের মতো গণনা করা। বিশাল ডেটা সেটগুলিতে প্রয়োগ করার সময় বুটস্ট্র্যাপের গতি বাড়ানোর জন্য কয়েকটি পদ্ধতিতে আলোচনা করা হয়েছে (ক্লিনার এট আল। ২০১১)।

  • । পাঠ্যটি বলে:

    যদি আমরা প্রকৃত প্যারামিটারগুলি জানতাম θ ... আমরা প্রতিটি নমুনা থেকে আমাদের অনুমানকটি গণনা করতে পারি, θs^ ...

        তবে আমি যদি ইতিমধ্যে সত্য প্যারামিটারগুলি \ থিতা ^ * জানি তবে আমি কেন প্রতিটি নমুনার অনুমানক ব্যবহার করব θ?

  • । এছাড়াও, এখানে অভিজ্ঞতা অভিজ্ঞতা এবং নমুনা বিতরণের মধ্যে পার্থক্য কী?

  • । অবশেষে, আমি এই পাঠ্যটি থেকে প্যারামেট্রিক এবং নন-প্যারাম্যাট্রিক বুটস্ট্র্যাপের মধ্যে পার্থক্যটি বেশ বুঝতে পারি না । তারা উভয় আভাসিত করা পর্যবেক্ষণ সেট থেকে , কিন্তু কি ঠিক পার্থক্য কি?ডিθD

উত্তর:


14

মিউরা প্রদত্ত উত্তর সম্পূর্ণ সঠিক নয় তাই আমি উত্তরসূরির জন্য এই পুরানো প্রশ্নের উত্তর দিচ্ছি:

(2)। এগুলি খুব আলাদা জিনিস। এমিরিকাল সিডিএফ সিডিএফ (বিতরণ) এর একটি অনুমান যা ডেটা উত্পন্ন করে। অবিকল, এটা বিযুক্ত সিডিএফ যা সম্ভাব্যতা নির্ধারণ হয় প্রতিটি পর্যবেক্ষিত ডাটা পয়েন্ট, এর ফল1/n, প্রতিটিএক্স এর জন্য। সত্য সিডিএফ এই মূল্নির্ধারক এগোয়: এফ (এক্স)এফ(এক্স)=পি(এক্সআমিF^(x)=1ni=1nI(Xix)x প্রত্যেকের জন্য প্রায় নিশ্চয় এক্স (আসলে অবিশেষে)।F^(x)F(x)=P(Xix)x

একটি পরিসংখ্যাত এর স্যাম্পলিং বন্টন পরিবর্তে পরিসংখ্যাত আপনি পুনরাবৃত্তি পরীক্ষা অধীনে দেখার আশা করতে বিতরণের হয়। তা হল, আপনি একবার আপনার পরীক্ষাটি সম্পাদন করুন এবং এক্স 1 , , এক্স এন ডেটা সংগ্রহ করুন । টি আপনার ডেটা ফাংশন: টি = টি ( এক্স 1 , , এক্স এন ) । এখন, ধরুন আপনি পরীক্ষার পুনরাবৃত্তি করেছেন এবং এক্স 1 , , এক্স n ডেটা সংগ্রহ করেছেন । নতুন নমুনায় টি পুনরায় গণনা করে টি TX1,,XnTT=T(X1,,Xn)X1,,Xn । আমরা যদি 100 টি নমুনা সংগ্রহ করি তবে আমাদের টি-এর 100 অনুমান হবে। এই পর্যবেক্ষণের টি নমুনা বন্টন গঠন টি । এটি একটি সত্য বিতরণ। পরীক্ষাগুলির সংখ্যা অসীমের দিকে যাওয়ার সাথে সাথে এর গড় E ( টি ) এবং এর পরিবর্তনের সাথেরূপান্তরিতহয়T=T(X1,,Xn)TTTE(T)Var(T)

সাধারণত আমরা এর মতো পরীক্ষাগুলির পুনরাবৃত্তি করি না, আমরা কেবল কখনও একটি উদাহরণ দেখি । আপনি যদি টি এর অন্তর্নিহিত সম্ভাব্যতা ফাংশনটি না জানেন তবে একক পর্যবেক্ষণ থেকে টি এর ভিন্নতা কী তা নির্ধারণ করা খুব কঠিনTTT জেনেন a বুটস্ট্র্যাপিং যে স্যাম্পলিং বন্টন অনুমান করার জন্য একটি উপায় কৃত্রিমভাবে "নতুন পরীক্ষা-নিরীক্ষা" যার উপর নতুন দৃষ্টান্ত নিরূপণ করা চালিয়ে টি । প্রতিটি নতুন নমুনা আসলে আসল তথ্য থেকে মাত্র একটি নমুনা। আসল তথ্যগুলির চেয়ে এটি আপনাকে আরও তথ্য সরবরাহ করে যা রহস্যজনক এবং সম্পূর্ণ দুর্দান্ত।TT

(1)। আপনি সঠিক - আপনি এটি করবেন না। লেখক প্যারামিমেট্রিক বুটস্ট্র্যাপটিকে "আপনি যদি বিতরণটি জানতেন তবে আপনি কি করতেন" তা বর্ণনা করে বন্টন কার্যকারনের একটি খুব ভাল অনুমানকারী - এমিরিকাল সিডিএফ হিসাবে প্রেরণার চেষ্টা করছেন।

উদাহরণস্বরূপ, ধরুন আপনি জানেন যে আপনার পরীক্ষার পরিসংখ্যান সাধারণত গড় শূন্য, ভিন্নতা দিয়ে বিতরণ করা হয়। আপনি কীভাবে টি এর নমুনা বিতরণ অনুমান করবেনTT ? ঠিক আছে, যেহেতু আপনি বিতরণটি জানেন, নমুনা বিতরণটি অনুমান করার একটি নির্লিপ্ত এবং অপ্রয়োজনীয় উপায় হ'ল 10,000 বা তত সাধারণ মানের এলোমেলো ভেরিয়েবল উত্পন্ন করতে আর ব্যবহার করা হয়, তারপরে তাদের নমুনার গড় এবং প্রকরণটি গ্রহণ করুন এবং এটিকে আমাদের গড়ের অনুমান হিসাবে এবং ব্যবহার করুন নমুনা বিতরণের বিভিন্নতাT

যদি আমরা টি এর প্যারামিটারগুলি কোনও অগ্রাহ্য জানি না , তবে আমরা জানি যে এটি সাধারণত বিতরণ করা হয়, পরিবর্তে আমরা যা করতে পারি তা অনুশীলনীয় সিডিএফ থেকে 10,000 বা তাই নমুনা উত্পন্ন করা যায়, সেগুলির প্রতিটিটির জন্য টি গণনা করুন, তারপরে নমুনাটির অর্থ গ্রহণ করুন এবং এইসব 10,000 ভ্যারিয়েন্স টি s, এবং প্রত্যাশিত মান এবং ভ্যারিয়েন্স আমাদের অনুমান হিসাবে তাদের ব্যবহার টি । যেহেতু এমিরিকাল সিডিএফ সত্য সিডিএফের একটি ভাল অনুমানকারী, তাই নমুনা পরামিতিগুলি সত্য পরামিতিগুলিতে রূপান্তর করতে হবে। এটি প্যারামেট্রিক বুটস্ট্র্যাপ: আপনি যে পরিসংখ্যানটি অনুমান করতে চান তার উপর আপনি একটি মডেল পোস্ট করেন pos মডেলটি একটি প্যারামিটার দ্বারা সূচিযুক্ত হয়, যেমন ( μ , σ )TTTT(μ,σ), যা আপনি ইডিডিএফ থেকে বারবার নমুনা অনুমান করে অনুমান করেন।

(3)। ননপ্যারমেট্রিক বুটস্ট্র্যাপ এমনকি আপনার এমন একটি প্রাইরিও জানতে হবে না যে সাধারণত বিতরণ করা হয়। পরিবর্তে, আপনি কেবল ইসিডিএফ থেকে বারবার নমুনা আঁকুন এবং প্রতিটিটির জন্য টি গণনা করুন। আপনি 10,000 বা তার বেশি নমুনাগুলি আঁকার পরে 10,000 টি এস গণনা করার পরে , আপনি আপনার অনুমানের একটি হিস্টোগ্রাম প্লট করতে পারেন। এটি টি এর নমুনা বিতরণের দৃশ্যায়নTTTT। ননপ্যারমেট্রিক বুটস্ট্র্যাপ আপনাকে বলবে না যে স্যাম্পলিং বিতরণটি স্বাভাবিক, বা গামা, বা আরও অনেক কিছু, তবে এটি আপনাকে নমুনা বিতরণ (সাধারণত) প্রয়োজন হিসাবে যথাযথভাবে অনুমান করতে দেয়। এটি কম অনুমান করে এবং প্যারামেট্রিক বুটস্ট্র্যাপের চেয়ে কম তথ্য সরবরাহ করে। প্যারামিমেট্রিক অনুমানটি সত্য হলেও এটি মিথ্যা হলে আরও নির্ভুল হয়। আপনার মুখোমুখি প্রতিটি পরিস্থিতিতে আপনি কোনটি ব্যবহার করেন তা সম্পূর্ণ প্রসঙ্গে নির্ভর করে। স্বীকার করা যায় যে আরও মানুষ ননপ্যারমেট্রিক বুটস্ট্র্যাপের সাথে পরিচিত তবে প্রায়শই একটি দুর্বল প্যারাম্যাট্রিক ধারণা অনুমানের জন্য পুরোপুরি জটিল একটি মডেলকে উপযুক্ত করে তোলে যা সুন্দর।


1
প্যারাম্যাট্রিক বুটস্ট্র্যাপের আপনার বিবরণ সম্পর্কে আমি বিভ্রান্ত হয়ে পড়েছি "আমরা এর পরিবর্তে যা করতে পারি তা অনুভূত সিডিএফ থেকে 10,000 বা তাই নমুনা উত্পন্ন করা যায়" প্যারামিমেট্রিক বুটস্ট্র্যাপ সম্পর্কে আমার ধারণাটি হ'ল আপনি কোনও মডেল থেকে ডেটা মাপসই করেন sample মার্ফি বইয়ের মূল উক্তিটি এটিই বর্ণনা করছে। আমি ভুলভাবে পড়তে পারি, তবে ডেটার এমপিরিয়াল সিডিএফ থেকে স্যাম্পলিং করা সরাসরি ডেটা পয়েন্টগুলিকে সরাসরি নমুনা দিবে, কোনটি স্ট্যান্ডার্ড বুটস্ট্র্যাপ হবে, না?
ব্যবহারকারী20160

@ ব্যবহারকারী20160 আপনি উত্তরের "পরিবর্তে" এর ভুল ব্যাখ্যা করছেন: তিনি প্যারামিমেট্রিক নয়, ননপ্যারমেট্রিক বুটস্ট্র্যাপ বর্ণনা করছেন।
ডাকোনেসস

4

আমি অতিথি 47 এর দ্বারা অবদানের প্রচেষ্টাকে সত্যই প্রশংসা করি, তবে কিছুটা ক্ষুদ্র দিক দিয়ে আমি তার জবাবের সাথে একমত হই না। আমি সরাসরি আমার মতবিরোধ পোষণ করব না, বরং তাদের এই উত্তরে প্রতিফলিত করব।

  1. অনেক ক্ষেত্রে, এটা অপ্রয়োজনীয় করার কম্পিউট θ গুলি যখন আমরা ইতিমধ্যে জানেন সত্য অন্তর্নিহিত প্যারামিটার θ * । যাইহোক, এটা এখনও দরকারী যখন আমরা সঠিকতা এবং স্পষ্টতা তাকান করতে θ গুলি মধ্যে এসটিমেটিং θ *θ^sθθ^sθ । তদুপরি, আপনার উদ্ধৃত প্যাসেজের প্রথম অনুচ্ছেদটি আপনার জন্য "প্যারামেট্রিক বুটস্ট্র্যাপ" ধারণাটি বুঝতে সহজ করে তুলবে, যা আমি খুব শীঘ্রই স্পর্শ করব।

  2. গেস্ট 47 ভাল উত্তর দেয়। এর বেশি বিস্তারিত বলার দরকার নেই।

  3. স্থিতিমাপ বুটস্ট্র্যাপিং, আপনি কি আছে পর্যবেক্ষিত তথ্য ডি আপনি ডেটা মাপসই একটি স্থিতিমাপ মডেল সঙ্গে আসা পর্যন্ত, আর ব্যবহার estimators θ সত্য পরামিতি জন্য (ডাটা ডি এর একটি ফাংশন যা) θ * । তারপর আপনার সাথে স্থিতিমাপ মডেল থেকে ডেটাসেট হাজার হাজার উৎপন্ন θ , এবং অনুমান θ গুলি এই মডেলের জন্য। ননপ্যারমেট্রিক বুটস্ট্র্যাপিংয়ে আপনি উত্পন্ন ডেটা না করে সরাসরি ডি থেকে নমুনা (হাজার হাজার বার) ব্যবহার করেন। θ^θθ^θ^s


2

আমি কোনও বিশেষজ্ঞ নই, তবে এটির মূল্য কী:

  1. কারণ আপনি নমুনা বিতরণে আগ্রহী, যেমনটি আপনার উদ্ধৃতিটির প্রথম বাক্যে উল্লিখিত হয়েছে।

  2. পরীক্ষামূলক বিতরণ হ'ল বিতরণ যা আপনার সীমাবদ্ধ নমুনার সংখ্যা দেখতে পান see নমুনা বিতরণ হ'ল আপনি যদি দেখেন যে আপনি অসীম সংখ্যার নমুনা নিচ্ছেন।

আমি উত্তর দিতে পারি না 3. আমি সর্বদা বুঝতে পেরেছিলাম যে এখানে ননপ্যারমেট্রিক বুটস্ট্র্যাপ হিসাবে "" "বুটস্ট্র্যাপ হিসাবে বর্ণনা করা হয়েছে।

আপনি যদি ইতিমধ্যে স্যাম্পলিং বিতরণের ধারণাটি পুরোপুরি উপলব্ধি না করে থাকেন তবে এখানে একটি দুর্দান্ত থ্রেড রয়েছে যাতে খুব চিত্রিত আর কোড রয়েছে।


5
প্যারামেট্রিক এবং ননপ্যারামেট্রিক বুটস্ট্র্যাপের মধ্যে পার্থক্যটি হ'ল প্রাক্তন অনুমিত প্যারামিটার মানগুলি ব্যবহার করে ডেটা (অনুমান করা) বিতরণ থেকে তার নমুনা উত্পন্ন করে, তবে পরেরটি পর্যবেক্ষণ করা ডেটা থেকে প্রতিস্থাপনের সাথে নমুনা তৈরি করে এর নমুনা উত্পন্ন করে - কোনও প্যারামেট্রিক মডেল ধরে নেওয়া হয় না ।
jboman

@jbowman - "অ স্থিতিমাপ" বুটস্ট্র্যাপ নেই একটি অন্তর্নিহিত মডেল আছে - শুধু এটি পরামিতি অনুমান অনুপ্রাণিত করতে ব্যবহার করা একটি ভিন্ন মডেল।
সম্ভাব্যতা ব্লগ

@ মিউরা দয়া করে আপনার উত্তর ভাঙচুর করবেন না। আপনি যদি প্রশ্নকর্তাকে একটি আলাদা উত্তর চয়ন করতে চান তবে প্রশ্নের নীচে মন্তব্য করুন। আপনি যদি নিজের উত্তরটি মুছতে চান তবে দয়া করে এটি ফ্ল্যাগ করুন এবং এর জন্য জিজ্ঞাসা করুন।
গ্লেন_বি -রিনস্টেট মনিকা
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.