এখানে @ গুং .632+ রুলের উল্লেখ করে। একটি দ্রুত গুগল অনুসন্ধান এই নিয়মের অর্থ কী এবং কী উদ্দেশ্যে এটি ব্যবহার করা হয় তা সহজেই বুঝতে সহজ উত্তর পাওয়া যায় না। কেউ কি .632+ বিধিটি ব্যাখ্যা করতে পারেন?
এখানে @ গুং .632+ রুলের উল্লেখ করে। একটি দ্রুত গুগল অনুসন্ধান এই নিয়মের অর্থ কী এবং কী উদ্দেশ্যে এটি ব্যবহার করা হয় তা সহজেই বুঝতে সহজ উত্তর পাওয়া যায় না। কেউ কি .632+ বিধিটি ব্যাখ্যা করতে পারেন?
উত্তর:
আমি 0.632 এর অনুমানকারীকে পেয়ে যাব, তবে এটি কিছুটা দীর্ঘ উন্নয়ন হবে:
ধরুন আমরা ভবিষ্যদ্বাণী করা করতে চান সঙ্গে ফাংশন ব্যবহার করে , যেখানে চ কিছু প্যারামিটার যে ডেটা ব্যবহার অনুমান করা হয় উপর নির্ভর করে হতে পারে (\ mathbf {ওয়াই}, \ mathbf {x}) , যেমন চ (\ mathbf {x}) = \ mathbf {x} \ mathbf {\ বিটা}এক্স
পূর্বাভাস ত্রুটির একটি নির্দোষ অনুমান এরর যেখানে কিছু ক্ষতির কাজ, যেমন স্কোয়ার ত্রুটি ক্ষতি। একে প্রায়শই প্রশিক্ষণের ত্রুটি বলা হয়। ইফ্রন এট আল। এটিকে আপাত ত্রুটি হার বা পুনরায় প্রতিষ্ঠানের হার বলে। এটা খুব ভালো যেহেতু আমরা আমাদের ডেটা ব্যবহার না মাপসই । এর ফলস্বরূপ নিম্নমুখী পক্ষপাতী। আপনি জানতে চান যে আপনার মডেল নতুন মানগুলি পূর্বাভাস দেওয়ার ক্ষেত্রে কতটা ভাল করে।
প্রত্যাশিত অতিরিক্ত-নমুনা পূর্বাভাস ত্রুটিটি অনুমান করার জন্য প্রায়শই আমরা ক্রস-বৈধকরণ ব্যবহার করি (আমাদের প্রশিক্ষণ সংস্থায় আমাদের মডেল ডেটাতে কতটা ভাল করে?)
এটি করার একটি জনপ্রিয় উপায় হ'ল ফোল্ড ক্রস-বৈধকরণ। আপনার ডেটা গ্রুপে বিভক্ত করুন (উদাঃ 10)। প্রতি দলের জন্য , অবশিষ্ট আপনার মডেল মাপসই গ্রুপ এবং এর এটি পরীক্ষা ম গ্রুপ। আমাদের ক্রস- অতিরিক্ত-নমুনা পূর্বাভাস ত্রুটিটি কেবলমাত্র গড় যেখানে কিছু সূচক ফাংশন যা পার্টিশন যা পর্যবেক্ষণ ইঙ্গিত হয় বরাদ্দ করা হয় এবং এর পূর্বাভাস মান নেই ডেটা ব্যবহার তম সেট।
এই অনুমানকটি সত্যিকারের পূর্বাভাস ত্রুটির জন্য আনুমানিক পক্ষপাতহীন এবং যখন এবং এর বৃহত্তর বৈচিত্র রয়েছে এবং বৃহত্তর জন্য আরও গণনামূলকভাবে ব্যয়বহুল । সুতরাং আবার আমরা খেলতে পক্ষপাত – বৈকল্পিক বাণিজ্য বন্ধ দেখতে পাই।
ক্রস-বৈধকরণের পরিবর্তে আমরা অতিরিক্ত নমুনা পূর্বাভাস ত্রুটির অনুমান করতে বুটস্ট্র্যাপ ব্যবহার করতে পারি। বুটস্ট্র্যাপ পুনরায় মডেলিং কোনও পরিসংখ্যানের নমুনা বিতরণ অনুমান করতে ব্যবহার করা যেতে পারে। আমাদের প্রশিক্ষণ ডেটা থেকে থাকে তবে , তাহলে আমরা গ্রহণ মনে করতে পারেন বুটস্ট্র্যাপ নমুনা এই সেট থেকে (প্রতিস্থাপন সঙ্গে) যেখানে প্রতিটি হ'ল নমুনার একটি সেট । অতিরিক্ত নমুনা পূর্বাভাস ত্রুটির অনুমান করতে এখন আমরা আমাদের বুটস্ট্র্যাপ নমুনাগুলি ব্যবহার করতে পারি: যেখানে এ পূর্বাভাস মান করার মডেল ফিট থেকে
তবে, যদি আমাদের একটি অতিমাত্রার তুলনায় পূর্বাভাস ফাংশন থাকে (যেমন এরর ) তবে এমনকি .63৩২ এর অনুমানক নিম্নমুখী হবে। .632+ মূল্নির্ধারক মধ্যে একটি কম পক্ষপাতমূলক আপস ডিজাইন করা হয়েছে এবং । সাথে এরর যেখানে হ'ল নো-ইনফরমেশন ত্রুটি হার, এর সমস্ত সম্ভাব্য সংমিশ্রণের উপর পূর্বাভাস মডেলটি মূল্যায়ন করে অনুমান করা হয় এবং ভবিষ্যদ্বাণীকারীদের লক্ষ্য করে ।
এখানে আপেক্ষিক ওভারফিটিং হারের পরিমাপ করে। যদি কোনও ওভারফিটিং না থাকে (আর = 0, যখন ) এটি .632 অনুমানের সমান।
আপনি এই 1 টি কাগজের 3 নং বিভাগে আরও তথ্য পাবেন । কিন্তু সংক্ষেপ, যদি আপনি কল একটি নমুনা থেকে নম্বর এলোমেলোভাবে এবং প্রতিস্থাপন সঙ্গে টানা, আনুমানিক গড়ে ধারণ অনন্য উপাদান।
যুক্তিটি নিম্নরূপ। আমরা পূরণ স্যাম্পলিং দ্বারা বার (এলোমেলোভাবে এবং প্রতিস্থাপন সঙ্গে) থেকে । একটি নির্দিষ্ট সূচক বিবেচনা করুন ।
তারপর:
এবং
এবং এটি সত্য (স্বজ্ঞাতভাবে, যেহেতু আমরা প্রতিস্থাপনের সাথে নমুনা নিই, সম্ভাবনাগুলি উপর নির্ভর করে না )
এইভাবে
অনুমানের গুণমান (যা উপর নির্ভর করে ) পরীক্ষামূলকভাবে পরীক্ষা করতে আপনি এই সামান্য সিমুলেশনটিও বহন করতে পারেন :
n <- 100
fx01 <- function(ll,n){
a1 <- sample(1:n, n, replace=TRUE)
length(unique(a1))/n
}
b1 <- c(lapply(1:1000,fx01,n=100), recursive=TRUE)
mean(b1)
1. ব্র্যাডলি এফ্রন এবং রবার্ট তিবশিরানী (1997)। ক্রস-বৈধকরণের উন্নতি: .632+ বুটস্ট্র্যাপ পদ্ধতি । আমেরিকান স্ট্যাটিস্টিকাল অ্যাসোসিয়েশন জার্নাল , খণ্ড। 92, নং 438, পৃষ্ঠা 548--560।
আমার অভিজ্ঞতায়, প্রাথমিকভাবে সিমুলেশনগুলির উপর ভিত্তি করে, 0.632 এবং 0.632+ বুটস্ট্র্যাপ বৈকল্পিকগুলি কেবলমাত্র একটি অনুচিত যথাযথ স্কোরিং নিয়মের ব্যবহারের ফলে গুরুতর সমস্যার কারণে প্রয়োজন হয়েছিল, যথা অনুপাতটি সঠিকভাবে "শ্রেণিবদ্ধ" হয়। আপনি যখন যথাযথ (যেমন, ডিভিল্যান্স-ভিত্তিক বা ব্রিয়ার স্কোর) বা আধা-যথাযথ (যেমন, ইন্ডেক্স = অরোক) স্কোরিং নিয়ম ব্যবহার করেন, তখন স্ট্যান্ডার্ড ইফ্রন-গং আশাবাদ বুটস্ট্র্যাপ ঠিক ঠিক কাজ করে।
এই উত্তরগুলি খুব দরকারী। আমি এটি গণিত দিয়ে প্রদর্শনের উপায় খুঁজে পাইনি তাই আমি কিছু পাইথন কোড লিখেছিলাম যা বেশ ভালভাবে কাজ করে যদিও:
from numpy import mean
from numpy.random import choice
N = 3000
variables = range(N)
num_loop = 1000
# Proportion of remaining variables
p_var = []
for i in range(num_loop):
set_var = set(choice(variables, N))
p=len(set_var)/float(N)
if i%50==0:
print "value for ", i, " iteration ", "p = ",p
p_var.append(p)
print "Estimator of the proportion of remaining variables, ", mean(p_var)