আমরা বিভিন্ন জানতে পারেন রীস্যাম্পেলিং পদ্ধতি , বা ঢিলেঢালাভাবে বলা হয় " সিমুলেশন " পদ্ধতি, যে উপর নির্ভর রিস্যাম্পলিং বা প্রকাশের shuffling নমুনার। যথাযথ পরিভাষার ক্ষেত্রে মতামতগুলির মধ্যে মতভেদ থাকতে পারে, তবে নিম্নলিখিত আলোচনায় উপযুক্ত সাহিত্যে যা পাওয়া যায় তা সাধারণীকরণ ও সরল করার চেষ্টা করে:
পুনর্নির্মাণের পদ্ধতিগুলি (1) উপাত্তের উপসেট (উদাহরণস্বরূপ জ্যাকনিফাইং) ব্যবহার করে বা এলোমেলোভাবে অঙ্কন করে ডেটা পয়েন্টগুলির সেট (উদাহরণস্বরূপ বুটস্ট্র্যাপিং) (2) তাত্পর্য সম্পাদন করার সময় ডেটা পয়েন্টগুলিতে লেবেল আদান-প্রদানের মাধ্যমে নমুনা পরিসংখ্যানগুলির নির্ভুলতা / নির্ভুলতার অনুমান করতে ব্যবহৃত হয় পরীক্ষা (ক্রমশক্তি পরীক্ষা, একেবারে সঠিক টেস্ট, র্যান্ডমাইজেশন পরীক্ষা বা পুনরায় র্যান্ডমাইজেশন পরীক্ষাও বলা হয়) (3) র্যান্ডম সাবসেট (বুটস্ট্র্যাপিং, ক্রস বৈধতা) ব্যবহার করে মডেলগুলিকে বৈধকরণ (উইকিপিডিয়া: পুনর্নির্মাণের পদ্ধতিগুলি দেখুন )
BOOTSTRAPING
" আসল নমুনা থেকে প্রতিস্থাপনের সাথে নমুনা তৈরি করে কোনও অনুমানকারীর নমুনা বিতরণ অনুমানের জন্য বুটস্ট্র্যাপিং একটি পরিসংখ্যান পদ্ধতি "। পদ্ধতিটি নমুনা অনুমানের জন্য নির্ভুলতার ব্যবস্থা ( পক্ষপাত , বৈকল্পিকতা , আত্মবিশ্বাসের ব্যবধান , ভবিষ্যদ্বাণী ত্রুটি বা এই জাতীয় কোনও অন্যান্য পরিমাপের সংজ্ঞা অনুসারে) নির্ধারণ করে।
বুটস্ট্র্যাপিংয়ের প্রাথমিক ধারণাটি হ'ল নমুনা ডেটা ( নমুনা → জনসংখ্যা ) থেকে জনসংখ্যার বিষয়ে অনুমিতিকে নমুনা ডেটা পুনরায় মডেল করে এবং (পুনরায় নমুনা) নমুনা) উপর অনুমান সম্পাদন করে মডেল করা যায়। জনসংখ্যা অজানা হিসাবে, এর জনসংখ্যার মানের বিরুদ্ধে কোনও নমুনা পরিসংখ্যানের আসল ত্রুটি অজানা। বুটস্ট্র্যাপ-রেসামগুলিতে, 'জনসংখ্যা' আসলে নমুনা, এবং এটি জানা যায়; অতএব পুনরায় নমুনা তথ্য থেকে অনুমানের মান 'সত্য' নমুনা পরিমাপযোগ্য "" উইকিপিডিয়া দেখুন
Yvar <- c(8,9,10,13,12, 14,18,12,8,9, 1,3,2,3,4)
#To generate a single bootstrap sample
sample(Yvar, replace = TRUE)
#generate 1000 bootstrap samples
boot <-list()
for (i in 1:1000)
boot[[i]] <- sample(Yvar,replace=TRUE)
অবিচ্ছিন্ন সমস্যাগুলিতে, প্রতিস্থাপনের ("কেস রিসম্পলিং") সহ পৃথক পর্যবেক্ষণগুলির পুনরায় নমুনা গ্রহণ করা সাধারণত গ্রহণযোগ্য। এখানে আমরা প্রতিস্থাপনের সাথে ডেটা পুনরায় নমুনা করি এবং পুনরায় নমুনার আকারটি মূল ডেটা সেটের আকারের সমান হতে হবে।
রিগ্রেশন সমস্যাগুলিতে কেস রিম্যাম্পলিং পৃথক কেসগুলিকে পুনরায় মডেল করার সহজ স্কিমকে বোঝায় - প্রায়শই রিগ্রেশন সমস্যায় সেট করা ডেটার সারি, ব্যাখ্যামূলক ভেরিয়েবলগুলি প্রায়শই স্থির হয়, বা কমপক্ষে প্রতিক্রিয়ার ভেরিয়েবলের চেয়ে বেশি নিয়ন্ত্রণের সাথে পর্যবেক্ষণ করা হয়। এছাড়াও, ব্যাখ্যামূলক ভেরিয়েবলগুলির ব্যাপ্তি তাদের কাছ থেকে পাওয়া তথ্যের সংজ্ঞা দেয়। অতএব, কেস পুনরায় নমুনা করার অর্থ প্রতিটি বুটস্ট্র্যাপ নমুনা কিছু তথ্য হারাবে ( উইকিপিডিয়া দেখুন )। সুতরাং এটি কেবলমাত্র তথ্যের সারি নমুনা যুক্তিসঙ্গত হবে Yvar
।
Yvar <- c(8,9,10,13,12, 14,18,12,8,9, 1,3,2,3,4)
Xvar <- c(rep("A", 5), rep("B", 5), rep("C", 5))
mydf <- data.frame (Yvar, Xvar)
boot.samples <- list()
for(i in 1:10) {
b.samples.cases <- sample(length(Xvar), length(Xvar), replace=TRUE)
b.mydf <- mydf[b.samples.cases,]
boot.samples[[i]] <- b.mydf
}
str(boot.samples)
boot.samples[1]
আপনি প্রতিস্থাপনের সাথে নমুনা নিচ্ছেন এমন কিছু ক্ষেত্রে আপনি পুনরাবৃত্তি করতে পারেন।
" প্যারামেট্রিক বুটস্ট্র্যাপ - একটি প্যারামিট্রিক মডেল উপাত্তে লাগানো হয়, প্রায়শই সর্বাধিক সম্ভাবনা দ্বারা এবং এলোমেলো সংখ্যার নমুনাগুলি এই লাগানো মডেল থেকে আঁকা হয় Usually সাধারণত আঁকা নমুনাটি মূল ডেটার মতো একই নমুনার আকার ধারণ করে Then তারপরে পরিমাণ বা অনুমান এই ডেটা থেকে আগ্রহের পরিমাণ গণনা করা হয় other অন্যান্য বুটস্ট্র্যাপ পদ্ধতিগুলির মতো এই নমুনা প্রক্রিয়াটি বহুবার পুনরাবৃত্তি হয় the বুটস্ট্র্যাপ পদ্ধতিতে নমুনা পর্যায়ে প্যারামেট্রিক মডেল ব্যবহারের ফলে পদ্ধতিগুলি বাড়ে যা মৌলিক পরিসংখ্যান তত্ত্ব প্রয়োগ করে প্রাপ্ত থেকে পৃথক হয় একই মডেলের জন্য অনুমান। "( উইকিপিডিয়া দেখুন )। নীচে গড় এবং স্ট্যান্ডার্ড বিচ্যুতি পরামিতিগুলির সাথে সাধারণ বিতরণ অনুমান সহ প্যারামেট্রিক বুটস্ট্র্যাপ রয়েছে।
Yvar <- c(8,9,10,13,12, 14,18,12,8,9, 1,3,2,3,4)
# parameters for Yvar
mean.y <- mean(Yvar)
sd.y <- sd(Yvar)
#To generate a single bootstrap sample with assumed normal distribution (mean, sd)
rnorm(length(Yvar), mean.y, sd.y)
#generate 1000 bootstrap samples
boot <-list()
for (i in 1:1000)
boot[[i]] <- rnorm(length(Yvar), mean.y, sd.y)
বুটস্ট্র্যাপের অন্যান্য রূপ রয়েছে, দয়া করে উইকিপিডিয়া পৃষ্ঠা বা পুনর্নির্মাণের জন্য কোনও ভাল স্ট্যাটিক্যাল বইয়ের পরামর্শ নিন।
JACKNIFE
"একটি প্যারামিটারের জ্যাকনিফ অনুমানকটি নিয়মিতভাবে প্রতিটি পর্যবেক্ষণ একটি ডেটাसेट থেকে বের করে এবং অনুমানটি গণনা করে এবং পরে এই গণনার গড়ের সন্ধান করে by এন এন আকারের একটি নমুনা দেওয়া, জ্যাকনিফ অনুমান প্রতিটি N − 1
অনুমানের অনুমানকে একত্রিত করে পাওয়া যায় নমুনায়। " দেখুন: উইকিপিডিয়া নিম্নলিখিতটি কীভাবে জ্যাকনিফাইভ করবেন তা দেখায় Yvar
।
jackdf <- list()
jack <- numeric(length(Yvar)-1)
for (i in 1:length (Yvar)){
for (j in 1:length(Yvar)){
if(j < i){
jack[j] <- Yvar[j]
} else if(j > i) {
jack[j-1] <- Yvar[j]
}
}
jackdf[[i]] <- jack
}
jackdf
"নিয়মিত বুটস্ট্র্যাপ এবং জ্যাকনিফ, প্যারামেট্রিক অনুমানের চেয়ে সাবমলগুলির মধ্যে সেই পরিসংখ্যানের পরিবর্তনশীলতা থেকে কোনও পরিসংখ্যানের তারতম্যটি অনুমান করুন more এটির সান্নিধ্যকরণ Both বুটস্ট্র্যাপ বনাম জ্যাকনিফ এ এই প্রশ্নটি দেখুন ।
র্যান্ডোমাইজেশন টেস্টস
"প্যারাম্যাট্রিক পরীক্ষায় আমরা এলোমেলোভাবে এক বা একাধিক জনসংখ্যার নমুনা করি those সেই জনসংখ্যা সম্পর্কে আমরা কিছুটা অনুমান করি, সাধারণত এটি সাধারণত সমান বৈকল্পিকের সাথে বিতরণ করা হয় We আমরা একটি নাল অনুমান স্থাপন করি যা পরামিতিগুলির ক্ষেত্রে ফ্রেম করা হয়, প্রায়শই এম 1 ফর্মের -m2 = 0। আমরা আমাদের জনসংখ্যার পরিসংখ্যানকে সম্পর্কিত জনসংখ্যার পরামিতিগুলির অনুমান হিসাবে ব্যবহার করি এবং একটি পরীক্ষার পরিসংখ্যান (যেমন পরীক্ষায়) গণনা করি example উদাহরণস্বরূপ: শিক্ষার্থীর টি-তে ভিন্নতার জন্য পরীক্ষা যখন ভেরিয়েন্সগুলি অজানা থাকে তবে বিবেচিত হয় সমান হতে হবে interest আগ্রহের H0: m1 = m2
অনুমানটি হ'ল বিকল্প অনুমানের মধ্যে একটি বলে দেওয়া হবে:HA: m1 < m2
। জনসংখ্যা 1 এবং 2 থেকে আঁকা দুটি নমুনা দেওয়া, এইগুলি ধরে নিয়ে যে এগুলি সাধারণত সমান বৈকল্পিক সহ জনসংখ্যা বিতরণ করা হয় এবং প্রতিটি নমুনা স্বতন্ত্রভাবে এবং এলোমেলোভাবে আঁকা হয়েছিল, তবে এমন একটি পরিসংখ্যান যার বন্টন জানা যায় তা পরীক্ষার জন্য বিশদভাবে ব্যাখ্যা করা যেতে পারে H0
।
এই বিতরণীয় অনুমানগুলি এড়ানোর এক উপায় হ'ল অ্যাপ্রোচ যা এখন নন-প্যারামেট্রিক, র্যাঙ্ক - অর্ডার, র্যাঙ্ক - পছন্দ, এবং বিতরণ - নিখরচায় পরিসংখ্যান statistics এই বিতরণ - নিখরচায় পরিসংখ্যান সাধারণত জনসংখ্যাকে সাধারণভাবে বিতরণ করা হবে বলে ধরে নেওয়ার ভিত্তিতে সাদৃশ্য পরীক্ষার চেয়ে কম "দক্ষ" হওয়ার জন্য সমালোচিত হয়।
অন্য বিকল্প পদ্ধতির র্যান্ডমাইজেশন পদ্ধতি - "কোন পর্যবেক্ষণ সদস্য কোন নমুনা সম্পর্কে নিজের জ্ঞানের তুলনায় এলোমেলোভাবে পর্যবেক্ষণগুলিতে র্যাঙ্কগুলি নির্ধারণের প্রক্রিয়া। একটি এলোমেলোকরণ পরীক্ষা এ জাতীয় পদ্ধতি ব্যবহার করে, তবে যৌথের চেয়ে পর্যবেক্ষণগুলিতে পরিচালনা করে তা করে পর্যবেক্ষণগুলির র্যাঙ্কিং this এই কারণেই, অভিন্ন পরিসংখ্যানের বিতরণ (একটি নমুনায় পর্যবেক্ষণের যোগফল) সহজেই সারণী করা যায় না, যদিও তাত্ত্বিকভাবে এ জাতীয় বিতরণ গণনা করা সম্ভব "( দেখুন )
র্যান্ডমাইজেশন পরীক্ষাগুলি প্রায় প্রতিটি ক্ষেত্রে প্যারামেট্রিক টেস্ট থেকে পৃথক। (1) আমাদের এক বা একাধিক জনগোষ্ঠীর থেকে এলোমেলো নমুনা থাকার প্রয়োজন নেই — বাস্তবে আমরা সাধারণত এলোমেলোভাবে নমুনা করি না। (২) আমরা জনসংখ্যার দিক থেকে এই তথ্যগুলি খুব কমই ভাবি, এবং স্বাভাবিকতা বা সমকামিতা সম্পর্কে কিছু ধারণা করার দরকার নেই (৩) আমাদের নাল অনুমানের সাথে পরামিতিগুলির কোনও সম্পর্ক নেই, তবে এটি স্পষ্টতই বর্ণিত, যেমন, উদাহরণস্বরূপ, অনুমান করা যায় যে অংশগ্রহণকারীরা কীভাবে সম্পাদন করে তার উপর চিকিত্সার কোনও প্রভাব নেই we (4) যেহেতু আমরা জনসংখ্যার সাথে উদ্বিগ্ন নই, আমরা সেই জনগোষ্ঠীর বৈশিষ্ট্য (বা এমনকি পরীক্ষার) অনুমানের সাথেও উদ্বিগ্ন নই (5) আমরা কিছু গণনা করি না পরীক্ষার পরিসংখ্যানের ধরণের, তবে আমরা সেই পরিসংখ্যানকে টেবিলযুক্ত বিতরণগুলির সাথে তুলনা করি না। পরিবর্তে, আমরা বারবার দলগুলি জুড়ে ডেটা এলোমেলো করি এবং আমরা প্রতিটি র্যান্ডমাইজেশনের জন্য সম্পর্কিত পরিসংখ্যান গণনা করি আমরা আমাদের প্রাপ্ত ফলাফলের সাথে এটি তুলনা করি। ()) প্যারামেট্রিক টেস্টের চেয়েও বেশি, এলোমেলোকরণ পরীক্ষাগুলি চিকিত্সায় অংশগ্রহণকারীদের এলোমেলোভাবে নিয়োগের গুরুত্বের উপর জোর দেয় ""দেখতে ।
র্যান্ডমাইজেশন পরীক্ষার ধরণ যা খুব জনপ্রিয় perm যদি আমাদের নমুনার আকার 12 এবং 5 হয় তবে মোট অনুমান সম্ভব C(12,5) = 792
। আমাদের নমুনার মাপ যদি 10 এবং 15 হয় তবে 3.2 মিলিয়নেরও বেশি ব্যবস্থা করা সম্ভব হত। এটি কম্পিউটিং চ্যালেঞ্জ: তাহলে কি? নমুনা । সম্ভাব্য বিন্যাসের মহাবিশ্ব যখন গণনা করতে খুব বিশাল হয় তবে কেন এই মহাবিশ্ব থেকে স্বতন্ত্রভাবে এবং এলোমেলোভাবে নমুনা ব্যবস্থা করা হচ্ছে না? এই সিরিজের নমুনাগুলির উপর পরীক্ষার পরিসংখ্যান বিতরণকে তারপরে টেবুলেটেড করা যেতে পারে, এর 'গড় এবং বৈচিত্র্য গণনা করা যেতে পারে, এবং অনুমান করা একটি অনুমান পরীক্ষার সাথে সম্পর্কিত ত্রুটি হার rate
পারমিটেশন টেস্ট
উইকিপিডিয়া অনুসারে "একটি পরিক্ষা পরীক্ষা (যাকে একটি র্যান্ডমাইজেশন পরীক্ষা , পুনরায় র্যান্ডমাইজেশন পরীক্ষা বা একটি সঠিক পরীক্ষাও বলা হয় ) এক প্রকার পরিসংখ্যানগত তাত্পর্য পরীক্ষা যা নাল অনুমানের অধীনে পরীক্ষার পরিসংখ্যান বিতরণ সমস্ত সম্ভাব্য মান গণনা করে প্রাপ্ত হয় পর্যবেক্ষণকৃত তথ্য পয়েন্টগুলিতে লেবেলের পুনঃব্যবস্থাপনার অধীনে পরীক্ষার পরিসংখ্যান সম্পর্কিত ।প্রদানের পরীক্ষাগুলি যে কোনও পরীক্ষার পরিসংখ্যানের জন্য জানা যায় বা না তা নির্বিশেষে বিদ্যমান থাকে। সুতরাং এই পরিসংখ্যানটি বেছে নিতে সর্বদা নির্দ্বিধায় থাকে যা অনুমান এবং বিকল্পের মধ্যে সর্বোত্তম বৈষম্যমূলক এবং যা ক্ষয়কে হ্রাস করে ""
পারমিটেশন এবং বুটস্ট্র্যাপের মধ্যে পার্থক্য হ'ল প্রতিস্থাপনের সাথে বুটস্ট্র্যাপ নমুনা এবং প্রতিস্থাপন ছাড়াই ক্রমের নমুনা । উভয় ক্ষেত্রেই, পর্যবেক্ষণগুলির সময় ক্রম নষ্ট হয়ে যায় এবং অতএব অস্থিরতা ক্লাস্টারিং নষ্ট হয় - এইভাবে নিশ্চিত করে যে নমুনাগুলি কোনও অস্থিরতা ক্লাস্টারিংয়ের নাল অনুমানের অধীনে রয়েছে।
ক্রমগুলি সর্বদা একই পর্যবেক্ষণগুলির মধ্যে থাকে তাই বুটস্ট্র্যাপের নমুনাগুলির চেয়ে এগুলি মূল ডেটার মতো like প্রত্যাশাটি হ'ল পারমিটেশন পরীক্ষাটি বুটস্ট্র্যাপ পরীক্ষার চেয়ে সংবেদনশীল হওয়া উচিত। অনুমতিগুলি অস্থিরতা ক্লাস্টারিং ধ্বংস করে তবে অন্য কোনও পরিবর্তনশীলতা যুক্ত করে না ।
পারমিটেশন বনাম বুটস্ট্র্যাপিংয়ের প্রশ্নটি দেখুন - " হাইপোথেসিসগুলি পরীক্ষা করার জন্য পারমিটেশন পরীক্ষাটি সেরা এবং আত্মবিশ্বাসের অন্তরগুলি অনুমান করার জন্য বুটস্ট্র্যাপিং সর্বোত্তম "।
সুতরাং এই ক্ষেত্রে ক্রমশক্তি সম্পাদন করতে আমরা কেবল replace = FALSE
উপরের বুটস্ট্র্যাপ উদাহরণে পরিবর্তন করতে পারি ।
Yvar <- c(8,9,10,13,12, 14,18,12,8,9, 1,3,2,3,4)
#generate 1000 bootstrap samples
permutes <-list()
for (i in 1:1000)
permutes[[i]] <- sample(Yvar,replace=FALSE)
একাধিক ভেরিয়েবলের ক্ষেত্রে, কেবল সারিগুলি বাছাই করা এবং ক্রমটি পুনর্বিবেচনা করলে কোনও পার্থক্য হবে না কারণ ডেটা একই থাকবে। সুতরাং আমরা y পরিবর্তনশীল রদবদল। কিছু কপালে কি আছে, কিন্তু আমি মনে করি আমরা প্রয়োজন হবে না না ডবল পুনর্বিন্যাস্ত উভয়ের x
এবং y variables
(যেমন করেছ)।
Yvar <- c(8,9,10,13,12, 14,18,12,8,9, 1,3,2,3,4)
Xvar <- c(rep("A", 5), rep("B", 5), rep("C", 5))
mydf <- data.frame (Yvar, Xvar)
permt.samples <- list()
for(i in 1:10) {
t.yvar <- Yvar[ sample(length(Yvar), length(Yvar), replace=FALSE) ]
b.df <- data.frame (Xvar, t.yvar)
permt.samples[[i]] <- b.df
}
str(permt.samples)
permt.samples[1]
কার্টো পদ্ধতিগুলি উপার্জন করুন
"মন্টি কার্লো পদ্ধতি (বা মন্টি কার্লো পরীক্ষা-নিরীক্ষা) হ'ল গণনা সংক্রান্ত অ্যালগরিদমগুলির একটি বিস্তৃত শ্রেণি যা সংখ্যার ফলাফল প্রাপ্তির জন্য বারবার এলোমেলো নমুনার উপর নির্ভর করে ; সাধারণত একটি অজানা সম্ভাব্য সত্তার বন্টন পাওয়ার জন্য একাধিকবার সিমুলেশন চালায় runs নামটি আসে কৌশলটির সাদৃশ্য থেকে খেলতে ও রেকর্ডিংয়ের কাজকে বাস্তব জুয়ার ক্যাসিনোতে ফলাফল দেয় Wikipedia " উইকিপিডিয়া দেখুন
"প্রয়োগ পরিসংখ্যানগুলিতে, মন্টি কার্লো পদ্ধতিগুলি সাধারণত দুটি উদ্দেশ্যে ব্যবহৃত হয়:
(1) বাস্তবের ডেটা শর্তে ছোট নমুনাগুলির জন্য প্রতিযোগিতামূলক পরিসংখ্যান তুলনা করা To যদিও টাইপ প্রথম ত্রুটি এবং পরিসংখ্যানের পাওয়ার বৈশিষ্ট্যগুলি asyptotic অবস্থার জন্য ক্লাসিকাল তাত্ত্বিক বিতরণগুলি (উদাহরণস্বরূপ, সাধারণ বক্ররেখা, কচির বিতরণ) থেকে প্রাপ্ত ডেটার জন্য গণনা করা যেতে পারে (i। ই, অসীম নমুনার আকার এবং স্বল্প চিকিত্সার প্রভাব) যেমন বিতরণ নেই।
(২) অ্যাসিপোটোটিক বিতরণের জন্য সমালোচনামূলক মানগুলির চেয়ে আরও নির্ভুল থাকা অবস্থায় অনুমানের পরীক্ষার (যেমন গণনা করা প্রায়শই অসম্ভব) যেমন সঠিক পরীক্ষার চেয়ে বেশি দক্ষ, হাইপোথিসিস টেস্টগুলির বাস্তবায়ন সরবরাহ করা।
মন্টে কার্লো পদ্ধতিগুলিও আনুমানিক র্যান্ডমাইজেশন এবং ক্রমান্বয়ে পরীক্ষার মধ্যে একটি সমঝোতা । একটি আনুমানিক র্যান্ডমাইজেশন পরীক্ষা সমস্ত আদেশের একটি নির্দিষ্ট উপসেটের উপর ভিত্তি করে তৈরি করা হয় (যার মধ্যে সম্ভাব্য বিপুল পরিমাণে গৃহকর্মী অন্তর্ভুক্ত থাকে যার অনুমতি বিবেচিত হয়েছে)। মন্টো কার্লো পদ্ধতির একটি নির্ধারিত সংখ্যার এলোমেলোভাবে আঁকা অনুমানের উপর ভিত্তি করে তৈরি করা হয়েছে ( কোন অনুক্রমটি ইতিমধ্যে নির্বাচিত হয়েছে কিনা তা ট্র্যাক না করার দক্ষতার জন্য - যদি কোনও আদেশ দুটিবার বা আরও বেশি বার আঁকানো হয় তবে যথাযথভাবে ক্ষুদ্র ক্ষতির বিনিময় ) ""
উভয় এমসি এবং বিন্যাস পরীক্ষা একদা সম্মিলিতভাবে বলা হয় র্যান্ডোমাইজেশন পরীক্ষা । পার্থক্যটি এমসিতে রয়েছে আমরা সম্ভাব্য সমস্ত সংমিশ্রণগুলি দেখতে ব্যবহার করে পরিবর্তনের নমুনাগুলি নমুনা করি ।
ক্রস বৈধতা
ক্রস বৈধকরণের বাইরে ধারণাটি হ'ল মডেলগুলিকে এমন ডেটা দিয়ে পরীক্ষা করা উচিত যা মডেলটির সাথে মানানসই ছিল না। ক্রস বৈধতা সম্ভবত প্রায়শই পূর্বাভাসের প্রসঙ্গে ব্যবহৃত হয় ।
"ক্রস-বৈধকরণ একটি ভবিষ্যদ্বাণীমূলক মডেলকে বৈধ করার জন্য একটি পরিসংখ্যান পদ্ধতি। ডেটা সাবসেটগুলি বৈধতা যাচাইকরণ সেট হিসাবে ব্যবহারের জন্য রাখা হয় ; একটি মডেল বাকী ডেটা (একটি প্রশিক্ষণ সেট) এর সাথে ফিট থাকে এবং বৈধতা সেটটির পূর্বাভাস দেওয়ার জন্য ব্যবহৃত হয় A গড় বৈধতা সেট জুড়ে ভবিষ্যদ্বাণীগুলির গুণমান পূর্বাভাসের যথাযথতার সামগ্রিক পরিমাপ দেয়।
ক্রস-বৈধতার এক ফর্ম একসাথে একক পর্যবেক্ষণ ছেড়ে দেয়; এটি জ্যাকনিফের মতো। অন্য, কে-ভাঁজ ক্রস-বৈধতা, ডেটা কে সাবটকে বিভক্ত করে; প্রত্যেকেই বৈধতা সেট হিসাবে পরিবর্তিত হয় "" উইকিপিডিয়া দেখুন Cross ক্রস বৈধতা সাধারণত পরিমাণগত ডেটা দিয়ে করা হয় You আপনি আপনার গুণগত (ফ্যাক্টর ডেটা) কে একরকম পরিমাণে রূপান্তর করতে পারেন কোনও রৈখিক মডেল ফিট করতে এবং এই মডেলটি পরীক্ষা করতে The নিম্নলিখিতটি সহজ হোল্ড-আউট কৌশল যেখানে মডেলের পূর্বাভাসের জন্য 50% ডেটা ব্যবহৃত হয় যখন বাকী পরীক্ষার জন্য ব্যবহৃত হয়। ধরা যাক Xvar
মানটিও পরিবর্তনশীল হয়।
Yvar <- c(8,9,10,13,12, 14,18,12,8,9, 1,3,2,3,4)
Xvar <- c(rep(1, 5), rep(2, 5), rep(3, 5))
mydf <- data.frame (Yvar, Xvar)
training.id <- sample(1:nrow(mydf), round(nrow(mydf)/2,0), replace = FALSE)
test.id <- setdiff(1:nrow(mydf), training.id)
# training dataset
mydf.train <- mydf[training.id]
#testing dataset
mydf.test <- mydf[test.id]
বুটস্ট্র্যাপ এবং অনুক্রমের পরীক্ষার বিপরীতে প্রশিক্ষণ ও পরীক্ষার জন্য ক্রস-বৈধতা ডেটাসেট আলাদা। নিম্নলিখিত চিত্রটি বিভিন্ন পদ্ধতিতে পুনর্নির্মাণের সংক্ষিপ্তসার দেখায়।
আশা করি এটা কিছুটা সাহায্য করবে।