পুনরায় মডেলিং / সিমুলেশন পদ্ধতি: মন্টে কার্লো, বুটস্ট্র্যাপিং, জ্যাকনিফাইং, ক্রস-বৈধকরণ, র্যান্ডমাইজেশন পরীক্ষা এবং ক্রমান্বকরণ পরীক্ষা


73

আমি বিভিন্ন পুনঃনির্মাণের পদ্ধতিগুলির মধ্যে পার্থক্য বোঝার চেষ্টা করছি (মন্টি কার্লো সিমুলেশন, প্যারামেট্রিক বুটস্ট্র্যাপিং, নন-প্যারামেট্রিক বুটস্ট্র্যাপিং, জ্যাককনিফিং, ক্রস-বৈধকরণ, র্যান্ডমাইজেশন পরীক্ষা এবং ক্রমশক্তি পরীক্ষা) এবং আর ব্যবহার করে নিজের প্রসঙ্গে আর ব্যবহার করে।

বলুন আমার নিম্নোক্ত পরিস্থিতি আছে - আমি একটি ওয়াই ভেরিয়েবল ( Yvar) এবং এক্স ভেরিয়েবল ( Xvar) সহ আনোভা সম্পাদন করতে চাই । Xvarশ্রেণিবদ্ধ হয়। আমি নিম্নলিখিত বিষয়গুলিতে আগ্রহী:

(1) পি-মানগুলির তাৎপর্য - ভুয়া আবিষ্কারের হার

(2) Xvarস্তরের প্রভাব আকার

Yvar <- c(8,9,10,13,12, 14,18,12,8,9,   1,3,2,3,4)
Xvar <- c(rep("A", 5),  rep("B", 5),    rep("C", 5))
mydf <- data.frame (Yvar, Xvar)

কীভাবে আপনি পুনর্নির্মাণের এই পদ্ধতিটি কাজ করে তা স্পষ্টভাবে কাজের উদাহরণ সহ নমুনা পার্থক্য ব্যাখ্যা করতে আমাকে জেল করতে পারেন?

সম্পাদনা: এখানে আমার প্রচেষ্টা:

বুটস্ট্র্যাপ 10 বুটস্ট্র্যাপ নমুনা, প্রতিস্থাপন সহ নমুনার সংখ্যা, এর অর্থ হল নমুনাগুলি পুনরাবৃত্তি করা যায়

boot.samples <- list()
for(i in 1:10) {
   t.xvar <- Xvar[ sample(length(Xvar), length(Xvar), replace=TRUE) ]
   t.yvar <- Yvar[ sample(length(Yvar), length(Yvar), replace=TRUE) ]
   b.df <- data.frame (t.xvar, t.yvar) 
   boot.samples[[i]] <- b.df 
}
str(boot.samples)
 boot.samples[1]

অনুমান: 10 অনুক্রমের নমুনা, প্রতিস্থাপন ছাড়াই নমুনার সংখ্যা

 permt.samples <- list()
    for(i in 1:10) {
       t.xvar <- Xvar[ sample(length(Xvar), length(Xvar), replace=FALSE) ]
       t.yvar <- Yvar[ sample(length(Yvar), length(Yvar), replace=FALSE) ]
       b.df <- data.frame (t.xvar, t.yvar) 
       permt.samples[[i]] <- b.df 
    }
    str(permt.samples)
    permt.samples[1]

মন্টি ক্যারো সিমুলেশন

যদিও "রিস্যাম্পলিং" শব্দটি প্রায়শই যেকোন পুনরাবৃত্ত র্যান্ডম বা সিউডোরান্ডম স্যাম্পলিং সিমুলেশনকে বোঝাতে ব্যবহৃত হয়, যখন "রিসম্পলিং" একটি পরিচিত তাত্ত্বিক বিতরণ থেকে করা হয়, সঠিক শব্দটি হ'ল "মন্টি কার্লো" সিমুলেশন।

উপরের সমস্ত পদ এবং আমার উপরের সম্পাদনাগুলি সঠিক কিনা তা সম্পর্কে আমি নিশ্চিত নই। আমি জ্যাকনিফ সম্পর্কিত কিছু তথ্য পেয়েছি তবে আমি নিজের অবস্থার সাথে এটি কাটিয়ে উঠতে পারি না।


3
জ্যাকনিফ বুটস্ট্র্যাপের একটি সহজ পূর্বসূরি।
en.wikedia.org/wiki/Jackknife_

4
আরও সুনির্দিষ্টভাবে: জ্যাকনিফ হ'ল-ওয়ান-আউট রিসম্পলিং [তবে ক্রস বৈধকরণের জন্য ব্যবহৃত হয় না)
সিবেলাইটস

উত্তর:


121

আমরা বিভিন্ন জানতে পারেন রীস্যাম্পেলিং পদ্ধতি , বা ঢিলেঢালাভাবে বলা হয় " সিমুলেশন " পদ্ধতি, যে উপর নির্ভর রিস্যাম্পলিং বা প্রকাশের shuffling নমুনার। যথাযথ পরিভাষার ক্ষেত্রে মতামতগুলির মধ্যে মতভেদ থাকতে পারে, তবে নিম্নলিখিত আলোচনায় উপযুক্ত সাহিত্যে যা পাওয়া যায় তা সাধারণীকরণ ও সরল করার চেষ্টা করে:

পুনর্নির্মাণের পদ্ধতিগুলি (1) উপাত্তের উপসেট (উদাহরণস্বরূপ জ্যাকনিফাইং) ব্যবহার করে বা এলোমেলোভাবে অঙ্কন করে ডেটা পয়েন্টগুলির সেট (উদাহরণস্বরূপ বুটস্ট্র্যাপিং) (2) তাত্পর্য সম্পাদন করার সময় ডেটা পয়েন্টগুলিতে লেবেল আদান-প্রদানের মাধ্যমে নমুনা পরিসংখ্যানগুলির নির্ভুলতা / নির্ভুলতার অনুমান করতে ব্যবহৃত হয় পরীক্ষা (ক্রমশক্তি পরীক্ষা, একেবারে সঠিক টেস্ট, র্যান্ডমাইজেশন পরীক্ষা বা পুনরায় র্যান্ডমাইজেশন পরীক্ষাও বলা হয়) (3) র্যান্ডম সাবসেট (বুটস্ট্র্যাপিং, ক্রস বৈধতা) ব্যবহার করে মডেলগুলিকে বৈধকরণ (উইকিপিডিয়া: পুনর্নির্মাণের পদ্ধতিগুলি দেখুন )

BOOTSTRAPING

" আসল নমুনা থেকে প্রতিস্থাপনের সাথে নমুনা তৈরি করে কোনও অনুমানকারীর নমুনা বিতরণ অনুমানের জন্য বুটস্ট্র্যাপিং একটি পরিসংখ্যান পদ্ধতি "। পদ্ধতিটি নমুনা অনুমানের জন্য নির্ভুলতার ব্যবস্থা ( পক্ষপাত , বৈকল্পিকতা , আত্মবিশ্বাসের ব্যবধান , ভবিষ্যদ্বাণী ত্রুটি বা এই জাতীয় কোনও অন্যান্য পরিমাপের সংজ্ঞা অনুসারে) নির্ধারণ করে।

বুটস্ট্র্যাপিংয়ের প্রাথমিক ধারণাটি হ'ল নমুনা ডেটা ( নমুনা → জনসংখ্যা ) থেকে জনসংখ্যার বিষয়ে অনুমিতিকে নমুনা ডেটা পুনরায় মডেল করে এবং (পুনরায় নমুনা) নমুনা) উপর অনুমান সম্পাদন করে মডেল করা যায়। জনসংখ্যা অজানা হিসাবে, এর জনসংখ্যার মানের বিরুদ্ধে কোনও নমুনা পরিসংখ্যানের আসল ত্রুটি অজানা। বুটস্ট্র্যাপ-রেসামগুলিতে, 'জনসংখ্যা' আসলে নমুনা, এবং এটি জানা যায়; অতএব পুনরায় নমুনা তথ্য থেকে অনুমানের মান 'সত্য' নমুনা পরিমাপযোগ্য "" উইকিপিডিয়া দেখুন

Yvar <- c(8,9,10,13,12, 14,18,12,8,9,   1,3,2,3,4)

#To generate a single bootstrap sample
sample(Yvar, replace = TRUE) 

 #generate 1000 bootstrap samples
boot <-list()
for (i in 1:1000) 
   boot[[i]] <- sample(Yvar,replace=TRUE)

অবিচ্ছিন্ন সমস্যাগুলিতে, প্রতিস্থাপনের ("কেস রিসম্পলিং") সহ পৃথক পর্যবেক্ষণগুলির পুনরায় নমুনা গ্রহণ করা সাধারণত গ্রহণযোগ্য। এখানে আমরা প্রতিস্থাপনের সাথে ডেটা পুনরায় নমুনা করি এবং পুনরায় নমুনার আকারটি মূল ডেটা সেটের আকারের সমান হতে হবে।

রিগ্রেশন সমস্যাগুলিতে কেস রিম্যাম্পলিং পৃথক কেসগুলিকে পুনরায় মডেল করার সহজ স্কিমকে বোঝায় - প্রায়শই রিগ্রেশন সমস্যায় সেট করা ডেটার সারি, ব্যাখ্যামূলক ভেরিয়েবলগুলি প্রায়শই স্থির হয়, বা কমপক্ষে প্রতিক্রিয়ার ভেরিয়েবলের চেয়ে বেশি নিয়ন্ত্রণের সাথে পর্যবেক্ষণ করা হয়। এছাড়াও, ব্যাখ্যামূলক ভেরিয়েবলগুলির ব্যাপ্তি তাদের কাছ থেকে পাওয়া তথ্যের সংজ্ঞা দেয়। অতএব, কেস পুনরায় নমুনা করার অর্থ প্রতিটি বুটস্ট্র্যাপ নমুনা কিছু তথ্য হারাবে ( উইকিপিডিয়া দেখুন )। সুতরাং এটি কেবলমাত্র তথ্যের সারি নমুনা যুক্তিসঙ্গত হবে Yvar

Yvar <- c(8,9,10,13,12, 14,18,12,8,9,   1,3,2,3,4)
Xvar <- c(rep("A", 5),  rep("B", 5),    rep("C", 5))
mydf <- data.frame (Yvar, Xvar)    

boot.samples <- list()
for(i in 1:10) {
   b.samples.cases <- sample(length(Xvar), length(Xvar), replace=TRUE) 
   b.mydf <- mydf[b.samples.cases,] 
   boot.samples[[i]] <- b.mydf
}
str(boot.samples)
 boot.samples[1]

আপনি প্রতিস্থাপনের সাথে নমুনা নিচ্ছেন এমন কিছু ক্ষেত্রে আপনি পুনরাবৃত্তি করতে পারেন।

" প্যারামেট্রিক বুটস্ট্র্যাপ - একটি প্যারামিট্রিক মডেল উপাত্তে লাগানো হয়, প্রায়শই সর্বাধিক সম্ভাবনা দ্বারা এবং এলোমেলো সংখ্যার নমুনাগুলি এই লাগানো মডেল থেকে আঁকা হয় Usually সাধারণত আঁকা নমুনাটি মূল ডেটার মতো একই নমুনার আকার ধারণ করে Then তারপরে পরিমাণ বা অনুমান এই ডেটা থেকে আগ্রহের পরিমাণ গণনা করা হয় other অন্যান্য বুটস্ট্র্যাপ পদ্ধতিগুলির মতো এই নমুনা প্রক্রিয়াটি বহুবার পুনরাবৃত্তি হয় the বুটস্ট্র্যাপ পদ্ধতিতে নমুনা পর্যায়ে প্যারামেট্রিক মডেল ব্যবহারের ফলে পদ্ধতিগুলি বাড়ে যা মৌলিক পরিসংখ্যান তত্ত্ব প্রয়োগ করে প্রাপ্ত থেকে পৃথক হয় একই মডেলের জন্য অনুমান। "( উইকিপিডিয়া দেখুন )। নীচে গড় এবং স্ট্যান্ডার্ড বিচ্যুতি পরামিতিগুলির সাথে সাধারণ বিতরণ অনুমান সহ প্যারামেট্রিক বুটস্ট্র্যাপ রয়েছে।

Yvar <- c(8,9,10,13,12, 14,18,12,8,9,   1,3,2,3,4)

# parameters for Yvar 
mean.y <- mean(Yvar)
sd.y <- sd(Yvar)

#To generate a single bootstrap sample with assumed normal distribution (mean, sd)
rnorm(length(Yvar), mean.y, sd.y)

 #generate 1000 bootstrap samples
boot <-list()
for (i in 1:1000) 
   boot[[i]] <- rnorm(length(Yvar), mean.y, sd.y)

বুটস্ট্র্যাপের অন্যান্য রূপ রয়েছে, দয়া করে উইকিপিডিয়া পৃষ্ঠা বা পুনর্নির্মাণের জন্য কোনও ভাল স্ট্যাটিক্যাল বইয়ের পরামর্শ নিন।

JACKNIFE

"একটি প্যারামিটারের জ্যাকনিফ অনুমানকটি নিয়মিতভাবে প্রতিটি পর্যবেক্ষণ একটি ডেটাसेट থেকে বের করে এবং অনুমানটি গণনা করে এবং পরে এই গণনার গড়ের সন্ধান করে by এন এন আকারের একটি নমুনা দেওয়া, জ্যাকনিফ অনুমান প্রতিটি N − 1অনুমানের অনুমানকে একত্রিত করে পাওয়া যায় নমুনায়। " দেখুন: উইকিপিডিয়া নিম্নলিখিতটি কীভাবে জ্যাকনিফাইভ করবেন তা দেখায় Yvar

jackdf <- list()
jack <- numeric(length(Yvar)-1)

for (i in 1:length (Yvar)){

for (j in 1:length(Yvar)){
     if(j < i){ 
            jack[j] <- Yvar[j]
}  else if(j > i) { 
             jack[j-1] <- Yvar[j]
}
}
jackdf[[i]] <- jack
}
jackdf

"নিয়মিত বুটস্ট্র্যাপ এবং জ্যাকনিফ, প্যারামেট্রিক অনুমানের চেয়ে সাবমলগুলির মধ্যে সেই পরিসংখ্যানের পরিবর্তনশীলতা থেকে কোনও পরিসংখ্যানের তারতম্যটি অনুমান করুন more এটির সান্নিধ্যকরণ Both বুটস্ট্র্যাপ বনাম জ্যাকনিফ এ এই প্রশ্নটি দেখুন ।

র্যান্ডোমাইজেশন টেস্টস

"প্যারাম্যাট্রিক পরীক্ষায় আমরা এলোমেলোভাবে এক বা একাধিক জনসংখ্যার নমুনা করি those সেই জনসংখ্যা সম্পর্কে আমরা কিছুটা অনুমান করি, সাধারণত এটি সাধারণত সমান বৈকল্পিকের সাথে বিতরণ করা হয় We আমরা একটি নাল অনুমান স্থাপন করি যা পরামিতিগুলির ক্ষেত্রে ফ্রেম করা হয়, প্রায়শই এম 1 ফর্মের -m2 = 0। আমরা আমাদের জনসংখ্যার পরিসংখ্যানকে সম্পর্কিত জনসংখ্যার পরামিতিগুলির অনুমান হিসাবে ব্যবহার করি এবং একটি পরীক্ষার পরিসংখ্যান (যেমন পরীক্ষায়) গণনা করি example উদাহরণস্বরূপ: শিক্ষার্থীর টি-তে ভিন্নতার জন্য পরীক্ষা যখন ভেরিয়েন্সগুলি অজানা থাকে তবে বিবেচিত হয় সমান হতে হবে interest আগ্রহের H0: m1 = m2অনুমানটি হ'ল বিকল্প অনুমানের মধ্যে একটি বলে দেওয়া হবে:HA: m1 < m2। জনসংখ্যা 1 এবং 2 থেকে আঁকা দুটি নমুনা দেওয়া, এইগুলি ধরে নিয়ে যে এগুলি সাধারণত সমান বৈকল্পিক সহ জনসংখ্যা বিতরণ করা হয় এবং প্রতিটি নমুনা স্বতন্ত্রভাবে এবং এলোমেলোভাবে আঁকা হয়েছিল, তবে এমন একটি পরিসংখ্যান যার বন্টন জানা যায় তা পরীক্ষার জন্য বিশদভাবে ব্যাখ্যা করা যেতে পারে H0

এই বিতরণীয় অনুমানগুলি এড়ানোর এক উপায় হ'ল অ্যাপ্রোচ যা এখন নন-প্যারামেট্রিক, র‌্যাঙ্ক - অর্ডার, র‌্যাঙ্ক - পছন্দ, এবং বিতরণ - নিখরচায় পরিসংখ্যান statistics এই বিতরণ - নিখরচায় পরিসংখ্যান সাধারণত জনসংখ্যাকে সাধারণভাবে বিতরণ করা হবে বলে ধরে নেওয়ার ভিত্তিতে সাদৃশ্য পরীক্ষার চেয়ে কম "দক্ষ" হওয়ার জন্য সমালোচিত হয়।

অন্য বিকল্প পদ্ধতির র্যান্ডমাইজেশন পদ্ধতি - "কোন পর্যবেক্ষণ সদস্য কোন নমুনা সম্পর্কে নিজের জ্ঞানের তুলনায় এলোমেলোভাবে পর্যবেক্ষণগুলিতে র‌্যাঙ্কগুলি নির্ধারণের প্রক্রিয়া। একটি এলোমেলোকরণ পরীক্ষা এ জাতীয় পদ্ধতি ব্যবহার করে, তবে যৌথের চেয়ে পর্যবেক্ষণগুলিতে পরিচালনা করে তা করে পর্যবেক্ষণগুলির র‌্যাঙ্কিং this এই কারণেই, অভিন্ন পরিসংখ্যানের বিতরণ (একটি নমুনায় পর্যবেক্ষণের যোগফল) সহজেই সারণী করা যায় না, যদিও তাত্ত্বিকভাবে এ জাতীয় বিতরণ গণনা করা সম্ভব "( দেখুন )

র্যান্ডমাইজেশন পরীক্ষাগুলি প্রায় প্রতিটি ক্ষেত্রে প্যারামেট্রিক টেস্ট থেকে পৃথক। (1) আমাদের এক বা একাধিক জনগোষ্ঠীর থেকে এলোমেলো নমুনা থাকার প্রয়োজন নেই — বাস্তবে আমরা সাধারণত এলোমেলোভাবে নমুনা করি না। (২) আমরা জনসংখ্যার দিক থেকে এই তথ্যগুলি খুব কমই ভাবি, এবং স্বাভাবিকতা বা সমকামিতা সম্পর্কে কিছু ধারণা করার দরকার নেই (৩) আমাদের নাল অনুমানের সাথে পরামিতিগুলির কোনও সম্পর্ক নেই, তবে এটি স্পষ্টতই বর্ণিত, যেমন, উদাহরণস্বরূপ, অনুমান করা যায় যে অংশগ্রহণকারীরা কীভাবে সম্পাদন করে তার উপর চিকিত্সার কোনও প্রভাব নেই we (4) যেহেতু আমরা জনসংখ্যার সাথে উদ্বিগ্ন নই, আমরা সেই জনগোষ্ঠীর বৈশিষ্ট্য (বা এমনকি পরীক্ষার) অনুমানের সাথেও উদ্বিগ্ন নই (5) আমরা কিছু গণনা করি না পরীক্ষার পরিসংখ্যানের ধরণের, তবে আমরা সেই পরিসংখ্যানকে টেবিলযুক্ত বিতরণগুলির সাথে তুলনা করি না। পরিবর্তে, আমরা বারবার দলগুলি জুড়ে ডেটা এলোমেলো করি এবং আমরা প্রতিটি র্যান্ডমাইজেশনের জন্য সম্পর্কিত পরিসংখ্যান গণনা করি আমরা আমাদের প্রাপ্ত ফলাফলের সাথে এটি তুলনা করি। ()) প্যারামেট্রিক টেস্টের চেয়েও বেশি, এলোমেলোকরণ পরীক্ষাগুলি চিকিত্সায় অংশগ্রহণকারীদের এলোমেলোভাবে নিয়োগের গুরুত্বের উপর জোর দেয় ""দেখতে

র্যান্ডমাইজেশন পরীক্ষার ধরণ যা খুব জনপ্রিয় perm যদি আমাদের নমুনার আকার 12 এবং 5 হয় তবে মোট অনুমান সম্ভব C(12,5) = 792। আমাদের নমুনার মাপ যদি 10 এবং 15 হয় তবে 3.2 মিলিয়নেরও বেশি ব্যবস্থা করা সম্ভব হত। এটি কম্পিউটিং চ্যালেঞ্জ: তাহলে কি? নমুনা । সম্ভাব্য বিন্যাসের মহাবিশ্ব যখন গণনা করতে খুব বিশাল হয় তবে কেন এই মহাবিশ্ব থেকে স্বতন্ত্রভাবে এবং এলোমেলোভাবে নমুনা ব্যবস্থা করা হচ্ছে না? এই সিরিজের নমুনাগুলির উপর পরীক্ষার পরিসংখ্যান বিতরণকে তারপরে টেবুলেটেড করা যেতে পারে, এর 'গড় এবং বৈচিত্র্য গণনা করা যেতে পারে, এবং অনুমান করা একটি অনুমান পরীক্ষার সাথে সম্পর্কিত ত্রুটি হার rate

পারমিটেশন টেস্ট

উইকিপিডিয়া অনুসারে "একটি পরিক্ষা পরীক্ষা (যাকে একটি র্যান্ডমাইজেশন পরীক্ষা , পুনরায় র্যান্ডমাইজেশন পরীক্ষা বা একটি সঠিক পরীক্ষাও বলা হয় ) এক প্রকার পরিসংখ্যানগত তাত্পর্য পরীক্ষা যা নাল অনুমানের অধীনে পরীক্ষার পরিসংখ্যান বিতরণ সমস্ত সম্ভাব্য মান গণনা করে প্রাপ্ত হয় পর্যবেক্ষণকৃত তথ্য পয়েন্টগুলিতে লেবেলের পুনঃব্যবস্থাপনার অধীনে পরীক্ষার পরিসংখ্যান সম্পর্কিত ।প্রদানের পরীক্ষাগুলি যে কোনও পরীক্ষার পরিসংখ্যানের জন্য জানা যায় বা না তা নির্বিশেষে বিদ্যমান থাকে। সুতরাং এই পরিসংখ্যানটি বেছে নিতে সর্বদা নির্দ্বিধায় থাকে যা অনুমান এবং বিকল্পের মধ্যে সর্বোত্তম বৈষম্যমূলক এবং যা ক্ষয়কে হ্রাস করে ""

পারমিটেশন এবং বুটস্ট্র্যাপের মধ্যে পার্থক্য হ'ল প্রতিস্থাপনের সাথে বুটস্ট্র্যাপ নমুনা এবং প্রতিস্থাপন ছাড়াই ক্রমের নমুনা । উভয় ক্ষেত্রেই, পর্যবেক্ষণগুলির সময় ক্রম নষ্ট হয়ে যায় এবং অতএব অস্থিরতা ক্লাস্টারিং নষ্ট হয় - এইভাবে নিশ্চিত করে যে নমুনাগুলি কোনও অস্থিরতা ক্লাস্টারিংয়ের নাল অনুমানের অধীনে রয়েছে।

ক্রমগুলি সর্বদা একই পর্যবেক্ষণগুলির মধ্যে থাকে তাই বুটস্ট্র্যাপের নমুনাগুলির চেয়ে এগুলি মূল ডেটার মতো like প্রত্যাশাটি হ'ল পারমিটেশন পরীক্ষাটি বুটস্ট্র্যাপ পরীক্ষার চেয়ে সংবেদনশীল হওয়া উচিত। অনুমতিগুলি অস্থিরতা ক্লাস্টারিং ধ্বংস করে তবে অন্য কোনও পরিবর্তনশীলতা যুক্ত করে না

পারমিটেশন বনাম বুটস্ট্র্যাপিংয়ের প্রশ্নটি দেখুন - " হাইপোথেসিসগুলি পরীক্ষা করার জন্য পারমিটেশন পরীক্ষাটি সেরা এবং আত্মবিশ্বাসের অন্তরগুলি অনুমান করার জন্য বুটস্ট্র্যাপিং সর্বোত্তম "।

সুতরাং এই ক্ষেত্রে ক্রমশক্তি সম্পাদন করতে আমরা কেবল replace = FALSEউপরের বুটস্ট্র্যাপ উদাহরণে পরিবর্তন করতে পারি ।

Yvar <- c(8,9,10,13,12, 14,18,12,8,9,   1,3,2,3,4)
     #generate 1000 bootstrap samples
       permutes <-list()
    for (i in 1:1000) 
       permutes[[i]] <- sample(Yvar,replace=FALSE)

একাধিক ভেরিয়েবলের ক্ষেত্রে, কেবল সারিগুলি বাছাই করা এবং ক্রমটি পুনর্বিবেচনা করলে কোনও পার্থক্য হবে না কারণ ডেটা একই থাকবে। সুতরাং আমরা y পরিবর্তনশীল রদবদল। কিছু কপালে কি আছে, কিন্তু আমি মনে করি আমরা প্রয়োজন হবে না না ডবল পুনর্বিন্যাস্ত উভয়ের xএবং y variables(যেমন করেছ)।

Yvar <- c(8,9,10,13,12, 14,18,12,8,9,   1,3,2,3,4)
Xvar <- c(rep("A", 5),  rep("B", 5),    rep("C", 5))
mydf <- data.frame (Yvar, Xvar)

 permt.samples <- list()
    for(i in 1:10) {
       t.yvar <- Yvar[ sample(length(Yvar), length(Yvar), replace=FALSE) ]
       b.df <- data.frame (Xvar, t.yvar) 
       permt.samples[[i]] <- b.df 
    }
    str(permt.samples)
    permt.samples[1]

কার্টো পদ্ধতিগুলি উপার্জন করুন

"মন্টি কার্লো পদ্ধতি (বা মন্টি কার্লো পরীক্ষা-নিরীক্ষা) হ'ল গণনা সংক্রান্ত অ্যালগরিদমগুলির একটি বিস্তৃত শ্রেণি যা সংখ্যার ফলাফল প্রাপ্তির জন্য বারবার এলোমেলো নমুনার উপর নির্ভর করে ; সাধারণত একটি অজানা সম্ভাব্য সত্তার বন্টন পাওয়ার জন্য একাধিকবার সিমুলেশন চালায় runs নামটি আসে কৌশলটির সাদৃশ্য থেকে খেলতে ও রেকর্ডিংয়ের কাজকে বাস্তব জুয়ার ক্যাসিনোতে ফলাফল দেয় Wikipedia " উইকিপিডিয়া দেখুন

"প্রয়োগ পরিসংখ্যানগুলিতে, মন্টি কার্লো পদ্ধতিগুলি সাধারণত দুটি উদ্দেশ্যে ব্যবহৃত হয়:

(1) বাস্তবের ডেটা শর্তে ছোট নমুনাগুলির জন্য প্রতিযোগিতামূলক পরিসংখ্যান তুলনা করা To যদিও টাইপ প্রথম ত্রুটি এবং পরিসংখ্যানের পাওয়ার বৈশিষ্ট্যগুলি asyptotic অবস্থার জন্য ক্লাসিকাল তাত্ত্বিক বিতরণগুলি (উদাহরণস্বরূপ, সাধারণ বক্ররেখা, কচির বিতরণ) থেকে প্রাপ্ত ডেটার জন্য গণনা করা যেতে পারে (i। ই, অসীম নমুনার আকার এবং স্বল্প চিকিত্সার প্রভাব) যেমন বিতরণ নেই।

(২) অ্যাসিপোটোটিক বিতরণের জন্য সমালোচনামূলক মানগুলির চেয়ে আরও নির্ভুল থাকা অবস্থায় অনুমানের পরীক্ষার (যেমন গণনা করা প্রায়শই অসম্ভব) যেমন সঠিক পরীক্ষার চেয়ে বেশি দক্ষ, হাইপোথিসিস টেস্টগুলির বাস্তবায়ন সরবরাহ করা।

মন্টে কার্লো পদ্ধতিগুলিও আনুমানিক র্যান্ডমাইজেশন এবং ক্রমান্বয়ে পরীক্ষার মধ্যে একটি সমঝোতা । একটি আনুমানিক র্যান্ডমাইজেশন পরীক্ষা সমস্ত আদেশের একটি নির্দিষ্ট উপসেটের উপর ভিত্তি করে তৈরি করা হয় (যার মধ্যে সম্ভাব্য বিপুল পরিমাণে গৃহকর্মী অন্তর্ভুক্ত থাকে যার অনুমতি বিবেচিত হয়েছে)। মন্টো কার্লো পদ্ধতির একটি নির্ধারিত সংখ্যার এলোমেলোভাবে আঁকা অনুমানের উপর ভিত্তি করে তৈরি করা হয়েছে ( কোন অনুক্রমটি ইতিমধ্যে নির্বাচিত হয়েছে কিনা তা ট্র্যাক না করার দক্ষতার জন্য - যদি কোনও আদেশ দুটিবার বা আরও বেশি বার আঁকানো হয় তবে যথাযথভাবে ক্ষুদ্র ক্ষতির বিনিময় ) ""

উভয় এমসি এবং বিন্যাস পরীক্ষা একদা সম্মিলিতভাবে বলা হয় র্যান্ডোমাইজেশন পরীক্ষা । পার্থক্যটি এমসিতে রয়েছে আমরা সম্ভাব্য সমস্ত সংমিশ্রণগুলি দেখতে ব্যবহার করে পরিবর্তনের নমুনাগুলি নমুনা করি ।

ক্রস বৈধতা

ক্রস বৈধকরণের বাইরে ধারণাটি হ'ল মডেলগুলিকে এমন ডেটা দিয়ে পরীক্ষা করা উচিত যা মডেলটির সাথে মানানসই ছিল না। ক্রস বৈধতা সম্ভবত প্রায়শই পূর্বাভাসের প্রসঙ্গে ব্যবহৃত হয় ।

"ক্রস-বৈধকরণ একটি ভবিষ্যদ্বাণীমূলক মডেলকে বৈধ করার জন্য একটি পরিসংখ্যান পদ্ধতি। ডেটা সাবসেটগুলি বৈধতা যাচাইকরণ সেট হিসাবে ব্যবহারের জন্য রাখা হয় ; একটি মডেল বাকী ডেটা (একটি প্রশিক্ষণ সেট) এর সাথে ফিট থাকে এবং বৈধতা সেটটির পূর্বাভাস দেওয়ার জন্য ব্যবহৃত হয় A গড় বৈধতা সেট জুড়ে ভবিষ্যদ্বাণীগুলির গুণমান পূর্বাভাসের যথাযথতার সামগ্রিক পরিমাপ দেয়।

ক্রস-বৈধতার এক ফর্ম একসাথে একক পর্যবেক্ষণ ছেড়ে দেয়; এটি জ্যাকনিফের মতো। অন্য, কে-ভাঁজ ক্রস-বৈধতা, ডেটা কে সাবটকে বিভক্ত করে; প্রত্যেকেই বৈধতা সেট হিসাবে পরিবর্তিত হয় "" উইকিপিডিয়া দেখুন Cross ক্রস বৈধতা সাধারণত পরিমাণগত ডেটা দিয়ে করা হয় You আপনি আপনার গুণগত (ফ্যাক্টর ডেটা) কে একরকম পরিমাণে রূপান্তর করতে পারেন কোনও রৈখিক মডেল ফিট করতে এবং এই মডেলটি পরীক্ষা করতে The নিম্নলিখিতটি সহজ হোল্ড-আউট কৌশল যেখানে মডেলের পূর্বাভাসের জন্য 50% ডেটা ব্যবহৃত হয় যখন বাকী পরীক্ষার জন্য ব্যবহৃত হয়। ধরা যাক Xvarমানটিও পরিবর্তনশীল হয়।

    Yvar <- c(8,9,10,13,12, 14,18,12,8,9,   1,3,2,3,4)
    Xvar <- c(rep(1, 5),  rep(2, 5),    rep(3, 5))
    mydf <- data.frame (Yvar, Xvar)
    training.id <- sample(1:nrow(mydf), round(nrow(mydf)/2,0), replace = FALSE)
    test.id <- setdiff(1:nrow(mydf), training.id)
   # training dataset 
    mydf.train <- mydf[training.id]

    #testing dataset 
    mydf.test <- mydf[test.id]

বুটস্ট্র্যাপ এবং অনুক্রমের পরীক্ষার বিপরীতে প্রশিক্ষণ ও পরীক্ষার জন্য ক্রস-বৈধতা ডেটাসেট আলাদা। নিম্নলিখিত চিত্রটি বিভিন্ন পদ্ধতিতে পুনর্নির্মাণের সংক্ষিপ্তসার দেখায়।

এখানে চিত্র বর্ণনা লিখুন

আশা করি এটা কিছুটা সাহায্য করবে।


23
এটি চিত্তাকর্ষক - এবং বিশেষত, কারণ এটি আপনার প্রথম উত্তর! আমি আশা করি আপনি এখানে অংশগ্রহণ চালিয়ে যাবেন এবং আমি আমাদের সাইটে আপনার ভবিষ্যতের অবদানের অপেক্ষায় রয়েছি।
হোবার

এই উত্তরটি যেমন একটি মহান চিত্র উত্তর। তবে কিছু লিঙ্ক পরিত্যক্ত বলে মনে হচ্ছে। লিঙ্কগুলি কোথায় রয়েছে সে সম্পর্কে কারও কি কোনও ধারণা আছে?
টিনটিনথং

6

আমার অবদান এখানে।

উপাত্ত

Yvar <- c(8,9,10,13,12,
          14,18,12,8,9,
          1,3,2,3,4)
Xvar <- rep(LETTERS[1:3], each=5)
mydf <- data.frame(Yvar, Xvar)

মন্টে কার্লো

আমি মন্টি কার্লোকে একটি (ফলাফল) এলোমেলো ভেরিয়েবলের বিতরণ পাওয়ার পদ্ধতি হিসাবে দেখছি যা অন্য (ইনপুট) এলোমেলো ভেরিয়েবলের ননড্রাইভিয়াল ফাংশনের ফলাফল। আমি বর্তমান আনোভা বিশ্লেষণের সাথে সাথেই কোনও ওভারল্যাপ দেখতে পাচ্ছি না, সম্ভবত অন্যান্য ফোরামের সদস্যরা তাদের ইনপুটটি এখানে দিতে পারেন।

বুটস্ট্র্যাপিং

উদ্দেশ্যটি হল পর্যবেক্ষণের নমুনা থেকে গণনা করা কোনও পরিসংখ্যানের অনিশ্চয়তার ধারণা পাওয়া। উদাহরণস্বরূপ: আমরা গণনা করতে পারি যে ইয়াওয়ারের নমুনাটির গড় পরিমাণ 8.4, তবে আমরা কতটা নিশ্চিত ইয়াওয়ারের জন্য জনসংখ্যার ? কৌশলটি হ'ল নমুনাটি জনসংখ্যা এবং নমুনাটি সেই নকল জনসংখ্যা থেকে বহুবার।

n <- 1000
bootstrap_means <- numeric(length=n)
for(i in 1:n){
   bootstrap_sample <- sample(x=Yvar, size=length(Yvar), replace=TRUE)
   bootstrap_means[i] <- mean(bootstrap_sample)
}
hist(bootstrap_means)

আমরা মাত্র নমুনা নিয়েছি এবং কোনও প্যারামেট্রিক বিতরণ অনুমান করি না। এটি ননপ্যারমেট্রিক বুটস্ট্র্যাপ । আপনি Xvar সাধারণত বিতরণ করা হয় উদাহরণস্বরূপ ধরে ধরে স্বাচ্ছন্দ্য বোধ করেন, আপনি rnorm(...)আনুমানিক গড় এবং মান বিচ্যুতি ব্যবহার করে একটি সাধারণ বিতরণ ( ) থেকে নমুনা নিতে পারেন , এটি প্যারামেট্রিক বুটস্ট্র্যাপ হবে

অন্যান্য ব্যবহারকারীরা সম্ভবত Xvarস্তরের প্রভাব মাপের ক্ষেত্রে বুটস্ট্র্যাপের অ্যাপ্লিকেশনগুলি দিতে পারেন ?

Jackknifing

জ্যাকনিফ কিছুটা পুরানো বলে মনে হচ্ছে। কেবলমাত্র সম্পূর্ণতার জন্য, আপনি এটি বুটস্ট্র্যাপের সাথে কম বা বেশি তুলনা করতে পারেন, তবে কৌশলটি এখানে রয়েছে যে আমরা যদি একটি পর্যবেক্ষণ ছেড়ে যাই (এবং প্রতিটি পর্যবেক্ষণের জন্য এটি পুনরাবৃত্তি করি) তবে কী ঘটে see

ক্রস বৈধতা

ক্রস-বৈধকরণে, আপনি আপনার (সাধারণত বড়) ডেটাসেটকে একটি প্রশিক্ষণ সেট এবং একটি বৈধকরণ সেটগুলিতে বিভক্ত করেন, এটি দেখার জন্য যে আপনার আনুমানিক মডেলটি কতটা কার্যকরভাবে বৈধতা সেটটিতে মানগুলি পূর্বাভাস দিতে সক্ষম। আমি ব্যক্তিগতভাবে এখনও আনোভাতে ক্রস-বৈধকরণের প্রয়োগ দেখিনি, তাই আমি এই অংশটি অন্যের কাছে রেখে যেতে পছন্দ করি to

র্যান্ডমাইজেশন / ক্রমুয়েশন পরীক্ষা

সতর্কতা অবলম্বন করুন, পরিভাষা একমত হয় না। র‌্যান্ডমাইজেশন পরীক্ষা এবং অনুমান পরীক্ষার মধ্যে পার্থক্য দেখুন ।

নাল হাইপোথিসিসটি হ'ল এ, বি এবং সি গ্রুপের জনগোষ্ঠীর মধ্যে কোনও পার্থক্য নেই, তাই আমরা Xvar এর 15 টি মানগুলির লেবেল এলোমেলোভাবে বিনিময় করব কিনা তা বিবেচ্য নয়। যদি প্রাথমিকভাবে পর্যবেক্ষণ করা F মান (বা অন্য কোনও পরিসংখ্যান) এলোমেলোভাবে লেবেল আদান-প্রদানের পরে প্রাপ্তদের সাথে একমত না হয়, তবে সম্ভবত এটি গুরুত্বপূর্ণ হয়েছিল, এবং নাল অনুমানটি প্রত্যাখ্যান করা যেতে পারে।

observed_F_value <- anova(lm(Yvar ~ Xvar))$"F value"[1]

n <- 10000
permutation_F_values <- numeric(length=n)

for(i in 1:n){
   # note: the sample function without extra parameters defaults to a permutation
   temp_fit <- anova(lm(Yvar ~ sample(Xvar)))
   permutation_F_values[i] <- temp_fit$"F value"[1]
}

hist(permutation_F_values, xlim=range(c(observed_F_value, permutation_F_values)))
abline(v=observed_F_value, lwd=3, col="red")
cat("P value: ", sum(permutation_F_values >= observed_F_value), "/", n, "\n", sep="")

বারলেখ

জটিল ডিজাইনের ক্ষেত্রে আপনি যেভাবে লেবেলগুলি পুনরায় স্বাক্ষর করবেন সে সম্পর্কে সতর্ক থাকুন। এছাড়াও নোট করুন যে অসম বৈকল্পিকতার ক্ষেত্রে, বিনিময়যোগ্যতার নাল অনুমানটি প্রথম স্থানে সত্য নয়, সুতরাং এই ক্রমবর্ধমান পরীক্ষাটি সঠিক হবে না।

এখানে আমরা স্পষ্টরূপে লেবেলের সমস্ত সম্ভাব্য ক্রমটি পেরোনোর ​​চেষ্টা করি নি , এটি পি-মানটির একটি মন্টি কার্লো অনুমান। ছোট ডেটাসেটের সাহায্যে আপনি সমস্ত সম্ভাব্য ক্রমবর্ধমান মাধ্যমে যেতে পারেন, তবে উপরের আর-কোডটি বুঝতে কিছুটা সহজ।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.