আমি যে বিশ্লেষণের কাজটি করেছি তা প্রায় সব ক্ষেত্রেই আমি ব্যবহার করেছি:
set.seed(42)
এটি গ্যালাক্সিতে হিচিকারের গাইডের প্রতি শ্রদ্ধা । তবে আমি ভাবছি আমি একই বীজ বার বার ব্যবহার করে পক্ষপাত তৈরি করছি কিনা।
আমি যে বিশ্লেষণের কাজটি করেছি তা প্রায় সব ক্ষেত্রেই আমি ব্যবহার করেছি:
set.seed(42)
এটি গ্যালাক্সিতে হিচিকারের গাইডের প্রতি শ্রদ্ধা । তবে আমি ভাবছি আমি একই বীজ বার বার ব্যবহার করে পক্ষপাত তৈরি করছি কিনা।
উত্তর:
আরএনজি কোনও ভাল হলে কোনও পক্ষপাত নেই। তবে সর্বদা একই বীজ ব্যবহার করে আপনি নিজের কেরিয়ারে যে সমস্ত সিমুলেশন করেন তার মধ্যে একটি দৃ inter় আন্তঃনির্ভরতা তৈরি করে থাকেন। এটি একটি অস্বাভাবিক ধরনের ঝুঁকি তৈরি করে।
প্রতিবার একই বীজ ব্যবহার করে, হয় আপনি সর্বদা একটি সুন্দর সিউডোরেন্ডম ক্রম পেয়ে যাচ্ছেন এবং আপনার সমস্ত কাজ ভাল চলছে - খুব কম তবে শূন্যের সম্ভাবনা সহ - আপনি সর্বদা খুব খারাপ ক্রম ব্যবহার করছেন এবং আপনার অনুকরণগুলি নয় অন্তর্নিহিত বিতরণগুলির প্রতিনিধি হিসাবে আপনার মনে হয় তারা হতে পারে। হয় আপনার সমস্ত কাজ বেশ ভাল বা এটি সমস্ত বেশ লম্পট!
প্রতিটি সময় সত্যিকারের এলোমেলো শুরুর বীজ ব্যবহার করে এর বিপরীতে। একবার খুব দীর্ঘ সময়ে আপনি এলোমেলো মানের একটি ক্রম পেতে পারেন যা আপনি যে মডেলিংয়ের বিতরণটির প্রতিনিধিত্ব করেন না, তবে বেশিরভাগ সময় আপনি ঠিক থাকবেন। আপনি যদি নিজের কাজটি (নতুন বীজ সহ) পুনরুত্পাদন করার চেষ্টা করেন না, তবে ক্যারিয়ারে একবার বা দুবার আপনি বিভ্রান্তিকর ফলাফল পেতে পারেন, তবে বেশিরভাগ সময় আপনি ঠিক থাকবেন।
একটি সহজ এবং সুস্পষ্ট নিরাময় রয়েছে: সর্বদা, সর্বদা অন্য বীজের সাথে পুনরায় চালু করে আপনার কাজটি পরীক্ষা করে দেখুন। এটি কার্যত অসম্ভব যে দুটি বীজ দুর্ঘটনাক্রমে একইভাবে বিভ্রান্তিকর ফলাফল দেবে।
অন্যদিকে, একটি সুপরিচিত "ব্যক্তিগত বীজ" থাকার ক্ষেত্রে অসাধারণ যোগ্যতা রয়েছে: এটি বিশ্বকে দেখায় যে আপনি সৎ হচ্ছেন। সিমুলেশনগুলির সাথে মিথ্যা বলার একটি ধূর্ত এবং সূক্ষ্ম উপায় হ'ল এগুলি পুনরাবৃত্তি করা যতক্ষণ না তারা আপনাকে পূর্বনির্ধারিত ফলাফল দেয়। এখানে R
"প্রদর্শন" করার একটি কার্যকরী উদাহরণ এখানেও যে একটি ন্যায্য মুদ্রা প্রায় অর্ধেকেরও বেশি সময় নেমে যাওয়ার সম্ভাবনা রয়েছে:
n.flips <- 100
seeds <- 1:10^3
#
# Run some preliminary simulations.
#
results <- sapply(seeds, function(seed) {
set.seed(seed)
mean(runif(n.flips) > 1/2)
})
#
# Now do the "real" simulation.
#
seed <- seeds[which.max(results)]
set.seed(seed)
x <- mean(runif(n.flips) > 1/2)
z <- (x - 1/2) * 2 * sqrt(n)
cat("Mean:", x, "Z:", z, "p-value:", pnorm(z, lower.tail=FALSE), "\n")
বীজের বিস্তৃত পরিসীমাটি দেখে ( থেকে ), আমি একটি জন্মগত এক খুঁজে পেতে সক্ষম হয়েছি: 218134. আপনি যখন বীজ হিসাবে এটি শুরু করেন, ফলস্বরূপ সিমুলেটেড মুদ্রা উল্টায় মাথা! এটি ( ) এর প্রত্যাশিত মান থেকে উল্লেখযোগ্যভাবে পৃথক ।
এর প্রভাবগুলি আকর্ষণীয় এবং গুরুত্বপূর্ণ হতে পারে। উদাহরণস্বরূপ, যদি আমি আগেই জানতাম যে আমি যাকে এলোমেলোভাবে ডাবল-ব্লাইন্ড নিয়ন্ত্রিত পরীক্ষায় নিয়োগ দেব এবং কোন ক্রমে (যা আমি কোনও বিশ্ববিদ্যালয়ের অধ্যাপক হিসাবে বন্দী আন্ডারগ্রাজুয়েট বা ল্যাব ইঁদুরগুলির একটি দল পরীক্ষা করে পরীক্ষা করতে সক্ষম হতে পারি) তবে আগেই আমি এমন একটি বীজ সন্ধানের জন্য এই জাতীয় সিমুলেশন চালাতে পারতাম যা শিক্ষার্থীদের আমার পছন্দ অনুযায়ী "প্রমাণিত" করার পক্ষে প্রত্যাখ্যান করে groups আমি আগে আমার পরীক্ষামূলক পরিকল্পনায় পরিকল্পিত আদেশ এবং সেই বীজকে অন্তর্ভুক্ত করতে পারিপরীক্ষাটি পরিচালনা করে, এর ফলে এমন একটি প্রক্রিয়া তৈরি হয় যা কোনও সমালোচক পর্যালোচক কখনও অভিশংসন করতে পারে না - তবে তবুও ডেকটি আমার পক্ষে স্ট্যাক করে। (আমি বিশ্বাস করি যে সিডোসায়েন্সের পুরো শাখা রয়েছে যা বিশ্বাসযোগ্যতা অর্জনের জন্য এই কৌশলটির কিছু বৈকল্পিক ব্যবহার করে you আপনি কি বিশ্বাস করবেন যে আমি আসলে কম্পিউটার নিয়ন্ত্রণ করতে ইএসপি ব্যবহার করেছি? আমিও আপনার সাথে খুব দূরত্বে এটি করতে পারি!)
যার ডিফল্ট বীজ পরিচিত কেউ এই গেমটি খেলতে পারবেন না।
আমার পোস্টের বৃহত অনুপাত হিসাবে আমার ব্যক্তিগত বীজ 17 টি (বর্তমানে বীজ সেট করে এমন 161 টি পোস্টের মধ্যে 155 টি এটি ব্যবহার করে) st ইন R
এটা, সঙ্গে কারণ (যেমন এটি সক্রিয় আউট) সবচেয়ে ছোট ডেটাসেট আমি এটা দিয়ে তৈরি একটি শক্তিশালী Outlier আছে কাজ একটি কঠিন বীজ। এটি কোনও খারাপ বৈশিষ্ট্য নয় ...।
R
এর আচরণ নিখুঁতভাবে দুর্ঘটনাজনিত।
উপরে উল্লিখিত হিসাবে, একটি ভাল আরএনজি একই বীজ ব্যবহার করে পক্ষপাত তৈরি করবে না। তবে ফলাফলের মধ্যে একটি সম্পর্ক থাকবে। (একই সিউডো-এলোমেলো সংখ্যা প্রতিটি গণনা শুরু করবে)) এই বিষয়টি গণিতের বিষয় নয় কিনা।
একই বীজ ব্যবহার করা সময়ে সময়ে ঠিক থাকে: ডিবাগিংয়ের জন্য বা যখন আপনি জানেন যে আপনি সম্পর্কযুক্ত ফলাফল চান।