আমি বার বার একই এলোমেলো বীজ ব্যবহার করে পক্ষপাত তৈরি করছি?


31

আমি যে বিশ্লেষণের কাজটি করেছি তা প্রায় সব ক্ষেত্রেই আমি ব্যবহার করেছি:

set.seed(42) 

এটি গ্যালাক্সিতে হিচিকারের গাইডের প্রতি শ্রদ্ধা । তবে আমি ভাবছি আমি একই বীজ বার বার ব্যবহার করে পক্ষপাত তৈরি করছি কিনা।


9
আপনি কীভাবে বীজ ব্যবহার করবেন? আপনার সাধারণ ব্যবহারের ক্ষেত্রে নির্ভর করে উত্তরটি হ্যাঁ থেকে শুরু করে না পর্যন্ত রয়েছে।
মোমো

ব্র্যান্ডন, লোক যদি আপনাকে উত্তর দেয় তবে হ্যাঁ? তুমি কি করবে? আমি আতঙ্কিত বোধ করছি।
ttnphns

@ মোমো কেবল এই কথাটি বলি যে আমি এটি সর্বদা সেট করেছি, এটি ভুলে যাওয়ার এবং আমার ফলাফলগুলি পুনরুত্পাদন করতে অক্ষম হওয়ার ভয়ে। এটি স্বাধীন এবং বিভিন্ন ধরণের পরীক্ষা-নিরীক্ষা জুড়ে। আমি উভয় হ্যাঁ এবং কোনও ক্ষেত্রেই বোঝার প্রশংসা করব।
ব্র্যান্ডন বার্টেলসেন

@ttnphns এটিকে শেখা পাঠের মতো আচরণ করবেন?
ব্র্যান্ডন বার্টেলসেন

ফলাফলগুলি পুনরুত্পাদন করার উদ্দেশ্যে এটি ঠিক আছে, তারা পক্ষপাতদুষ্ট কিনা। কিন্তু যদি না সেই বীজের অধীনে উত্পাদিত আপনার নমুনার আকার (স্বতন্ত্র পরীক্ষার সংখ্যা বা পর্যবেক্ষণের সংখ্যা) অপরিহার্যতার দিকে না যায়, কিছু পক্ষপাত অব্যাহত থাকবে। আরও দুটি গুরুত্বপূর্ণ বিষয় লক্ষ্য করুন: আমরা সাধারণত ছদ্ম র্যান্ডম জেনারেটর ব্যবহার করি যা আপনার জন্য পরিণতি জটিল করে তোলে। ফলাফলগুলি কী ধরণের র্যান্ডম জেনারেটর আপনি ব্যবহার করেন তার উপরও নির্ভর করে (উদাঃ মের্সেন টুইস্টার বা কী?)। সুতরাং, এলোমেলোভাবে কিছু মারাত্মক পরীক্ষার জন্য এলোমেলোভাবে বীজ সেট করা ভাল।
ttnphns

উত্তর:


31

আরএনজি কোনও ভাল হলে কোনও পক্ষপাত নেই। তবে সর্বদা একই বীজ ব্যবহার করে আপনি নিজের কেরিয়ারে যে সমস্ত সিমুলেশন করেন তার মধ্যে একটি দৃ inter় আন্তঃনির্ভরতা তৈরি করে থাকেন। এটি একটি অস্বাভাবিক ধরনের ঝুঁকি তৈরি করে।

  • প্রতিবার একই বীজ ব্যবহার করে, হয় আপনি সর্বদা একটি সুন্দর সিউডোরেন্ডম ক্রম পেয়ে যাচ্ছেন এবং আপনার সমস্ত কাজ ভাল চলছে - খুব কম তবে শূন্যের সম্ভাবনা সহ - আপনি সর্বদা খুব খারাপ ক্রম ব্যবহার করছেন এবং আপনার অনুকরণগুলি নয় অন্তর্নিহিত বিতরণগুলির প্রতিনিধি হিসাবে আপনার মনে হয় তারা হতে পারে। হয় আপনার সমস্ত কাজ বেশ ভাল বা এটি সমস্ত বেশ লম্পট!

  • প্রতিটি সময় সত্যিকারের এলোমেলো শুরুর বীজ ব্যবহার করে এর বিপরীতে। একবার খুব দীর্ঘ সময়ে আপনি এলোমেলো মানের একটি ক্রম পেতে পারেন যা আপনি যে মডেলিংয়ের বিতরণটির প্রতিনিধিত্ব করেন না, তবে বেশিরভাগ সময় আপনি ঠিক থাকবেন। আপনি যদি নিজের কাজটি (নতুন বীজ সহ) পুনরুত্পাদন করার চেষ্টা করেন না, তবে ক্যারিয়ারে একবার বা দুবার আপনি বিভ্রান্তিকর ফলাফল পেতে পারেন, তবে বেশিরভাগ সময় আপনি ঠিক থাকবেন।

একটি সহজ এবং সুস্পষ্ট নিরাময় রয়েছে: সর্বদা, সর্বদা অন্য বীজের সাথে পুনরায় চালু করে আপনার কাজটি পরীক্ষা করে দেখুন। এটি কার্যত অসম্ভব যে দুটি বীজ দুর্ঘটনাক্রমে একইভাবে বিভ্রান্তিকর ফলাফল দেবে।

অন্যদিকে, একটি সুপরিচিত "ব্যক্তিগত বীজ" থাকার ক্ষেত্রে অসাধারণ যোগ্যতা রয়েছে: এটি বিশ্বকে দেখায় যে আপনি সৎ হচ্ছেন। সিমুলেশনগুলির সাথে মিথ্যা বলার একটি ধূর্ত এবং সূক্ষ্ম উপায় হ'ল এগুলি পুনরাবৃত্তি করা যতক্ষণ না তারা আপনাকে পূর্বনির্ধারিত ফলাফল দেয়। এখানে R"প্রদর্শন" করার একটি কার্যকরী উদাহরণ এখানেও যে একটি ন্যায্য মুদ্রা প্রায় অর্ধেকেরও বেশি সময় নেমে যাওয়ার সম্ভাবনা রয়েছে:

n.flips <- 100
seeds <- 1:10^3
#
# Run some preliminary simulations.
#
results <- sapply(seeds, function(seed) {
  set.seed(seed)
  mean(runif(n.flips) > 1/2)
})
#
# Now do the "real" simulation.
#
seed <- seeds[which.max(results)]
set.seed(seed)
x <- mean(runif(n.flips) > 1/2)
z <- (x - 1/2) * 2 * sqrt(n)
cat("Mean:", x, "Z:", z, "p-value:", pnorm(z, lower.tail=FALSE), "\n")

বীজের বিস্তৃত পরিসীমাটি দেখে ( থেকে ), আমি একটি জন্মগত এক খুঁজে পেতে সক্ষম হয়েছি: 218134. আপনি যখন বীজ হিসাবে এটি শুরু করেন, ফলস্বরূপ সিমুলেটেড মুদ্রা উল্টায় মাথা! এটি ( ) এর প্রত্যাশিত মান থেকে উল্লেখযোগ্যভাবে পৃথক ।11061007550পি=0.000004

এর প্রভাবগুলি আকর্ষণীয় এবং গুরুত্বপূর্ণ হতে পারে। উদাহরণস্বরূপ, যদি আমি আগেই জানতাম যে আমি যাকে এলোমেলোভাবে ডাবল-ব্লাইন্ড নিয়ন্ত্রিত পরীক্ষায় নিয়োগ দেব এবং কোন ক্রমে (যা আমি কোনও বিশ্ববিদ্যালয়ের অধ্যাপক হিসাবে বন্দী আন্ডারগ্রাজুয়েট বা ল্যাব ইঁদুরগুলির একটি দল পরীক্ষা করে পরীক্ষা করতে সক্ষম হতে পারি) তবে আগেই আমি এমন একটি বীজ সন্ধানের জন্য এই জাতীয় সিমুলেশন চালাতে পারতাম যা শিক্ষার্থীদের আমার পছন্দ অনুযায়ী "প্রমাণিত" করার পক্ষে প্রত্যাখ্যান করে groups আমি আগে আমার পরীক্ষামূলক পরিকল্পনায় পরিকল্পিত আদেশ এবং সেই বীজকে অন্তর্ভুক্ত করতে পারিপরীক্ষাটি পরিচালনা করে, এর ফলে এমন একটি প্রক্রিয়া তৈরি হয় যা কোনও সমালোচক পর্যালোচক কখনও অভিশংসন করতে পারে না - তবে তবুও ডেকটি আমার পক্ষে স্ট্যাক করে। (আমি বিশ্বাস করি যে সিডোসায়েন্সের পুরো শাখা রয়েছে যা বিশ্বাসযোগ্যতা অর্জনের জন্য এই কৌশলটির কিছু বৈকল্পিক ব্যবহার করে you আপনি কি বিশ্বাস করবেন যে আমি আসলে কম্পিউটার নিয়ন্ত্রণ করতে ইএসপি ব্যবহার করেছি? আমিও আপনার সাথে খুব দূরত্বে এটি করতে পারি!)

যার ডিফল্ট বীজ পরিচিত কেউ এই গেমটি খেলতে পারবেন না।

আমার পোস্টের বৃহত অনুপাত হিসাবে আমার ব্যক্তিগত বীজ 17 টি (বর্তমানে বীজ সেট করে এমন 161 টি পোস্টের মধ্যে 155 টি এটি ব্যবহার করে) st ইন Rএটা, সঙ্গে কারণ (যেমন এটি সক্রিয় আউট) সবচেয়ে ছোট ডেটাসেট আমি এটা দিয়ে তৈরি একটি শক্তিশালী Outlier আছে কাজ একটি কঠিন বীজ। এটি কোনও খারাপ বৈশিষ্ট্য নয় ...।


5
আপনি কি সেই সম্পত্তিটির কারণে বাছাই করেছেন , নাকি এটি একটি দুর্দান্ত কাকতালীয় ঘটনা? 17
ম্যাথু ড্রুরি

4
@ ম্যাথেজ এটি উচ্চ বিদ্যালয়ের একদল শিক্ষার্থীর সাথে গণিতে আগ্রহী যারা আবার এক গ্রীষ্মে নম্বর তত্ত্বটি পড়াচ্ছিল with একটি, যেমনটি আমি স্মরণ করি, মজাদারভাবে প্রত্নতাত্ত্বিক পূর্ণসংখ্যা হিসাবে 17 টি প্রস্তাব করেছিলেন এবং আমাদের গোষ্ঠী খুব দ্রুত এর জন্য অনেকগুলি যুক্তি খুঁজে পেয়েছিল, কিছু গাণিতিক আগ্রহ এবং কিছু নিছক হাস্যকর (কমপক্ষে একটি গণিতের নার্দের দৃষ্টিভঙ্গি থেকে)। এই সংখ্যার আকর্ষণীয় গাণিতিক এবং historicalতিহাসিক বৈশিষ্ট্য রয়েছে যা এটি মনোযোগের জন্য এককভাবে তৈরি করে, যেমন গৌসের 17-গনের গঠনমূলকতার আবিষ্কার। Rএর আচরণ নিখুঁতভাবে দুর্ঘটনাজনিত।
whuber

4
@ ম্যাথেজ বিটিডাব্লু, আমার বীজ ব্র্যান্ডনের সাথে সম্পর্কিত: অবধি ১ 42 বা তারও কম আকারের স্বতন্ত্র ইন্টিগ্রাল প্রাইমগুলির জন্য ৪২ টি অর্ডার দেওয়া আছে :-)।
হোবার

8
আমি পার্টি কৌতুক হিসাবে শাসক এবং কম্পাসের সাথে একটি 17-গন নির্মাণ করতে সক্ষম হয়েছি। ওয়েল, আমি অনুমান করি দলের সঠিক সংজ্ঞাটির জন্য ...
ম্যাথু ড্রুরি

1
@ ম্যাথেজডুড়ি তারা আপনার পার্টিতে বোতল বোদ্ধেন।
ব্র্যান্ডন বার্টেলসেন

2

উপরে উল্লিখিত হিসাবে, একটি ভাল আরএনজি একই বীজ ব্যবহার করে পক্ষপাত তৈরি করবে না। তবে ফলাফলের মধ্যে একটি সম্পর্ক থাকবে। (একই সিউডো-এলোমেলো সংখ্যা প্রতিটি গণনা শুরু করবে)) এই বিষয়টি গণিতের বিষয় নয় কিনা।

একই বীজ ব্যবহার করা সময়ে সময়ে ঠিক থাকে: ডিবাগিংয়ের জন্য বা যখন আপনি জানেন যে আপনি সম্পর্কযুক্ত ফলাফল চান।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.