এ / বি পরীক্ষার জন্য কোন পরিসংখ্যান পরীক্ষা করতে হবে?


12

আমাদের কাছে দুটি করে 1000 টি নমুনা রয়েছে। আমরা প্রতিটি গোষ্ঠীতে 2 পরিমাণ পরিমাপ করি। প্রথমটি একটি বাইনারি পরিবর্তনশীল। দ্বিতীয়টি একটি আসল সংখ্যা যা ভারী লেজ বিতরণ অনুসরণ করে। আমরা প্রতিটি মেট্রিকের জন্য কোহর্ট সেরা সঞ্চালন করে তা মূল্যায়ন করতে চাই। নির্বাচনের জন্য প্রচুর পরিসংখ্যানগত পরীক্ষা রয়েছে: লোকেরা জেড-টেস্টের পরামর্শ দেয়, অন্যরা টি-টেস্ট ব্যবহার করে এবং অন্যেরা মান – হুইটনি ইউ suggest

  • আমাদের ক্ষেত্রে প্রতিটি মেট্রিকের জন্য আমাদের কোন পরীক্ষা বা পরীক্ষাগুলি বেছে নেওয়া উচিত?
  • যদি একটি পরীক্ষা কোহোর্টস এবং কিছু অন্যান্য পরীক্ষার মধ্যে উল্লেখযোগ্য পার্থক্যের প্রস্তাব দেয় তবে কী ঘটে?

উত্তর:


12

আপনার দুটি মেট্রিক 1) বাইনারি এবং 2) ভারী লেজযুক্ত দেওয়া, আপনার টি-পরীক্ষা এড়ানো উচিত যা সাধারণ বিতরণ অনুমান করে।

আমি মনে করি মান-হুইটনি ইউ আপনার সেরা পছন্দ এবং আপনার ডিস্ট্রিবিউশনগুলি সাধারণ-সাধারণ থাকলেও যথেষ্ট দক্ষ হওয়া উচিত।

আপনার দ্বিতীয় প্রশ্ন সম্পর্কে:

যদি একটি পরীক্ষা কোহোর্টস এবং কিছু অন্যান্য পরীক্ষার মধ্যে উল্লেখযোগ্য পার্থক্যের প্রস্তাব দেয় তবে কী ঘটে?

যদি পরিসংখ্যানগত পার্থক্য সীমান্তরেখা হয় এবং ডেটাতে "অগোছালো" নমুনা বিতরণ থাকে তবে এটি অস্বাভাবিক নয়। এই পরিস্থিতির জন্য বিশ্লেষককে প্রতিটি পরিসংখ্যানগত পরীক্ষার সমস্ত অনুমান এবং সীমাবদ্ধতার বিষয়টি যত্ন সহকারে বিবেচনা করা এবং পরিসংখ্যান পরীক্ষায় সর্বাধিক ওজন দেওয়া উচিত যা অনুমানের লঙ্ঘনের সর্বনিম্ন সংখ্যা রয়েছে।

সাধারণ বিতরণের ধারণা গ্রহণ করুন। স্বাভাবিকতার জন্য বিভিন্ন পরীক্ষা আছে, তবে এটি গল্পের শেষ নয়। কিছু টেস্টগুলি স্বাভাবিকতা থেকে কিছুটা বিচ্যুতি থাকলেও প্রতিসম বিতরণগুলিতে বেশ ভাল কাজ করে তবে স্কু বিতরণে ভাল কাজ করে না।

থাম্বের একটি সাধারণ নিয়ম হিসাবে, আমি আপনাকে পরামর্শ দিচ্ছি যে কোনও ধরণের অনুমান যে স্পষ্টভাবে লঙ্ঘিত হয়েছে সেখানে আপনার কোনও পরীক্ষা পরিচালনা করা উচিত নয়।

সম্পাদনা: দ্বিতীয় পরিবর্তনশীলটির জন্য, রূপান্তরটি অর্ডার-সংরক্ষণের অবধি যতক্ষণ ট্রান্সফর্মটি অর্ডার-সংরক্ষণ করা হয় ততক্ষণ সাধারণভাবে বিতরণ করা (বা কমপক্ষে কাছাকাছি) এমনটি রূপান্তর করা সম্ভব হয়। আপনার ভাল আত্মবিশ্বাস থাকা দরকার যে রূপান্তরটি উভয় সংঘের জন্য একটি সাধারণ বিতরণ দেয়। আপনি যদি লগ-সাধারণ বিতরণে দ্বিতীয় পরিবর্তনশীল ফিট করেন তবে লগ ফাংশন এটিকে একটি সাধারণ বিতরণে রূপান্তরিত করে। তবে যদি বিতরণটি পেরেটো (পাওয়ার আইন) হয় তবে সাধারণ বিতরণে কোনও রূপান্তর হয় না।

সম্পাদনা: এই মন্তব্যে যেমন পরামর্শ দেওয়া হয়েছে , আপনার অবশ্যই বায়েশিয়ান অনুমানটি টি-টেস্টিং এবং অন্যান্য নাল হাইপোথিসিসের গুরুত্বপূর্বক পরীক্ষার (এনএইচএসটি) বিকল্প হিসাবে বিবেচনা করা উচিত ।


তথ্যের জন্য ধন্যবাদ। আমি যথেষ্ট পরিষ্কার ছিল না, আমার দুটি পরিমাণ রয়েছে যার একটি বাইনারি এবং অন্যটি ভারী লেজ বিতরণের পরে আসল সংখ্যা। আমি এটি স্পষ্ট করতে প্রশ্ন সম্পাদনা করেছি।
ilasfl

হ্যাঁ, আমি মনে করি আমি বুঝতে পেরেছি। আপনি একবার বাইনারি ভেরিয়েবল এবং একবার আসল ভেরিয়েবল (ভারী লেজযুক্ত বিতরণ) এর উপর পরীক্ষা দুটি চালাতে চান। আমি দুজনের জন্য মান-হুইটনি ইউ চালানোর পরামর্শ দিচ্ছি।

কেন একটি মান-হুইটনি বাইনারি ডেটার জন্য উপযুক্ত হবে?
গ্লেন_বি -রিনস্টেট মনিকা

মান-হুইটনি ইউ দুটি মান (অর্থাত্ বাইনারি) সহ বিচ্ছিন্ন বিতরণ সহ অ-স্বাভাবিক বিতরণের জন্য কার্যকর। যদি সমস্ত ডেটা বাইনারি হয় তবে সম্ভবত অন্য একটি পরীক্ষা আরও ভাল কাজ করবে।
মিঃ মেরিটোলজি

কেউ সত্য কিনা এটি নিশ্চিত করতে পারে? ...

7

আসল-মূল্যবান ডেটার জন্য, আপনি নিজের ডেটার বুটস্ট্র্যাপের উপর ভিত্তি করে নিজের পরীক্ষা পরিসংখ্যান তৈরির বিষয়েও বিবেচনা করতে চাইতে পারেন। আপনি যখন অ-সাধারণ জনসংখ্যা বিতরণ নিয়ে কাজ করছেন বা কোনও প্যারামিটারের সাথে একটি আস্থার ব্যবধান বিকাশের চেষ্টা করছেন যাতে কোনও সুবিধাজনক বিশ্লেষণাত্মক সমাধান না থাকে তখন এই পদ্ধতির সঠিক ফলাফল পাওয়া যায়। (পূর্বেরটি আপনার ক্ষেত্রে সত্য true আমি কেবল প্রসঙ্গের জন্য পরবর্তীটি উল্লেখ করি))

আপনার আসল মূল্যবান ডেটার জন্য, আপনি নিম্নলিখিতগুলি করতে চাই:

  1. আপনার দুটি গোছা পুল।
  2. পুল থেকে, প্রতিস্থাপন সহ 1000 টি উপাদানের দুটি গ্রুপের নমুনা করুন।
  3. দুটি গ্রুপের মধ্যে নমুনা গড়ের পার্থক্য গণনা করুন।
  4. এই পার্থক্যগুলির বিতরণ বিকাশ করতে কয়েক হাজার বার 2 এবং 3 ধাপ পুনরাবৃত্তি করুন।

একবার আপনি এই বিতরণটি পেয়ে গেলে আপনার প্রকৃত নমুনাগুলির জন্য পার্থক্য গণনা করুন এবং একটি পি-মান গণনা করুন।


ধন্যবাদ, সুতরাং আপনি একটি বিতরণ শেষ, যা কিছু গড় এবং স্ট্যান্ডার্ড বিচ্যুতি সঙ্গে স্বাভাবিক হওয়া উচিত। আপনি কীভাবে সেই থেকে পি-মানটি গণনা করবেন এবং বিজয়ী (যদি সেখানে থাকে) কে সিদ্ধান্ত নিতে আত্মবিশ্বাসের ব্যবধানগুলি হতে পারে?
ilasfl

বিতরণ অগত্যা স্বাভাবিক হবে না। এটি যেটি থেকে নমুনা হয়েছিল তা মোটামুটি বিতরণ করতে হবে। এটি বুটস্ট্র্যাপ ব্যবহারের সৌন্দর্য। যাই হোক না কেন, আপনি আপনার আসল ফলাফল থেকে আপনার পরীক্ষার পরিসংখ্যান গণনা করে একটি পি-মান পাবেন। অর্থাত্ প্রতিটি গোষ্ঠীর মাধ্যমের পার্থক্য। তারপরে সেই সংখ্যাটি বিতরণের সাথে তুলনা করুন। পার্সেন্টাইলটি আপনি পাবেন পার্থক্যগতভাবে একতরফা পরীক্ষার জন্য আপনার পি-মান।
নাথান গোল্ড

4
নাথান যা বর্ণনা করছেন তা বায়েশিয়ার তাত্পর্য পরীক্ষার পদ্ধতিগুলিরও ভিত্তি। আমি বায়েশিয়ান অনুমান টি-টেস্ট (সেরা) পন্থাটি ব্যবহার করেছি (এবং বর্তমানে ব্যবহার করছি) । আপনি যদি কোনও পুলিং পদ্ধতির প্রয়োগের পরিকল্পনা করেন তবে আপনার সেই কাঠামোটি দেখে নেওয়া উচিত।
cwharland

0

মিঃ মেরিটরিওলজির উত্তরটি আমি দ্বিতীয় @ আসলে আমি ভাবছিলাম যে এমডব্লিউইউ পরীক্ষাটি স্বাধীন অনুপাতের পরীক্ষার চেয়ে কম শক্তিশালী হবে, যেহেতু আমি যে পাঠ্যপুস্তকগুলি থেকে শিখেছি এবং শিখিয়েছি তা বলেছিল যে এমডাব্লুইউ কেবলমাত্র অর্ডিনাল (বা অন্তর / অনুপাত) ডেটাতে প্রয়োগ করা যেতে পারে।

তবে আমার সিমুলেশন ফলাফলগুলি, নীচে প্লট করা হয়েছে যে এমডাব্লুইউ পরীক্ষাটি অনুপাত পরীক্ষার চেয়ে কিছুটা বেশি শক্তিশালী, যখন টাইপ আই ত্রুটি ভালভাবে নিয়ন্ত্রণ করে (গ্রুপ 1 = 0.50 এর জনসংখ্যার অনুপাতে)।

এখানে চিত্র বর্ণনা লিখুন

গ্রুপ 2 এর জনসংখ্যার অনুপাত 0.50 রাখা হয়েছে। প্রতিটি পয়েন্টে পুনরাবৃত্তির সংখ্যা 10,000 ইয়েটের সংশোধন না করে আমি সিমুলেশনটি পুনরাবৃত্তি করেছি তবে ফলাফলগুলি একই ছিল।

library(reshape)

MakeBinaryData <- function(n1, n2, p1){
  y <- c(rbinom(n1, 1, p1), 
        rbinom(n2, 1, 0.5))
  g_f <- factor(c(rep("g1", n1), rep("g2", n2)))
  d <- data.frame(y, g_f)
  return(d)
}

GetPower <- function(n_iter, n1, n2, p1, alpha=0.05, type="proportion", ...){
  if(type=="proportion") {
    p_v <- replicate(n_iter, prop.test(table(MakeBinaryData(n1, n1, p1)), ...)$p.value)
  }

  if(type=="MWU") {
    p_v <- replicate(n_iter, wilcox.test(y~g_f, data=MakeBinaryData(n1, n1, p1))$p.value)
  }

  empirical_power <- sum(p_v<alpha)/n_iter
  return(empirical_power)
}

p1_v <- seq(0.5, 0.6, 0.01)
set.seed(1)
power_proptest <- sapply(p1_v, function(x) GetPower(10000, 1000, 1000, x))
power_mwu <- sapply(p1_v, function(x) GetPower(10000, 1000, 1000, x, type="MWU"))

আপনার ফলাফলের চিত্রটি সমস্ত কালো
ওকার
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.