স্বাভাবিকতা লঙ্ঘনের ডিগ্রির একটি ভাল সূচক কী এবং সেই সূচকের সাথে কোন বর্ণনামূলক লেবেল সংযুক্ত থাকতে পারে?


12

প্রসঙ্গ:

আগের প্রশ্নে @ রবি প্রায় ie০০ টি ক্ষেত্রে একটি গবেষণায় জিজ্ঞাসা করেছিলেন কেন স্বাভাবিকতার পরীক্ষাগুলি উল্লেখযোগ্য অ-স্বাভাবিকতার প্রস্তাব দেয় তবে প্লটগুলি স্বাভাবিক বিতরণের পরামর্শ দেয় । বেশিরভাগ লোক এই বিষয়টি তৈরি করেছিলেন যে স্বাভাবিকতার তাত্পর্য পরীক্ষা খুব কার্যকর নয়। ছোট নমুনাগুলি সহ, এই ধরনের পরীক্ষাগুলিতে স্বাভাবিকতার হালকা লঙ্ঘন সনাক্ত করতে খুব বেশি ক্ষমতা থাকে না এবং বড় নমুনাগুলি সহ, তারা স্বাভাবিকতার লঙ্ঘনগুলি সনাক্ত করবে যা উদ্বেগের বিষয় নয় যথেষ্ট are

আমার কাছে মনে হচ্ছে এই সমস্যাটি তাত্পর্য এবং প্রভাবের আকারের তাত্পর্যগুলির সাথে সমান। আপনি যদি কেবলমাত্র তাত্পর্য পরীক্ষাগুলিতে মনোনিবেশ করেন, যখন আপনার কাছে বড় নমুনা থাকে, আপনি ব্যবহারিক উদ্দেশ্যগুলির জন্য অপ্রাসঙ্গিক এমন ছোট প্রভাবগুলি সনাক্ত করতে পারেন এবং ছোট নমুনাগুলির সাথে আপনার পর্যাপ্ত শক্তি নেই।

কয়েকটি উদাহরণে আমি এমনকি পাঠ্যপুস্তকগুলিকে লোকদের পরামর্শ দিয়েছি যে আপনার কাছে একটি "খুব বড়" নমুনা থাকতে পারে, কারণ ছোট প্রভাবগুলি পরিসংখ্যানগতভাবে তাৎপর্যপূর্ণ হবে।

প্রসঙ্গে, তাত্পর্য নিরীক্ষা এবং প্রভাব আকারগুলির একটি সহজ রেজোলিউশন হ'ল কোনও প্রভাব রয়েছে কিনা তা বাইনারি সিদ্ধান্তের নিয়মের সাথে আচ্ছন্ন হওয়ার পরিবর্তে আগ্রহের প্রভাবের আকারটি নির্ধারণের দিকে মনোনিবেশ করা। প্রভাব আকারগুলিতে আত্মবিশ্বাসের বিরতি হ'ল এই জাতীয় একটি পদ্ধতি বা আপনি বায়েসিয়ান পদ্ধতির কোনও রূপ অবলম্বন করতে পারেন। তদ্ব্যতীত, বিভিন্ন গবেষণা ডোমেনগুলি "ক্ষুদ্র", "মাঝারি" এবং "বৃহত্তর প্রভাব" এর মতো হিউরিস্টিক লেবেল প্রয়োগ করা আরও ভাল বা খারাপ হিসাবে ব্যবহারিক অর্থে একটি কার্যকর প্রভাব আকারের অর্থ সম্পর্কে ধারণা তৈরি করে। এটি সুদের প্রদত্ত প্যারামিটারটি নির্ধারণের ক্ষেত্রে যথাযথতা সর্বাধিক করার জন্য নমুনা আকারকে সর্বাধিক করার বুদ্ধিমান প্রস্তাবকে বাড়ে।

এটি আমাকে বিস্মিত করে তোলে কেন প্রভাব আকারের আত্মবিশ্বাসের অন্তরগুলির উপর ভিত্তি করে একই ধরণের দৃষ্টিভঙ্গি বিশেষত অনুমান পরীক্ষার, এবং স্বাভাবিকতা পরীক্ষার ক্ষেত্রে আরও ব্যাপকভাবে প্রসারিত হয় না।

প্রশ্ন:

  • যে ডিগ্রীতে ডেটা স্বাভাবিকতা লঙ্ঘন করে তার সেরা একক সূচকটি কী?
  • বা স্বাভাবিকতা লঙ্ঘনের একাধিক সূচকে (যেমন, স্কিউনেস, কুর্তোসিস, আউটলেয়ার বিস্তৃতি) সম্পর্কে কথা বলা কি আরও ভাল?
  • সূচকের জন্য আস্থার ব্যবধানগুলি কীভাবে গণনা করা যায় (বা সম্ভবত কোনও বায়সিয়ান পদ্ধতির)?
  • স্বাভাবিকের লঙ্ঘনের মাত্রা (উদাহরণস্বরূপ, হালকা, মাঝারি, শক্ত, চরম, ইত্যাদি) নির্দেশ করতে আপনি সেই সূচকে পয়েন্টগুলিতে কী ধরণের মৌখিক লেবেল নির্ধারণ করতে পারেন? এই জাতীয় লেবেলের উদ্দেশ্য হ'ল যখন স্বাভাবিকতা লঙ্ঘন সমস্যাযুক্ত হয় তখন তাদের অন্তর্নিহিত প্রশিক্ষণের জন্য কম অভিজ্ঞতার সাথে বিশ্লেষকদের সহায়তা করা হতে পারে।

5
আকর্ষণীয় প্রশ্ন।
রোল্যান্ডো 2

1
পি

1
@ এনআরএইচ আমি সম্মত; এই আমি কি কি. তবে আমি প্রায়শই প্লট থেকে অ-স্বাভাবিকতার ডিগ্রি বিচারের ক্ষেত্রে কম অভিজ্ঞতার সাথে গবেষকদের কাছে পরিসংখ্যান সংক্রান্ত পরামর্শ সরবরাহ করি provide আমি ভেবেছিলাম যে বিভিন্ন গুণগত লেবেলযুক্ত একটি সূচক একটি চাক্ষুষ অন্তর্দৃষ্টি প্রশিক্ষণের পরিপূরক করতে পারে।
জেরোমি অ্যাংলিম

উত্তর:


13

ক) ডেটা স্বাভাবিকতার লঙ্ঘন করে এমন ডিগ্রির সেরা একক সূচক কী?

খ) বা স্বাভাবিকতা লঙ্ঘনের একাধিক সূচকে (যেমন, স্কিউনেস, কুর্তোসিস, আউটলেয়ার বিস্তৃতি) সম্পর্কে কথা বলা কি আরও ভাল?

আমি বি কে ভোট দেব বিভিন্ন বিধি লঙ্ঘনের বিভিন্ন পরিণতি রয়েছে। উদাহরণস্বরূপ, ভারী লেজ সহ ইউনিমোডাল, প্রতিসম বিতরণগুলি আপনার সিআইগুলি খুব প্রশস্ত করে তোলে এবং সম্ভবত কোনও প্রভাব সনাক্ত করার শক্তি হ্রাস করে। গড়টি এখনও "সাধারণ" মানটিকে হিট করে। খুব স্কিউড বিতরণের জন্য, উদাহরণস্বরূপ, গড়টি "আদর্শ মানের" খুব বুদ্ধিমান সূচক নাও হতে পারে।

গ) সূচকের জন্য আস্থা অন্তরগুলি কীভাবে গণনা করা যায় (বা সম্ভবত কোনও বায়সিয়ান পদ্ধতির)?

আমি বায়েশিয়ান পরিসংখ্যান সম্পর্কে জানি না, তবে স্বাভাবিকতার শাস্ত্রীয় পরীক্ষার বিষয়ে, আমি এরেক্স-হার্ন এট আলকে উদ্ধৃত করতে চাই। (২০০৮) [২]:

আর একটি সমস্যা হ'ল অনুমান পরীক্ষার নিজস্ব অনুমান রয়েছে। সাধারণ পরীক্ষাগুলি সাধারণত ধরে নেয় যে ডেটা সমকামী; হোমোসেসডাস্টিকটির পরীক্ষাগুলি ধরে নেয় যে ডেটা সাধারণত বিতরণ করা হয়। যদি স্বাভাবিকতা এবং সমকামিতা অনুমান লঙ্ঘন করা হয়, অনুমান পরীক্ষার বৈধতা গুরুতরভাবে আপস করা যেতে পারে। বিশিষ্ট পরিসংখ্যানবিদগণ এসপিএসএস-এর মতো সফ্টওয়্যারগুলিতে মারাত্মক ত্রুটিযুক্ত হিসাবে তৈরি করা অনুমান পরীক্ষাগুলি (যেমন, লেভেনের পরীক্ষা, কোলমোগোরভ or স্মারনভ পরীক্ষা) বর্ণনা করেছেন এবং সুপারিশ করেছিলেন যে এই পরীক্ষাগুলি কখনই ব্যবহার করা উচিত নয় (ডি'গোস্টিনো, 1986; গ্লাস অ্যান্ড হপকিনস, 1996)।

৪) স্বাভাবিকের লঙ্ঘনের মাত্রা (উদাহরণস্বরূপ, হালকা, মাঝারি, শক্ত, চরম, ইত্যাদি) নির্দেশ করতে আপনি সেই সূচকে কী ধরণের মৌখিক লেবেল নির্ধারণ করতে পারেন?

মাইক্রি (1989) [1] মনোবিজ্ঞানে 440 বৃহত আকারের ডেটা সেট বিশ্লেষণ করেছেন। তিনি প্রতিসাম্য এবং লেজের ওজন এবং সংজ্ঞায়িত মানদণ্ড এবং লেবেল মূল্যায়ন করেছেন। 'অপেক্ষাকৃত প্রতিসাম্য' থেকে 'মধ্যপন্থী -> চরম -> ঘনিষ্ঠভাবে অ্যাসিমেট্রি' অবধি অসম্যতার জন্য লেবেলগুলি। লেজের ওজনের লেবেলগুলি 'ইউনিফর্ম -> গাউসিয়ান এর চেয়ে কম -> গাউসিয়ান সম্পর্কে -> মাঝারি -> চরম -> দ্বিগুণ ক্ষতিকারক দূষণ' from প্রতিটি শ্রেণিবিন্যাস একাধিক, শক্ত মাপদণ্ডের উপর ভিত্তি করে।

তিনি দেখতে পান যে এই 440 ডেটা সেটগুলির মধ্যে কেবল 28% অপেক্ষাকৃত প্রতিসাম্যযুক্ত ছিল, এবং কেবল 15% লেজ ওজন সম্পর্কে গাউসিয়ান সম্পর্কে ছিল। অতএব কাগজের সুন্দর শিরোনাম:

ইউনিকর্ন, সাধারণ বক্ররেখা এবং অন্যান্য অসম্ভব প্রাণীরা

আমি একটি Rফাংশন লিখেছি , যা স্বয়ংক্রিয়ভাবে মাইক্রির মানদণ্ডগুলি মূল্যায়ন করে এবং লেবেলগুলিও মুদ্রণ করে:

# This function prints out the Micceri-criteria for tail weight and symmetry of a distribution
micceri <- function(x, plot=FALSE) {
    library(fBasics)
    QS <- (quantile(x, prob=c(.975, .95, .90)) - median(x)) / (quantile(x, prob=c(.75)) - median(x))

    n <- length(x)
    x.s <- sort(x)
    U05 <- mean(x.s[(.95*n ):n])
    L05 <- mean(x.s[1:(.05*n)])
    U20 <- mean(x.s[(.80*n):n])
    L20 <- mean(x.s[1:(.20*n)])
    U50 <- mean(x.s[(.50*n):n])
    L50 <- mean(x.s[1:(.50*n)])
    M25 <- mean(x.s[(.375*n):(.625*n)])
    Q <- (U05 - L05)/(U50 - L50)
    Q1 <- (U20 - L20)/(U50 - L50)
    Q2 <- (U05 - M25)/(M25 - L05)

    # mean/median interval
    QR <- quantile(x, prob=c(.25, .75)) # Interquartile range
    MM <- abs(mean(x) - median(x)) / (1.4807*(abs(QR[2] - QR[1])/2))

    SKEW <- skewness(x)
    if (plot==TRUE) plot(density(x))

    tail_weight <- round(c(QS, Q=Q, Q1=Q1), 2)
    symmetry <- round(c(Skewness=SKEW, MM=MM, Q2=Q2), 2)

    cat.tail <- matrix(c(1.9, 2.75, 3.05, 3.9, 4.3,
                         1.8, 2.3, 2.5, 2.8, 3.3,
                        1.6, 1.85, 1.93, 2, 2.3,
                        1.9, 2.5, 2.65, 2.73, 3.3,
                        1.6, 1.7, 1.8, 1.85, 1.93), ncol=5, nrow=5)

    cat.sym <- matrix(c(0.31, 0.71, 2,
                        0.05, 0.18, 0.37,
                        1.25, 1.75, 4.70), ncol=3, nrow=3)


    ts <- c()
    for (i in 1:5) {ts <- c(ts, sum(abs(tail_weight[i]) > cat.tail[,i]) + 1)}

    ss <- c()
    for (i in 1:3) {ss <- c(ss, sum(abs(symmetry[i]) > cat.sym[,i]) + 1)}

    tlabels <- c("Uniform", "Less than Gaussian", "About Gaussian", "Moderate contamination", "Extreme contamination", "Double exponential contamination")

    slabels <- c("Relatively symmetric", "Moderate asymmetry", "Extreme asymmetry", "Exponential asymmetry")

    cat("Tail weight indexes:\n")
    print(tail_weight)
    cat(paste("\nMicceri category:", tlabels[max(ts)],"\n"))
    cat("\n\nAsymmetry indexes:\n")
    print(symmetry)
    cat(paste("\nMicceri category:", slabels[max(ss)]))

    tail.cat <- factor(max(ts), levels=1:length(tlabels), labels=tlabels, ordered=TRUE)
    sym.cat  <- factor(max(ss), levels=1:length(slabels), labels=slabels, ordered=TRUE)

    invisible(list(tail_weight=tail_weight, symmetry=symmetry, tail.cat=tail.cat, sym.cat=sym.cat))
}

টি

> micceri(rnorm(10000))
Tail weight indexes:
97.5%   95%   90%     Q    Q1 
 2.86  2.42  1.88  2.59  1.76 

Micceri category: About Gaussian 


Asymmetry indexes:
Skewness   MM.75%       Q2 
    0.01     0.00     1.00 

Micceri category: Relatively symmetric



> micceri(rt(10000, 8))
Tail weight indexes:
97.5%   95%   90%     Q    Q1 
 3.19  2.57  1.94  2.81  1.79 

Micceri category: Extreme contamination 


Asymmetry indexes:
Skewness   MM.75%       Q2 
   -0.03     0.00     0.98 

Micceri category: Relatively symmetric



> micceri(rlnorm(10000))
Tail weight indexes:
97.5%   95%   90%     Q    Q1 
 6.24  4.30  2.67  3.72  1.93 

Micceri category: Double exponential contamination 


Asymmetry indexes:
Skewness   MM.75%       Q2 
    5.28     0.59     8.37 

Micceri category: Exponential asymmetry

[1] মাইক্রারি, টি। (1989)। ইউনিকর্ন, সাধারণ বক্ররেখা এবং অন্যান্য অসম্ভব প্রাণীরা। মনস্তাত্ত্বিক বুলেটিন, 105 , 156-166। ডোই: 10.1037 / 0033-2909.105.1.156

[২] এরেগ-হর্ন, ডিএম, এবং মিরোসেভিচ, ভিএম (২০০৮)। আধুনিক শক্তিশালী পরিসংখ্যান পদ্ধতি: আপনার গবেষণার যথার্থতা এবং শক্তি সর্বাধিক করার একটি সহজ উপায়। আমেরিকান সাইকোলজিস্ট, 63 , 591-601।


3
+1, এটি সত্যিই দুর্দান্ত উত্তর। যাইহোক, আমি ডাব্লু / 1 পয়েন্ট quibble করতে চান। আপনি বলছেন, "ভারী লেজ সহ ইউনিটমোডাল, প্রতিসম বিতরণগুলি আপনার সিআইকে খুব প্রশস্ত করে তোলে এবং সম্ভবত কোনও প্রভাব সনাক্ত করার শক্তি হ্রাস করে"। যদি তারা বুটস্ট্র্যাপ না করে সিআই এর ঝোঁক অ্যাসিম্পটোটিকগুলির উপর নির্ভর করে (সাধারণ অনুমান), সুতরাং আপনার ডিস্টের ফ্যাট লেজ রয়েছে তার সত্যতা সিআই বা প্রস্থের উপর কোনও প্রভাব ফেলবে না। পরিবর্তে, এর অর্থ হ'ল অনুশীলনীয় কভারেজ সম্ভাব্যতা ধরে নেওয়া কভারেজ সম্ভাবনার সাথে মেলে না।
গুং - মনিকা পুনরায়
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.