শাপিরো – উইলক সেরা নরমালারি পরীক্ষা? কেন এটি অ্যান্ডারসন-ডার্লিংয়ের মতো অন্যান্য পরীক্ষাগুলির চেয়ে ভাল হতে পারে?

24

আমি কোথাও সাহিত্যে পড়েছি যে শাপিরো – উইলক পরীক্ষাটি সেরা স্বাভাবিকতা পরীক্ষা হিসাবে বিবেচিত হয় কারণ একটি নির্দিষ্ট তাৎপর্য স্তরের জন্য, , নাল অনুমানটিকে প্রত্যাখ্যান করার সম্ভাবনা যদি অন্যের তুলনায় উচ্চতর হয় স্বাভাবিকতা পরীক্ষা। $\alpha$

আপনি যদি দয়া করে সম্ভব গাণিতিক যুক্তি ব্যবহার করে আমাকে ব্যাখ্যা করতে পারেন তবে অন্যান্য স্বাভাবিকতার কয়েকটি পরীক্ষার তুলনায় এটি ঠিক কীভাবে কাজ করে (আন্ডারসন-ডার্লিং পরীক্ষা বলুন)?

hypothesis-testing normal-distribution normality-assumption

— Syntagma
সূত্র

4

নোট করুন যে শক্তিটি নাল অনুমানটি যেভাবে মিথ্যা, তার উপর নির্ভর করে যা একটি সাধারণ-উদ্দেশ্যমূলক ধার্মিকতার-পরীক্ষার জন্য অগণিত উপায় হতে পারে। চেক না করেই আমি এখনও বাজি ধরতে পারি যে সাধারণ সাধারণতার প্রতিটি পরীক্ষা নির্দিষ্ট বিকল্পের বিরুদ্ধে সবচেয়ে শক্তিশালী।

— Scortchi - পুনর্বহাল মনিকা

5

আপনি যে উত্তরটি চেয়েছেন তা সম্ভবত নয়, তবে আমি বলব যে সর্বোত্তম স্বাভাবিকতা পরীক্ষা হ'ল একটি সাধারণ সম্ভাবনার প্লট, অর্থাৎ সাধারণ কোয়ান্টাইলের তুলনায় পর্যবেক্ষণকৃত মানগুলির একটি কোয়ান্টাইল-কোয়ান্টাইল প্লট। শাপিরো-উইলক পরীক্ষাটি প্রায়শই প্রশংসিত হয়, তবে কীভাবে আপনার ডেটা একটি স্বাভাবিকের থেকে আলাদা হয় তা আপনাকে বলতে পারে না। প্রায়শই গুরুত্বহীন পার্থক্যগুলি পরীক্ষার দ্বারা চিহ্নিত করা হয়, কারণ তারা বড় নমুনা আকারের জন্য তাত্পর্যপূর্ণ হিসাবে যোগ্যতা অর্জন করে এবং বিপরীত সমস্যাটি আপনাকেও কামড় দিতে পারে।

— নিক কক্স

সম্ভবত আপনি এটি পরিসংখ্যান বিশ্লেষণের নরমাল টেস্টে

— লিথিক

17

প্রথমে একটি সাধারণ মন্তব্য: নোট করুন যে অ্যান্ডারসন-ডার্লিং পরীক্ষা সম্পূর্ণ নির্দিষ্ট বিতরণের জন্য, অন্যদিকে শাপিরো-উইলক কোনও সাধারণ এবং বৈচিত্র্যের সাথে স্বাভাবিকের জন্য। যাইহোক, ডি অগোস্টিনো এবং স্টিফেনস এ উল্লিখিত হিসাবে অ্যান্ডারসন-ডার্লিং অনুমানের ক্ষেত্রে খুব সুবিধাজনক উপায়ে গ্রহণ করেছেন, তবে একইভাবে (তবে দ্রুত রূপান্তরিত হয় এবং এমনভাবে পরিবর্তিত হয় যা লিলিফোর্স পরীক্ষার চেয়ে সহজতর জন্য মোকাবেলা করা হয়) কলমোগোরভ-স্মারনভ কেস)। বিশেষত, সাধারণভাবে, , অ্যাসিম্পটোটিক মানের টেবিলগুলি ব্যবহার করা যেতে পারে (এন <5 এর জন্য ফিটের ভালতার পরীক্ষা করবেন না)। $^{[1]}$ $n=5$ $A^*=A^2\left(1+\frac{4}{n}-\frac{25}{n^2}\right)$

আমি সাহিত্যের কোথাও পড়েছি যে শাপিরো – উইলক পরীক্ষাটি সেরা স্বাভাবিকতা পরীক্ষা হিসাবে বিবেচিত হয় কারণ একটি নির্দিষ্ট তাৎপর্য স্তরের জন্য, α, নাল অনুমানটি বাতিল হওয়ার সম্ভাবনা অন্যান্য স্বাভাবিকতার তুলনায় বেশি হলে পরীক্ষা।

সাধারণ বিবৃতি হিসাবে এটি মিথ্যা।

কোন স্বাভাবিকতা পরীক্ষাগুলি "আরও ভাল" নির্ভর করে আপনি কোন শ্রেণীর বিকল্পগুলির বিষয়ে আগ্রহী তার উপর নির্ভর করে Sha শাপিরো-উইলক জনপ্রিয় একটি কারণ হ'ল এটি দরকারী বিকল্পের বিস্তৃত পরিসরে খুব ভাল শক্তি অর্জন করতে ঝোঁক। এটি শক্তির অনেক গবেষণায় উঠে আসে এবং সাধারণত খুব ভাল সম্পাদন করে তবে সর্বজনীনভাবে এটি সর্বোত্তম নয়।

এমন বিকল্পগুলি খুঁজে পাওয়া বেশ সহজ যা এর অধীনে এটি কম শক্তিশালী।

উদাহরণস্বরূপ, হালকা লেজযুক্ত বিকল্পগুলির বিপরীতে এটি প্রায়শই স্টুডেনজড রেঞ্জের তুলনায় কম শক্তি থাকে (অভিন্ন তথ্যের উপর স্বাভাবিকতার পরীক্ষার সাথে তাদের তুলনা করুন - উদাহরণস্বরূপ, এ , একটি পরীক্ষা উপর ভিত্তি করে শাপিরো Wilk জন্য 38% উপর একটু তুলনায় প্রায় 63% শক্তি আছে)। $u=\frac{\max(x)−\min(x)}{sd(x)}$ $n=30$ $u$

অ্যান্ডারসন-ডার্লিং (প্যারামিটার অনুমানের জন্য সামঞ্জস্য করা) ডাবল এক্সপেনশনিয়ালে আরও ভাল করে। কিছু স্কিউ বিকল্পের বিরুদ্ধে মুহুর্ত-স্কিউনেস আরও ভাল করে।

আপনি যদি দয়া করে সম্ভব গাণিতিক যুক্তি ব্যবহার করে আমাকে ব্যাখ্যা করতে পারেন তবে অন্যান্য স্বাভাবিকতার কয়েকটি পরীক্ষার তুলনায় এটি ঠিক কীভাবে কাজ করে (আন্ডারসন-ডার্লিং পরীক্ষা বলুন)?

আমি সাধারণ পদে ব্যাখ্যা করব (আপনি যদি আরও নির্দিষ্ট বিশদ বিশদটি চান তবে মূল কাগজপত্র এবং পরবর্তী কিছু কাগজপত্র যা সেগুলি নিয়ে আলোচনা করে তা আপনার সেরা বাজি হতে পারে):

একটি সহজ তবে ঘনিষ্ঠভাবে সম্পর্কিত পরীক্ষা বিবেচনা করুন, শাপিরো-ফ্রান্সিয়া; এটি কার্যকরভাবে অর্ডার পরিসংখ্যান এবং স্বাভাবিকতার অধীনে প্রত্যাশিত আদেশের পরিসংখ্যানের মধ্যে সম্পর্কের একটি কার্যকারিতা (এবং যেমন, সাধারণ কিউকিউ প্লটে "লাইনটি কত সোজা" এর একটি দুর্দান্ত প্রত্যক্ষ পরিমাপ)। যেমনটি আমি স্মরণ করি, শাপিরো-উইলক আরও শক্তিশালী কারণ এটি অর্ডার পরিসংখ্যানগুলির মধ্যে সমবায়িকাগুলিকেও বিবেচনা করে, কিউকিউ প্লট থেকে একটি সেরা রৈখিক অনুমানকারী তৈরি করে , যা পরে দ্বারা স্কেল করা হয় । বিতরণ যখন স্বাভাবিক থেকে অনেক দূরে থাকে তখন অনুপাত 1 এর কাছাকাছি হয় না। $\sigma$ $s$

তুলনা করে কোলমোগোরভ-স্মারনভ এবং ক্রিমার-ভন মাইসেসের মতো অ্যান্ডারসন-ডার্লিং অনুশীলনীয় সিডিএফ-এর উপর ভিত্তি করে তৈরি। বিশেষত, এটি ইসিডিএফ এবং তাত্ত্বিক ইসিডিএফ (ওজন-পরিবর্তনের জন্য লেজের বিচ্যুতির ক্ষেত্রে আরও সংবেদনশীল করে তোলে) এর মধ্যে ভারী বিচ্যুতির উপর ভিত্তি করে।

শাপিরো এবং চেন দ্বারা পরীক্ষা 1995 (1995) (আদেশের পরিসংখ্যানগুলির মধ্যে ব্যবধানের ভিত্তিতে) প্রায়শই শাপিরো-উইলকের তুলনায় কিছুটা বেশি শক্তি প্রদর্শন করে (তবে সবসময় নয়); তারা প্রায়শই খুব একইভাবে সঞ্চালন। $^{[2]}$

-

শাপিরো উইলকটি ব্যবহার করুন কারণ এটি প্রায়শই শক্তিশালী, ব্যাপকভাবে উপলব্ধ এবং এটির সাথে অনেক লোক পরিচিত (আপনি যদি কাগজে এটি ব্যবহার করেন তবে এটি কী তা বিশদটি ব্যাখ্যা করার প্রয়োজনটি সরিয়ে ফেলছেন) - কেবল এটি যে মায়ামেশার মধ্যে রয়েছে তা ব্যবহার করবেন না "সেরা স্বাভাবিকতা পরীক্ষা"। একটি সেরা স্বাভাবিকতা পরীক্ষা নেই।

[1]: ডি'গোস্টিনো, আরবি এবং স্টিফেন্স, এমএ (1986)
গুডনেস অফ ফিট টেকনিকস ,
মার্সেল ডেকার, নিউ ইয়র্ক।

[২]: চেন, এল। ও শাপিরো, এস। (1995)
"স্বাভাবিকের ব্যবধানের উপর ভিত্তি করে স্বাভাবিকতার জন্য একটি বিকল্প পরীক্ষা"।
পরিসংখ্যান গণনা এবং সিমুলেশন জার্নাল 53 , 269-287।

— গ্লেন_বি -রিনস্টেট মনিকা
সূত্র

আমার সহপাঠী আমাকে বলেছিলেন: "যদি নমুনা আকার> 50, আপনার উচিত কোলমোগোরভ-স্মারনভ।" এটা কি ঠিক?

— কিটিগার্ল

আমার টনক করতে নং মূল 1965 কাগজ শাপিরো এবং Wilk দ্বারা শুধুমাত্র প্রয়োজনীয় ধ্রুবক (দিয়েছিলেন ) রৈখিক অনুমান ব্যবহৃত জন্য পর্যন্ত কিন্তু যে শতাব্দীর অর্ধেক আগের কথা। তারপর থেকে বিষয়গুলি সামান্য সরানো হয়েছে। এমনকি এটি ছাড়াও শাপিরো ফ্রান্সিয়া বা অ্যান্ডারসন-ডার্লিং (প্যারামিটারের অনুমানের জন্যও সামঞ্জস্য করা) সাধারণত ভাল পছন্দ; সাধারণত প্রায়শই আকর্ষণীয় বিকল্পের তুলনায় এগুলির যথেষ্ট কম শক্তি থাকে। (এবং যদি আপনি নমুনাটি থেকে গড় এবং এসডি অনুমান করছেন, আপনি কঠোরভাবে কোনও কলমোগোরভ-স্মারনভ করছেন না, বরং লিলিফর্স পরীক্ষা করছেন)

a_{i}

$a_i$

σ

$\sigma$

n

$n$

50

$50$

— গ্লেন_বি -রেইনস্টেট মনিকা

সংক্ষেপে, ১৯67 post-এর পরে কয়েক বছরের সংক্ষিপ্ত সময়কাল ছিল (লিলিফর্সের রচনার প্রাথমিক প্রকাশ) যেখানে এটি ন্যায়সঙ্গত পরামর্শের অংশ হতে পারে, তবে দীর্ঘকাল ধরে নয়

— গ্লেন_বি -রিনস্টেট মনিকা

যখন নমুনার আকার> 5000, shapiro.testআর-তে চালানো ত্রুটি পাবে sample size must be between 3 and 5000henতখন আর কোন পরীক্ষাটি ব্যবহার করা উচিত?

— কিটিগার্ল

১. বড় আকারে আপনি প্রায় সর্বদা যে কোনও সাধারণ বন্টনমূলক মডেলকে প্রত্যাখ্যান করবেন (এমনকি এটি উপযুক্ত উপযোগী হলেও); এটি অন্য কিছু করার জন্য পরামর্শ দেওয়া উচিত (আপনি কেন স্বাভাবিকতার পরীক্ষা করছেন?) ২. এটি সম্পর্কে "উচিত" হওয়ার বিষয়টি আসলেই নয়; পরীক্ষার কোনও একক নেকতা নেই যা অন্য যে কোনও সময়ের চেয়ে সর্বদা ভাল। এটি কেবল ঘটে যে শাপিরো উইলক যুক্তিসঙ্গতভাবে ভাল। তবে বৃহত্তর এনে উপযুক্ত বিকল্প হ'ল শাপিরো-ফ্রান্সিয়া পরীক্ষা। আপনি যদি বড় এন এ চেন-শাপিরো পরীক্ষার একটি বাস্তবায়ন খুঁজে পেতে পারেন (ধরে নিলে পরীক্ষা করার কোনও ভাল কারণ আছে বলে ধরে নেওয়া হয়) তবে তার পরিবর্তে এটি বিবেচনা করুন।

— গ্লেন_বি -রিনস্টেট মনিকা

12

স্পষ্টতই আপনি যে তুলনাটি পড়েছেন তাতে SnowsPenultimateNormalityTest ( http://cran.r-project.org/web/packages/TeachingDemos/TeachingDemos.pdf ) অন্তর্ভুক্ত হয়নি কারণ এতে সমস্ত বিকল্পের মধ্যে সর্বোচ্চ সম্ভাবনা রয়েছে। সুতরাং পাওয়ারকেই যদি বিবেচনা করা হয় তবে এটি "সেরা" হিসাবে বিবেচিত হওয়া উচিত (নোট করুন যে আমার মতামত স্পষ্টভাবে পক্ষপাতদুষ্ট, তবে লিঙ্ক / ডকুমেন্টেশনে নথিভুক্ত)।

যাইহোক, আমি নিক কক্সের এই মন্তব্যে একমত যে সেরা পরীক্ষাটি একটি "রীতিমতো স্বাভাবিক" এর চেয়ে অনেক বেশি গুরুত্বপূর্ণ "নরমাল পর্যাপ্ত" প্রশ্নটি একটি প্রথাগত পরীক্ষার চেয়ে বরং একটি চক্রান্ত। আপনি যদি অর্থবহ পরীক্ষা করতে চান তবে আমি এই কাগজটিতে পদ্ধতিটির সাথে কিউকি প্লট সংযুক্ত করার পরামর্শ দেব:

বুজা, এ। কুক, ডি। হফম্যান, এইচ।, লরেন্স, এম। লি, ই.কে., সুইয়েন, ডিএফ এবং উইকহ্যাম, এইচ। (২০০৯) পরিসংখ্যানমূলক আবিষ্কারের জন্য অনুসন্ধানী তথ্য বিশ্লেষণ এবং মডেল ডায়াগোনস্টিকস ফিল। ট্রান্স। আর সোস। এ ২০০ 36 367, 4361-4383 doi: 10.1098 /rsta.2009.0120

এর একটি বাস্তবায়ন হ'ল vis.testটিচিংডেমোস প্যাকেজে আর এর জন্য (একই প্যাকেজটি SnowsPenultimateNormalityTest) ফাংশন ।

— গ্রেগ স্নো
সূত্র

1

আমি অনুভূতির সাথে একমত, তবে কিউকিউ প্লটের দিকে নজর দেওয়া খুব একটা সমাধান নয় যদি কেউ 10-20ের বেশি ভেরিয়েবলের সাথে অনেক কিছু করতে চায়।

— অ্যান্ড্রু এম

আমরা কিউকিউ প্লটগুলি স্বাভাবিকতা পরীক্ষা ছাড়াও মুদ্রণ করি। এগুলি একচেটিয়া নয়, পরিপূরক সরঞ্জাম।

— আকসকল

2

@ অ্যান্ড্রু এম তো, 100 বা 1000 এর ফলাফল বা শাপিরো-উইলক বা অন্যান্য পরীক্ষাগুলি আপনি কী পছন্দ করছেন তা অনুসন্ধান করছেন? কিউকিউ প্লটগুলি দেখে স্বয়ংক্রিয়ভাবে কাজ করা কঠিন নয়, একবারে 25 বলুন। সত্যিকারের সমস্যাটি দেখার জন্য প্রায়শই এক নজরে যথেষ্ট gla

— নিক কক্স

10

আমি পার্টিতে দেরি করছি, তবে প্রকাশিত পিয়ার-পর্যালোচিত গবেষণার প্রসঙ্গে উত্তর দেব। ওপি-র প্রশ্নের কাছে আমি হ্যাঁ / না-এর উত্তর না দেওয়ার কারণটি এটি যত জটিল মনে হচ্ছে তার চেয়ে জটিল। এখানে কোনও পরীক্ষা নেই যা বিদেশীদের সাথে বা ছাড়াই কোনও বিতরণ থেকে আসা নমুনাগুলির জন্য সবচেয়ে শক্তিশালী হবে। আউটলিয়াররা একটি পরীক্ষার শক্তি মারাত্মকভাবে হ্রাস করতে পারে এবং অন্যটির জন্য বৃদ্ধি পেতে পারে। যখন নমুনাটি প্রতিসম বিতরণ ইত্যাদি থেকে আসে তখন কিছু পরীক্ষা আরও ভাল কাজ করে

হেনরি সি থোড, টেস্টিং ফর নরমালিটি , ২০০২ - এটি এই বিষয়টির একটি সর্বাধিক বিস্তৃত বই। যদি আমি এটি একটি সাধারণ উত্তরে নিঃশব্দ করতে হয়, তবে এসডাব্লু সব ক্ষেত্রে AD এর চেয়ে বেশি শক্তিশালী নয়। আপনার পড়ার আনন্দের জন্য এখানে দুটি অংশ রয়েছে।

বিভাগ থেকে .1.১.৫: ক্ষমতার ভিত্তিতে, পরীক্ষার পছন্দ সরাসরি উপলব্ধ তথ্যের সাথে বা বিকল্প সম্পর্কিত অনুমানের সাথে সম্পর্কিত। বিকল্পটি আরও সুনির্দিষ্ট, পরীক্ষা আরও সুনির্দিষ্ট এবং আরও শক্তিশালী হবে; এটি সর্বাধিক নির্ভরযোগ্য সুপারিশগুলির ফলস্বরূপ।

এবং

$K_s^2$ $A^2$

রোমাও, জাভিয়ের, রায়মুন্ডো দেলগাদো এবং আনিবল কস্তা। "স্বাভাবিকতার জন্য অদম্য ধার্মিকতা-ফিট-পরীক্ষার একটি অভিজ্ঞতা অভিজ্ঞতা পাওয়ার তুলনা power" পরিসংখ্যান গণনা এবং সিমুলেশন জার্নাল 80.5 (2010): 545-591। এই বিষয় আমি জানি সাম্প্রতিক প্রকাশিত গবেষণা হয়।

গবেষণায় বিভিন্ন তাত্পর্য স্তর বিবেচনা করে এবং বিভিন্ন প্রতিসাম্য, অসমিত এবং পরিবর্তিত সাধারণ বিতরণের জন্য বিভিন্ন নমুনা আকারের জন্য 33 টি স্বাভাবিকতা পরীক্ষার কার্যকারিতা সম্বোধন করা হয়। অধ্যয়নের ফলে প্রাপ্ত স্বাভাবিকতা পরীক্ষার জন্য সাধারণ সুপারিশগুলি অ-স্বাভাবিকতার প্রকৃতি অনুসারে সংজ্ঞায়িত হয়

যদি আপনি সত্যই তাদের গবেষণাটি হ্যাঁ / না থেকে সিদ্ধ করতে চান তবে উত্তরটি হ্যাঁ। অ্যান্ডারসন-ডার্লিংয়ের চেয়ে বেশিরভাগ ক্ষেত্রে শাপিরো-উইলক্স পরীক্ষাটি কিছুটা বেশি শক্তিশালী বলে মনে হচ্ছে। আপনার শপিরো উইলক পরীক্ষার পরামর্শ দিচ্ছেন যখন আপনার মনে কোনও বিকল্প বিকল্প বিতরণ নেই। তবে আপনি যদি এই বিষয়ে আগ্রহী হন তবে কাগজটি পড়ার মতো। কমপক্ষে টেবিলগুলি দেখুন।

এডিথ সিয়ার, নরমালটি টেস্ট: পাওয়ার তুলনা , আন্তর্জাতিক পরিসংখ্যান বিজ্ঞান, ২০১৪-এ প্রকাশিত গবেষণার একটি সমীক্ষা। আবার, উত্তরটি নমুনা এবং বিকল্প বিতরণ সম্পর্কে আপনার জ্ঞানের উপর নির্ভর করে, তবে তুচ্ছ উত্তর হ্যাঁ, শাপিরো-উইলক সাধারণত আরও শক্তিশালী, তবে সবসময় নয়।
আন্তর্জাতিক পরিসংখ্যান বিজ্ঞান, ২০১৪-এ হেনরি সি থোড, নরমালটি টেস্ট , - জনপ্রিয় স্বাভাবিকতা পরীক্ষার বিবরণ। তাঁর সুপারিশ:

$A^2$

এখন, এটি ছিল অবিচ্ছিন্ন পরীক্ষাগুলি সম্পর্কে। থোডে (২০০২) বহুবিধ পরীক্ষা, সেন্সর করা ডেটা, সাধারণ মিশ্রণ, বহিরাগতদের উপস্থিতিতে পরীক্ষা এবং আরও অনেক কিছু রয়েছে।

— Aksakal
সূত্র

9

এই প্রশ্নটির আরও একটি গুরুতর উত্তর এবং বিশেষত @ সিলভারফিশের অবিরত আগ্রহ। এই জাতীয় প্রশ্নের উত্তর দেওয়ার জন্য একটি পদ্ধতির তুলনা করার জন্য কিছু সিমুলেশন চালানো। নীচে কিছু আর কোড রয়েছে যা বিভিন্ন বিকল্পের অধীনে ডেটা সিমুলেটেড করে এবং বেশ কয়েকটি স্বাভাবিকতা পরীক্ষা করে এবং পাওয়ারের সাথে তুলনা করে (এবং পাওয়ারের উপর একটি আত্মবিশ্বাসের ব্যবধান যেহেতু সিমুলেশন মাধ্যমে পাওয়ার অনুমান করা হয়)। আমি নমুনার আকারগুলি কিছুটা ট্যুইক করেছি কারণ অনেকগুলি ক্ষমতা যখন 100% বা 5% এর কাছাকাছি ছিল তখন আকর্ষণীয় ছিল না, আমি গোলাকার সংখ্যা পেয়েছিলাম যা 80% এর কাছাকাছি শক্তি দিয়েছে। আগ্রহী যে কোনও ব্যক্তি সহজেই এই কোডটি নিতে এবং এটি বিভিন্ন অনুমান, বিভিন্ন বিকল্প ইত্যাদির জন্য পরিবর্তন করতে পারে could

আপনি দেখতে পাচ্ছেন যে বিকল্প রয়েছে যার জন্য কয়েকটি পরীক্ষা আরও ভাল করে এবং অন্যরা যেখানে খারাপ হয় where গুরুত্বপূর্ণ প্রশ্নটি তখন আপনার বৈজ্ঞানিক প্রশ্ন / ক্ষেত্রের জন্য কোন বিকল্পগুলি সবচেয়ে বাস্তবসম্মত। অন্যান্য পরীক্ষাগুলিতে আগ্রহ-অস্বাভাবিকতার ধরণের প্রভাবগুলির একটি অনুকরণের সাথে এটি সত্যই অনুসরণ করা উচিত। এই ধরণের কিছু অ-স্বাভাবিকতা অন্যান্য স্বাভাবিক ভিত্তিক পরীক্ষাগুলিকে ব্যাপকভাবে প্রভাবিত করে, অন্যরা তাদের খুব বেশি প্রভাবিত করে না।

> library(nortest)
> 
> simfun1 <- function(fun=function(n) rnorm(n), n=250) {
+   x <- fun(n)
+   c(sw=shapiro.test(x)$p.value, sf=sf.test(x)$p.value, ad=ad.test(x)$p.value,
+     cvm=cvm.test(x)$p.value, lillie=lillie.test(x)$p.value, 
+     pearson=pearson.test(x)$p.value, snow=0)
+ }
> 
> ### Test size using null hypothesis near true
> 
> out1 <- replicate(10000, simfun1())
> apply(out1, 1, function(x) mean(x<=0.05))
     sw      sf      ad     cvm  lillie pearson    snow 
 0.0490  0.0520  0.0521  0.0509  0.0531  0.0538  1.0000 
> apply(out1, 1, function(x) prop.test(sum(x<=0.05),length(x))$conf.int)  #$
             sw         sf         ad        cvm     lillie    pearson      snow
[1,] 0.04489158 0.04776981 0.04786582 0.04671398 0.04882619 0.04949870 0.9995213
[2,] 0.05345887 0.05657820 0.05668211 0.05543493 0.05772093 0.05844785 1.0000000
> 
> ### Test again with mean and sd different
> 
> out2 <- replicate(10000, simfun1(fun=function(n) rnorm(n,100,5)))
> apply(out2, 1, function(x) mean(x<=0.05))
     sw      sf      ad     cvm  lillie pearson    snow 
 0.0482  0.0513  0.0461  0.0477  0.0515  0.0506  1.0000 
> apply(out2, 1, function(x) prop.test(sum(x<=0.05),length(x))$conf.int)  #$
             sw         sf         ad        cvm     lillie    pearson      snow
[1,] 0.04412478 0.04709785 0.04211345 0.04364569 0.04728982 0.04642612 0.9995213
[2,] 0.05262633 0.05585073 0.05043938 0.05210583 0.05605860 0.05512303 1.0000000
> 
> #### now for the power under different forms of non-normality
> 
> ## heavy tails, t(3)
> rt3 <- function(n) rt(n, df=3)
> 
> out3 <- replicate(10000, simfun1(fun=rt3, n=75))
There were 50 or more warnings (use warnings() to see the first 50)
> round(apply(out3, 1, function(x) mean(x<=0.05, na.rm=TRUE)),3)
     sw      sf      ad     cvm  lillie pearson    snow 
  0.788   0.831   0.756   0.726   0.624   0.440   1.000 
> round(apply(out3, 1, function(x){ 
+ prop.test(sum(x<=0.05,na.rm=TRUE),sum(!is.na(x)))$conf.int),3) }  #$
        sw    sf    ad   cvm lillie pearson snow
[1,] 0.780 0.824 0.748 0.717  0.614   0.431    1
[2,] 0.796 0.838 0.765 0.734  0.633   0.450    1
> 
> 
> ## light tails, uniform
> u <- function(n) runif(n)
> 
> out4 <- replicate(10000, simfun1(fun=u, n=65))
> round(apply(out4, 1, function(x) mean(x<=0.05, na.rm=TRUE)),3)
     sw      sf      ad     cvm  lillie pearson    snow 
  0.906   0.712   0.745   0.591   0.362   0.270   1.000 
> round(apply(out4, 1, function(x){ 
+ prop.test(sum(x<=0.05,na.rm=TRUE),sum(!is.na(x)))$conf.int),3) }  #$
        sw    sf    ad   cvm lillie pearson snow
[1,] 0.900 0.703 0.737 0.581  0.353   0.261    1
[2,] 0.911 0.720 0.754 0.600  0.372   0.279    1
> 
> ## double exponential, Laplace
> de <- function(n) sample(c(-1,1), n, replace=TRUE) * rexp(n)
> 
> out5 <- replicate(10000, simfun1(fun=de, n=100))
> round(apply(out5, 1, function(x) mean(x<=0.05, na.rm=TRUE)),3)
     sw      sf      ad     cvm  lillie pearson    snow 
  0.796   0.844   0.824   0.820   0.706   0.477   1.000 
> round(apply(out5, 1, function(x){ 
+ prop.test(sum(x<=0.05,na.rm=TRUE),sum(!is.na(x)))$conf.int),3) }  #$
        sw    sf    ad   cvm lillie pearson snow
[1,] 0.788 0.837 0.817 0.813  0.697   0.467    1
[2,] 0.804 0.851 0.832 0.828  0.715   0.486    1
> 
> ## skewed, gamma(2,2)
> g22 <- function(n) rgamma(n,2,2)
> 
> out6 <- replicate(10000, simfun1(fun=g22, n=50))
Warning message:
In cvm.test(x) :
  p-value is smaller than 7.37e-10, cannot be computed more accurately
> round(apply(out6, 1, function(x) mean(x<=0.05, na.rm=TRUE)),3)
     sw      sf      ad     cvm  lillie pearson    snow 
  0.954   0.930   0.893   0.835   0.695   0.656   1.000 
> round(apply(out6, 1, function(x){ 
+ prop.test(sum(x<=0.05,na.rm=TRUE),sum(!is.na(x)))$conf.int),3) }  #$
        sw    sf    ad   cvm lillie pearson snow
[1,] 0.950 0.925 0.886 0.827  0.686   0.646    1
[2,] 0.958 0.935 0.899 0.842  0.704   0.665    1
> 
> ## skewed, gamma(2,2)
> g99 <- function(n) rgamma(n,9,9)
> 
> out7 <- replicate(10000, simfun1(fun=g99, n=150))
> round(apply(out7, 1, function(x) mean(x<=0.05, na.rm=TRUE)),3)
     sw      sf      ad     cvm  lillie pearson    snow 
  0.844   0.818   0.724   0.651   0.526   0.286   1.000 
> round(apply(out7, 1, function(x){ 
+ prop.test(sum(x<=0.05,na.rm=TRUE),sum(!is.na(x)))$conf.int),3) }  #$
        sw    sf    ad   cvm lillie pearson snow
[1,] 0.836 0.810 0.715 0.642  0.516   0.277    1
[2,] 0.851 0.826 0.732 0.660  0.536   0.294    1
> 
> ## tails normal, middle not
> mid <- function(n) {
+   x <- rnorm(n)
+   x[ x > -0.5 & x < 0.5 ] <- 0
+   x
+ }
> 
> out9 <- replicate(10000, simfun1(fun=mid, n=30))
Warning messages:
1: In cvm.test(x) :
  p-value is smaller than 7.37e-10, cannot be computed more accurately
2: In cvm.test(x) :
  p-value is smaller than 7.37e-10, cannot be computed more accurately
> round(apply(out9, 1, function(x) mean(x<=0.05, na.rm=TRUE)),3)
     sw      sf      ad     cvm  lillie pearson    snow 
  0.374   0.371   0.624   0.739   0.884   0.948   1.000 
> round(apply(out9, 1, function(x){ 
+ prop.test(sum(x<=0.05,na.rm=TRUE),sum(!is.na(x)))$conf.int),3) }  #$
        sw    sf    ad   cvm lillie pearson snow
[1,] 0.365 0.362 0.614 0.730  0.878   0.943    1
[2,] 0.384 0.381 0.633 0.747  0.890   0.952    1
> 
> ## mixture on variance
> mv <- function(n, p=0.1, sd=3) {
+   rnorm(n,0, ifelse(runif(n)<p, sd, 1))
+ }
> 
> out10 <- replicate(10000, simfun1(fun=mv, n=100))
Warning message:
In cvm.test(x) :
  p-value is smaller than 7.37e-10, cannot be computed more accurately
> round(apply(out10, 1, function(x) mean(x<=0.05, na.rm=TRUE)),3)
     sw      sf      ad     cvm  lillie pearson    snow 
  0.800   0.844   0.682   0.609   0.487   0.287   1.000 
> round(apply(out10, 1, function(x){ 
+ prop.test(sum(x<=0.05,na.rm=TRUE),sum(!is.na(x)))$conf.int),3) }  #$
        sw    sf    ad   cvm lillie pearson snow
[1,] 0.792 0.837 0.673 0.599  0.477   0.278    1
[2,] 0.808 0.851 0.691 0.619  0.497   0.296    1
> 
> ## mixture on mean
> mm <- function(n, p=0.3, mu=2) {
+   rnorm(n, ifelse(runif(n)<p, mu, 0), 1)
+ }
> 
> out11 <- replicate(10000, simfun1(fun=mm, n=400))
> round(apply(out11, 1, function(x) mean(x<=0.05, na.rm=TRUE)),3)
     sw      sf      ad     cvm  lillie pearson    snow 
  0.776   0.710   0.808   0.788   0.669   0.354   1.000 
> round(apply(out11, 1, function(x){ 
+ prop.test(sum(x<=0.05,na.rm=TRUE),sum(!is.na(x)))$conf.int),3) }  #$
        sw    sf    ad   cvm lillie pearson snow
[1,] 0.768 0.701 0.801 0.780  0.659   0.344    1
[2,] 0.784 0.719 0.816 0.796  0.678   0.363    1

— গ্রেগ স্নো
সূত্র

এই উত্তরটি যুক্ত করার জন্য ধন্যবাদ যা আপনার আগেরটির একটি দুর্দান্ত পরিপূরক। আপনার অন্য উত্তরের জন্য কোনও অসম্মানের উদ্দেশ্য ছিল না, যা এসইতে আমার অন্যতম প্রিয়!

— সিলভারফিশ

1

কোড বিন্যাস যুক্ত করতে এবং উইন্ডো, গ্রেগের মধ্যে সমস্ত কিছু ফিট করার জন্য আমি আপনার কোড সম্পাদনা করার স্বাধীনতা নিয়েছি। আমি মনে করি এইভাবে পড়া আরও সহজ হবে তবে আপনি যদি এটি পছন্দ না করেন তবে ডাব্লু / আমার ক্ষমা প্রার্থনা করুন back

— গুং - মনিকা পুনরায়