এফ-টেস্টটি কেন স্বাভাবিকতা অনুমানের জন্য এত সংবেদনশীল?


16

কেন এফ- টেষ্ট পার্থক্যের পার্থক্যের জন্য সাধারণ বিতরণ অনুমানের এমনকি এত বড় ?N

আমি ওয়েবে অনুসন্ধান করার চেষ্টা করেছি এবং লাইব্রেরিটি পরিদর্শন করেছি, তবে এর কোনওরই ভাল উত্তর দেওয়া হয়নি। এটি বলে যে সাধারণ বিতরণ করার অনুমান লঙ্ঘনের জন্য পরীক্ষাটি অত্যন্ত সংবেদনশীল তবে কেন তা আমি বুঝতে পারি না। কারও কি এর জন্য ভাল উত্তর আছে?



বৈকল্পিক পার্থক্য পরিমাপের জন্য এফ-পরীক্ষা।
ম্যাগনাস

উত্তর:


35

আমি ধরে নিয়েছি যে সাম্যতার জন্য একজোড়া নমুনা বৈকল্পিক পরীক্ষা করার সময় আপনি বৈকল্পিকের অনুপাতের জন্য এফ-টেস্ট বলতে বোঝাচ্ছেন (কারণ এটিই সহজতম যেটি স্বাভাবিকতার পক্ষে বেশ সংবেদনশীল; আনোভা-এর জন্য এফ-পরীক্ষা কম সংবেদনশীল)

যদি আপনার নমুনাগুলি সাধারণ বিতরণ থেকে আঁকা হয়, তবে নমুনা বৈকল্পিকের একটি ছোট আকারের স্কোয়ার বিতরণ রয়েছে

কল্পনা করুন যে সাধারণ বিতরণ থেকে প্রাপ্ত ডেটার পরিবর্তে আপনার কাছে এমন বিতরণ ছিল যা সাধারণের চেয়ে ভারী-লেজযুক্ত ছিল। তারপরে আপনি সেই মাপানো চি-স্কোয়ার বিতরণের তুলনায় অনেকগুলি বৃহত্তর বৈকল্পিকতা পেয়ে যাবেন এবং নমুনা বৈকল্পিকের ডানদিকের ডান লেজের মধ্যে বেরিয়ে আসার সম্ভাবনাটি সেই বিতরণের লেজগুলিতে খুব প্রতিক্রিয়াশীল যেখানে থেকে ডেটা টানা হয়েছিল =। (এছাড়াও অনেকগুলি ছোট ছোট বৈচিত্র থাকবে তবে এর প্রভাবটি কিছুটা কম উচ্চারণযোগ্য)

এখন যদি উভয় নমুনা সেই ভারী লেজযুক্ত বিতরণ থেকে আঁকানো হয় তবে অঙ্ককের উপর বৃহত্তর লেজ বড় বড় এফ মানগুলির উত্পন্ন করবে এবং ডিনোমিনেটরের বৃহত্তর লেজটি ছোট এফ মানগুলির একটি অতিরিক্ত উত্পাদন করবে (এবং বিপরীতে বাম পুচ্ছের জন্য)

এই উভয় প্রভাব উভয় নমুনার একই বৈকল্পিক সত্ত্বেও , একটি দ্বি-লেজ পরীক্ষায় প্রত্যাখ্যান করে । এর অর্থ হ'ল যখন সত্য বিতরণটি স্বাভাবিকের চেয়ে ভারী লেজযুক্ত হয়, তখন প্রকৃত তাত্পর্য স্তরটি আমাদের চেয়ে বেশি থাকে।

বিপরীতে, একটি হালকা লেজযুক্ত বন্টন থেকে একটি নমুনা আঁকা নমুনা বৈকল্পিকের একটি বিতরণ উত্পাদন করে যা খুব কম লেজ লেগেছে - ভেরিয়েন্স মানগুলি সাধারণ বিতরণ থেকে প্রাপ্ত ডেটা প্রাপ্তির চেয়ে বেশি "বিভ্রান্তিকর" হয়ে থাকে। আবার, প্রভাবটি নীচের লেজের তুলনায় বেশি উপরের লেজে শক্তিশালী।

এখন যদি উভয় নমুনা সেই হালকা-লেজযুক্ত বিতরণ থেকে আঁকা হয়, এর ফলস্বরূপ মধ্যবর্তী কাছাকাছি এফ মানগুলির একটি অতিরিক্ত এবং উভয় লেজের খুব কম সংখ্যক (প্রকৃত তাৎপর্যের স্তরটি কাঙ্ক্ষিতের চেয়ে কম হবে) ফলাফল করে।

এই প্রভাবগুলি বড় আকারের নমুনার আকারের সাথে অগত্যা অনেক হ্রাস করতে পারে বলে মনে হয় না; কিছু ক্ষেত্রে এটি আরও খারাপ বলে মনে হচ্ছে।

আংশিক চিত্রের মাধ্যমে, এখানে সাধারণ, টি 5 এবং ইউনিফর্ম বিতরণের জন্য 10000 নমুনার রূপগুলি ( n=10 জন্য) দেওয়া হয়েছে, এটি mean 2 9 এর সমান গড় হিসাবে মাপানো হয়েছে :t5χ92

এখানে চিত্র বর্ণনা লিখুন

এটি শীর্ষের তুলনায় তুলনামূলকভাবে ছোট হওয়ার কারণে এটি খুব দূরের লেজটি দেখতে কিছুটা শক্ত (এবং t5 এর জন্য লেজের পর্যবেক্ষণগুলি যেখানে আমরা ষড়যন্ত্র করেছিলেন সেখানে ন্যায্য রাস্তাটি প্রসারিত করে) তবে আমরা এর প্রভাবের কিছু দেখতে পাচ্ছি বৈকল্পিক উপর বিতরণ। চি-স্কোয়ার সিডিএফ এর বিপরীত দ্বারা এগুলি রূপান্তর করা সম্ভবত আরও বেশি শিক্ষামূলক,

এখানে চিত্র বর্ণনা লিখুন

যা সাধারণ ক্ষেত্রে অভিন্ন দেখায় (যেমনটি এটি হওয়া উচিত), টি-ক্ষেত্রে ক্ষেত্রে উপরের লেজের একটি বড় চূড়া থাকে (এবং নীচের লেজের মধ্যে একটি ছোট শীর্ষ) এবং ইউনিফর্ম ক্ষেত্রে আরও পাহাড়ের মতো তবে প্রশস্ত থাকে ০..6 থেকে ০.৮ এর কাছাকাছি শিখর এবং চূড়ান্ততার তুলনায় তাদের সম্ভাবনা অনেক কম থাকে যদি আমরা সাধারণ বিতরণ থেকে নমুনা নিই।

এর ফলে আমি পূর্বে বর্ণিত বৈকল্পিকের অনুপাতের বিতরণে প্রভাব ফেলব। আবার, লেজগুলির উপর প্রভাবটি দেখতে আমাদের দক্ষতার উন্নতি করতে (যা দেখতে পাওয়া শক্ত হতে পারে), আমি সিডিএফ এর বিপরীত দ্বারা রূপান্তরিত করেছি ( এফ9,9 বিতরণের ক্ষেত্রে এই ক্ষেত্রে ):

এখানে চিত্র বর্ণনা লিখুন

টি5

একটি সম্পূর্ণ অধ্যয়নের জন্য তদন্ত করার জন্য আরও অনেকগুলি মামলা রয়েছে তবে এটি অন্তত কীভাবে প্রভাবের দিক এবং দিকনির্দেশনা, সেইসাথে এটি কীভাবে উত্থিত হয় তার একটি ধারণা দেয়।


1
সত্যিই দুর্দান্ত ডেমো
শ্যাডট্যালকার

3

যেমন গ্লেন_বি তার অনুকরণে উজ্জ্বলতার সাথে চিত্রিত করেছেন, বৈকল্পিকের অনুপাতের জন্য এফ-পরীক্ষা বিতরণের লেজগুলির সংবেদনশীল। এর কারণটি হ'ল একটি নমুনার বৈকল্পিকতার পার্থক্যটি কার্টোসিস প্যারামিটারের উপর নির্ভর করে এবং তাই অন্তর্নিহিত বিতরণের কুরটোসিস নমুনা বৈকল্পিকের অনুপাতের বিতরণের উপর দৃ strong় প্রভাব ফেলে।

এসএন2এসএন2এন<এন

এসএন2এসএন2~প্রায়এন-1এন-1+ +এন-এনএন-1এফ(ডিএফসি,ডিএফএন),

κ

DFn=2nκ(n3)/(n1)DFC=2(Nn)2+(κ3)(12/N+1/Nn).

κ=3DFn=n1DFC=Nn

κ^


N1এন


+1 এটি একটি খুব আকর্ষণীয় পোস্ট। অবশ্যই মেসোকার্টিক ডিস্ট্রিবিউশনের সাথে ভেরিয়েশন-রেশিও বিতরণটি এফ থেকে যতটা দূরে বন্টনীয় পছন্দের সাথে পরিপূর্ণভাবে সম্ভব পাওয়া সম্ভব তবে কেসগুলি সনাক্ত করা এতটা কঠিন নয় (আমার উত্তরের নমুনা আকারে, 10) এবং 10) যেখানে প্রকৃত টাইপ আই ত্রুটির হার নামমাত্র 0.05 হার থেকে কিছুটা দূরে। প্রথম যে তিনটি ক্ষেত্রে আমি চেষ্টা করেছিলাম (জনসংখ্যা কুর্তোসিস = 3 দিয়ে বিতরণ - সেগুলিও প্রতিসাম্যযুক্ত) এর টাইপ আই প্রত্যাখার হার ছিল 0.0379, 0.0745 এবং 0.0785। ... সিটিডি
গ্লেন_বি -রেইনস্টেট মনিকা

সিটিডি ... আমার কী সন্দেহ হয় যে আরও চরম মামলাগুলি কীভাবে আনুমানিকতা আরও খারাপ করা যায় সে সম্পর্কে চিন্তাভাবনা করে চিহ্নিত করা যেতে পারে। আমি ধারণা করি যে এটি (যে তাত্পর্য স্তরটি খুব বেশি প্রভাবিত হবে না) বৃহত্তর নমুনাগুলিতে আরও ভালভাবে ধরে থাকতে পারে।
গ্লেন_বি -রিনস্টেট মনিকা
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.