আমার কাছে চিকিত্সা ব্যয় সম্পর্কিত ডেটা কয়েক হাজার পর্যবেক্ষণ সহ একটি ডেটা সেট করা আছে। এই ডেটাটি ডান দিকে উচ্চ স্কিউড এবং প্রচুর শূন্য রয়েছে। দুই সেট লোকের জন্য এটি দেখতে এটির মতো দেখাচ্ছে (এই ক্ষেত্রে>>>>>
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.0 0.0 0.0 4536.0 302.6 395300.0
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.0 0.0 0.0 4964.0 423.8 721700.0
আমি যদি এই ডেটাতে ওয়েলচের টি-টেস্ট করি তবে আমি ফলাফল ফিরে পাব:
Welch Two Sample t-test
data: x and y
t = -0.4777, df = 3366.488, p-value = 0.6329
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-2185.896 1329.358
sample estimates:
mean of x mean of y
4536.186 4964.455
আমি জানি যে এই ডেটাটি খুব খারাপভাবে অস্বাভাবিক হওয়া থেকে কোনও টি-টেস্ট ব্যবহার করা সঠিক নয়। যাইহোক, যদি আমি উপায়গুলির পার্থক্যের জন্য ক্রমুয়েশন পরীক্ষা ব্যবহার করি তবে আমি সমস্ত সময় প্রায় একই পি-মান পাই (এবং এটি আরও পুনরাবৃত্তির সাথে আরও ঘনিষ্ঠ হয়)।
আরে परमিট প্যাকেজ ব্যবহার করা হচ্ছে এবং সঠিক মন্টি কার্লো সহ परमটিএস
Exact Permutation Test Estimated by Monte Carlo
data: x and y
p-value = 0.6188
alternative hypothesis: true mean x - mean y is not equal to 0
sample estimates:
mean x - mean y
-428.2691
p-value estimated from 500 Monte Carlo replications
99 percent confidence interval on p-value:
0.5117552 0.7277040
কেন পারমিটেশন টেস্টের পরিসংখ্যানগুলি টেস্টেস্টের মানটির কাছাকাছি চলে আসছে? আমি যদি ডেটা লগগুলি নিই তবে আমি 0.28 এর একটি টেস্টেস্ট পি-মান এবং ক্রমুশন পরীক্ষা থেকে একই পাই। আমি ভেবেছিলাম যে টি-পরীক্ষার মানগুলি এখানে যা পাচ্ছি তার চেয়ে বেশি আবর্জনা হবে। আমার মতো আরও অনেক ডেটা সেটের ক্ষেত্রে এটি সত্য এবং টি-টেস্টটি যখন এটি করা উচিত নয় তখন কেন কাজ করছে বলে মনে হচ্ছে তা ভাবছি।
এখানে আমার উদ্বেগটি হ'ল পৃথক ব্যয়গুলি আইডি নয় এমন অনেকগুলি উপ-গ্রুপ রয়েছে যারা খুব বেশি ব্যয় বন্টন করে থাকে (মহিলা বনাম পুরুষ, দীর্ঘস্থায়ী পরিস্থিতি ইত্যাদি) যা কেন্দ্রীয় সীমাবদ্ধতা উপপাদনের জন্য আইডির প্রয়োজনীয়তাটি বিলোপ করে বলে মনে হয়, বা আমার চিন্তা করা উচিত নয় যে সম্পর্কে?