আমি আমার ডেটাসেটের একটি অংশ যাচাই করছি যা 46840 দ্বিগুণ রয়েছে যা 1 থেকে 1690 এর মধ্যে দুটি গ্রুপে গ্রুপযুক্ত। এই গোষ্ঠীর মধ্যে পার্থক্য বিশ্লেষণ করার জন্য আমি সঠিক পরীক্ষা বাছাইয়ের জন্য মানগুলির বন্টন পরীক্ষা করে শুরু করেছি।
স্বাভাবিকতার জন্য পরীক্ষার বিষয়ে গাইড অনুসরণ করে আমি একটি কিউকিপ্লট, হিস্টোগ্রাম এবং বক্সপ্লট করেছিলাম।
এটি কোনও সাধারণ বিতরণ বলে মনে হয় না। যেহেতু গাইডটি কিছুটা সঠিকভাবে জানিয়েছে যে একটি খাঁটি গ্রাফিকাল পরীক্ষা যথেষ্ট নয় আমি স্বাভাবিকতার জন্য বন্টনও পরীক্ষা করতে চাই।
আর-তে ডেটাসেটের আকার এবং শাপিরো-উইলক্স পরীক্ষার সীমাবদ্ধতা বিবেচনা করে, প্রদত্ত বিতরণটিকে কীভাবে স্বাভাবিকতার জন্য পরীক্ষা করা উচিত এবং ডেটাসেটের আকার বিবেচনা করে, এটি কি নির্ভরযোগ্য? ( এই প্রশ্নের গৃহীত উত্তর দেখুন )
সম্পাদনা:
আমি উল্লেখ করছি শাপিরো-উইলক পরীক্ষার সীমাবদ্ধতাটি হ'ল টেস্ট করা ডেটাসেট 5000 পয়েন্টের মধ্যে সীমাবদ্ধ। এই বিষয়ে আরও একটি ভাল উত্তর উদ্ধৃত করার জন্য :
শাপিরো-উইলকের পরীক্ষার সাথে একটি অতিরিক্ত সমস্যা হ'ল আপনি যখন এটিকে আরও ডেটা খাওয়ান, নাল অনুমানটি প্রত্যাখ্যান হওয়ার সম্ভাবনা আরও বড় হয়। সুতরাং যা ঘটে তা হ'ল বিপুল পরিমাণে তথ্যের জন্য স্বাভাবিকতা থেকে খুব সামান্য বিচ্যুতিও সনাক্ত করা যায়, যার ফলে ব্যবহারিক উদ্দেশ্যে নাল অনুমানের ঘটনাটিকে প্রত্যাখ্যান করা যায় যা তথ্য যথেষ্ট স্বাভাবিকের চেয়ে বেশি।
[...] ভাগ্যক্রমে shapiro.test ডেটা আকার 5000 এ সীমাবদ্ধ করে উপরের বর্ণিত প্রভাব থেকে ব্যবহারকারীকে সুরক্ষা দেয়।
আমি কেন প্রথম স্থানে সাধারণ বিতরণের জন্য পরীক্ষা করছি:
কিছু হাইপোথিসিস টেস্টগুলি ডেটার সাধারণ বিতরণ অনুমান করে। আমি এই পরীক্ষাগুলি ব্যবহার করতে পারি কিনা তা জানতে চাই।