স্বাভাবিকতার জন্য বড় ডেটাসেট পরীক্ষা করা - এটি কীভাবে এবং নির্ভরযোগ্য?


12

আমি আমার ডেটাসেটের একটি অংশ যাচাই করছি যা 46840 দ্বিগুণ রয়েছে যা 1 থেকে 1690 এর মধ্যে দুটি গ্রুপে গ্রুপযুক্ত। এই গোষ্ঠীর মধ্যে পার্থক্য বিশ্লেষণ করার জন্য আমি সঠিক পরীক্ষা বাছাইয়ের জন্য মানগুলির বন্টন পরীক্ষা করে শুরু করেছি।

স্বাভাবিকতার জন্য পরীক্ষার বিষয়ে গাইড অনুসরণ করে আমি একটি কিউকিপ্লট, হিস্টোগ্রাম এবং বক্সপ্লট করেছিলাম।

এখানে চিত্র বর্ণনা লিখুন

এখানে চিত্র বর্ণনা লিখুন এখানে চিত্র বর্ণনা লিখুন

এটি কোনও সাধারণ বিতরণ বলে মনে হয় না। যেহেতু গাইডটি কিছুটা সঠিকভাবে জানিয়েছে যে একটি খাঁটি গ্রাফিকাল পরীক্ষা যথেষ্ট নয় আমি স্বাভাবিকতার জন্য বন্টনও পরীক্ষা করতে চাই।

আর-তে ডেটাসেটের আকার এবং শাপিরো-উইলক্স পরীক্ষার সীমাবদ্ধতা বিবেচনা করে, প্রদত্ত বিতরণটিকে কীভাবে স্বাভাবিকতার জন্য পরীক্ষা করা উচিত এবং ডেটাসেটের আকার বিবেচনা করে, এটি কি নির্ভরযোগ্য? ( এই প্রশ্নের গৃহীত উত্তর দেখুন )

সম্পাদনা:

আমি উল্লেখ করছি শাপিরো-উইলক পরীক্ষার সীমাবদ্ধতাটি হ'ল টেস্ট করা ডেটাসেট 5000 পয়েন্টের মধ্যে সীমাবদ্ধ। এই বিষয়ে আরও একটি ভাল উত্তর উদ্ধৃত করার জন্য :

শাপিরো-উইলকের পরীক্ষার সাথে একটি অতিরিক্ত সমস্যা হ'ল আপনি যখন এটিকে আরও ডেটা খাওয়ান, নাল অনুমানটি প্রত্যাখ্যান হওয়ার সম্ভাবনা আরও বড় হয়। সুতরাং যা ঘটে তা হ'ল বিপুল পরিমাণে তথ্যের জন্য স্বাভাবিকতা থেকে খুব সামান্য বিচ্যুতিও সনাক্ত করা যায়, যার ফলে ব্যবহারিক উদ্দেশ্যে নাল অনুমানের ঘটনাটিকে প্রত্যাখ্যান করা যায় যা তথ্য যথেষ্ট স্বাভাবিকের চেয়ে বেশি।

[...] ভাগ্যক্রমে shapiro.test ডেটা আকার 5000 এ সীমাবদ্ধ করে উপরের বর্ণিত প্রভাব থেকে ব্যবহারকারীকে সুরক্ষা দেয়।

আমি কেন প্রথম স্থানে সাধারণ বিতরণের জন্য পরীক্ষা করছি:

কিছু হাইপোথিসিস টেস্টগুলি ডেটার সাধারণ বিতরণ অনুমান করে। আমি এই পরীক্ষাগুলি ব্যবহার করতে পারি কিনা তা জানতে চাই।


11
কোনও পয়েন্ট টেস্টিং নেই; যে কোনও ব্যবহারের প্রতিটি পরীক্ষা, একটি যুক্তিসঙ্গত তাত্পর্য স্তর স্পষ্টভাবে প্রত্যাখ্যান করবে। আপনি যে গাইড পড়ছেন তা আপনাকে বিভ্রান্ত করেছে। 'নির্ভরযোগ্য' বলতে কী বোঝায়? শাপিরো-উইলকের কোন 'সীমাবদ্ধতা' আপনি উল্লেখ করেন? আপনি যে উত্তরটির সাথে লিঙ্ক করেছেন তার সাথে আমি এই বক্তব্যের সাথে প্রায় একমত হব ... "" আমি কখনও এমন পরিস্থিতি পাইনি যেখানে একটি সাধারণ পরীক্ষা করা সঠিক জিনিস "(আমি কমপক্ষে একবার এমন পরিস্থিতি দেখেছি যেখানে আমি মনে করি এটি এটি সঠিক জিনিস করার জন্য, তবে লোকেরা প্রায়শই খারাপ কারণে এটি করে)।
গ্লেন_বি

@ গ্লেন_বি: ঘটনাক্রমে, আমি নিজেকে শাপিরো- উইল্ককে অন্যদিন নালীর বিরুদ্ধে প্রমাণাদি প্রমাণের জন্য ব্যবহার করতে দেখলাম , যা একাডেমিয়ার উপরের কেউ ভুল করে গ্রেডের নমুনার চেয়ে বেশি বলে ধরে নিয়েছিল। আমি অবাক হয়েছি যদি এটি ডিফেসেবল ব্যবহার হয়।
নিক স্টাওনার

@ নিকস্টাউনের আমার প্রতিক্রিয়াটি একটি মন্তব্যের জন্য অনেক দীর্ঘ বৃদ্ধি পেয়েছে এবং আমি আপনার পোস্টটি সম্পর্কে মন্তব্যগুলির একটি স্ট্রিং দিয়ে এই প্রশ্নটি হাইজ্যাক করতে চাই না। সম্ভাবনাগুলি: আমরা আড্ডায় কথা বলি, বা আপনি এটি সম্পর্কে একটি প্রশ্ন পোস্ট করুন (যার কাছে আমি একটি বিস্তৃত উত্তর পোস্ট করতে পারি), বা আমরা ইমেল এর মতো অন্য কোনও উপায়ে এটি আলোচনা করি।
গ্লেন_বি

উত্তর:


14

আপনি কেন বিরক্ত করবেন তা আমি দেখছি না। এটি স্পষ্টতই স্বাভাবিক নয় - এই ক্ষেত্রে, গ্রাফিকাল পরীক্ষা আমার পক্ষে যথেষ্ট উপস্থিত হয়। একটি সুন্দর পরিষ্কার গামা বিতরণ বলে মনে হচ্ছে তা থেকে আপনি প্রচুর পর্যবেক্ষণ পেয়েছেন। শুধু যে সাথে যেতে। যদি আপনার অবশ্যই হয় - আমি একটি রেফারেন্স বিতরণ করার পরামর্শ দেব।

x=rgamma(46840,2.13,.0085);qqnorm(x);qqline(x,col='red')
এখানে চিত্র বর্ণনা লিখুন

hist(rgamma(46840,2.13,.0085))

boxplot(rgamma(46840,2.13,.0085))

যেমন আমি সবসময় বলে থাকি, "দেখুন কি স্বাভাবিকতা পরীক্ষাটি 'প্রয়োজনীয়ভাবে অকেজো' ?, " বিশেষত @ ম্যানস্টের উত্তর , যা উল্লেখ করে যে বিভিন্ন বিশ্লেষণে স্বাভাবিকতা অনুমানের বিভিন্ন লঙ্ঘনের ক্ষেত্রে বিভিন্ন সংবেদনশীলতা রয়েছে। আপনার বিতরণটি দেখতে যেমন দেখতে আমার কাছাকাছি হয়, আপনি সম্ভবত স্কিউ এবং ("অতিরিক্ত " ) পেয়েছেন। এটি অনেক পরীক্ষার জন্য সমস্যা হতে পারে। আপনি যদি আরও উপযুক্ত প্যারাম্যাট্রিক অনুমান বা একেবারে কিছুই না দিয়ে কেবল কোনও পরীক্ষা খুঁজে না পান তবে সম্ভবত আপনি আপনার ডেটা রুপান্তর করতে পারেন, বা আপনার মনে যে বিশ্লেষণ রয়েছে তা অন্তত সংবেদনশীলতা বিশ্লেষণ পরিচালনা করতে পারেন।5.9 2.91.45.92.9

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.