ডেটা সেটগুলি জনপ্রিয় ভুল বোঝাবুঝির * এর পাল্টা উদাহরণ হিসাবে কাজ করে * বিদ্যমান রয়েছে - আমি বিভিন্ন পরিস্থিতিতে নিজেকে অনেকগুলি তৈরি করেছি, তবে তাদের বেশিরভাগই আপনার কাছে আকর্ষণীয় হবে না, আমি নিশ্চিত।
* (যা অ্যান্সকম্বের ডেটা তা করে, যেহেতু এই ভুল বোঝাবুঝিতে পরিচালিত লোকদের প্রতিক্রিয়া যা আপনি উল্লেখ করেছেন সেই একই পরিসংখ্যান থেকে কোনও মডেলের গুণাগুণ চিহ্নিত করা যায়)
আমি এখানে কয়েকটি অন্তর্ভুক্ত করব যা আমি উত্পন্ন করে সবচেয়ে বেশি আগ্রহী হতে পারে:
1) একটি উদাহরণ (বেশ কয়েকটিগুলির মধ্যে) কয়েকটি উদাহরণ বিচ্ছিন্ন বিতরণ (এবং এর মাধ্যমে ডেটা সেট) আমি সাধারণ দাবির প্রতিরোধ করার জন্য তৈরি করেছি যে শূন্যের তৃতীয়-মুহুর্তের সঙ্কোচিত প্রতিসাম্যতা বোঝায়। (কেন্ডাল এবং স্টুয়ার্টের পরিসংখ্যানের উন্নত তত্ত্ব আরও চিত্তাকর্ষক ধারাবাহিক পরিবার সরবরাহ করে))
এই বিতর্কিত বিতরণের উদাহরণগুলির মধ্যে একটি:
এক্সপি( এক্স= এক্স )- 42 / 613 / 651 / 6
(নমুনা মামলায় কাউন্টারেরেক্সামেলের জন্য সেট করা ডেটা এর দ্বারা সুস্পষ্ট: )- 4 , - 4 , 1 , 1 , 1 , 5
আপনি দেখতে পাচ্ছেন, এই বিতরণটি প্রতিসম নয় , তৃতীয় মুহুর্তের সঙ্কোচটি শূন্য zero একইভাবে, দ্বিতীয় তাত্পর্যপূর্ণ সাধারণ স্কিউনেস পরিমাপের ক্ষেত্রে, দ্বিতীয় পিয়ারসন স্কিউনেস সহগ ( )।3 ( এম ই এ এন - এম ই ডি)আমি একটি এনσ)
প্রকৃতপক্ষে আমি বিতরণ এবং / বা ডেটা সেটও নিয়ে এসেছি যার জন্য দুটি পদক্ষেপ সাইন ইন করার বিপরীতে রয়েছে - যা এই ঝাঁকুনিটি একটি একক, সহজেই উপলব্ধি করা ধারণা, এর চেয়ে সামান্য পিচ্ছিল ধারণার চেয়ে এই ধারণাটির বিরুদ্ধে লড়াই করে যা যথেষ্ট বিভিন্ন ক্ষেত্রে কীভাবে উপযুক্তভাবে পরিমাপ করতে হয় তা জানেন।
2) এই উত্তরে ডেটাগুলির একটি সেট তৈরি করা আছে চুনপ্রাদাব এবং ম্যাকনিল (২০০৫) এর পদ্ধতির অনুসরণ করে মাল্টিমোডাল বিতরণের জন্য বক্স-ও-হুইস্কার প্লটের এই জবাবটিতে ডেটাগুলির একটি সেট তৈরি করা হয়েছে, যা একই বক্সপ্লটের সাথে চারটি ভিন্ন-বর্ণিত ডেটা সেট দেখায়।
বিশেষত, প্রতিসম বক্সপ্লট সহ সুস্পষ্টভাবে স্কিউড বিতরণটি মানুষকে অবাক করে।
৩) হিস্টোগ্রামগুলির উপর মানুষের অতিরিক্ত নির্ভরতার প্রতিক্রিয়া হিসাবে আমি নির্মিত আরও কয়েকটি দ্য ডেটা সংগ্রহের সংকলন রয়েছে, বিশেষত কেবল কয়েকটি বিন এবং কেবল একটি বিন-প্রস্থ এবং বিন-উত্সে; যা বিতরণের আকার সম্পর্কে ভুলভাবে আত্মবিশ্বাসের দৃser়তার দিকে পরিচালিত করে। এই ডেটা সেট এবং উদাহরণ প্রদর্শনগুলি এখানে পাওয়া যাবে
সেখান থেকে পাওয়া উদাহরণগুলির মধ্যে একটি এখানে। এটি ডেটা:
1.03, 1.24, 1.47, 1.52, 1.92, 1.93, 1.94, 1.95, 1.96, 1.97, 1.98,
1.99, 2.72, 2.75, 2.78, 2.81, 2.84, 2.87, 2.90, 2.93, 2.96, 2.99, 3.60,
3.64, 3.66, 3.72, 3.77, 3.88, 3.91, 4.14, 4.54, 4.77, 4.81, 5.62
এবং এখানে দুটি হিস্টোগ্রাম রয়েছে:
10.8
x <- c(1.03, 1.24, 1.47, 1.52, 1.92, 1.93, 1.94, 1.95, 1.96, 1.97, 1.98,
1.99, 2.72, 2.75, 2.78, 2.81, 2.84, 2.87, 2.9, 2.93, 2.96, 2.99, 3.6,
3.64, 3.66, 3.72, 3.77, 3.88, 3.91, 4.14, 4.54, 4.77, 4.81, 5.62)
hist(x,breaks=seq(0.3,6.7,by=0.8),xlim=c(0,6.7),col="green3",freq=FALSE)
hist(x,breaks=0:8,col="aquamarine",freq=FALSE)
পি( বি > এ ) > ১2 (যেমন উপসংহারে পৌঁছান যে বি A এর চেয়ে বড় হবে), এবং অনুরূপভাবে B এর বিপরীতে, এবং A এর বিপরীতে (বা D এর বিপরীতে এবং D এর বিপরীতে 4 নমুনা মামলার ক্ষেত্রে); প্রতিটি চক্রের আগেরটির তুলনায় বৃহত্তর হয়ে থাকে (এই অর্থে এটি বৃহত্তর হওয়ার সম্ভাবনার চেয়েও বেশি থাকে)।
A থেকে D লেবেলযুক্ত প্রতিটি নমুনায় 30 টি পর্যবেক্ষণ সহ এখানে এমন একটি ডেটা সেট রয়েছে:
1 2 3 4 5 6 7 8 9 10 11 12
A 1.58 2.10 16.64 17.34 18.74 19.90 1.53 2.78 16.48 17.53 18.57 19.05
B 3.35 4.62 5.03 20.97 21.25 22.92 3.12 4.83 5.29 20.82 21.64 22.06
C 6.63 7.92 8.15 9.97 23.34 24.70 6.40 7.54 8.24 9.37 23.33 24.26
D 10.21 11.19 12.99 13.22 14.17 15.99 10.32 11.33 12.65 13.24 14.90 15.50
13 14 15 16 17 18 19 20 21 22 23 24
A 1.64 2.01 16.79 17.10 18.14 19.70 1.25 2.73 16.19 17.76 18.82 19.08
B 3.39 4.67 5.34 20.52 21.10 22.29 3.38 4.96 5.70 20.45 21.67 22.89
C 6.18 7.74 8.63 9.62 23.07 24.80 6.54 7.37 8.37 9.09 23.22 24.16
D 10.20 11.47 12.54 13.08 14.45 15.38 10.87 11.56 12.98 13.99 14.82 15.65
25 26 27 28 29 30
A 1.42 2.56 16.73 17.01 18.86 19.98
B 3.44 4.13 6.00 20.85 21.82 22.05
C 6.57 7.58 8.81 9.08 23.43 24.45
D 10.29 11.48 12.19 13.09 14.68 15.36
এখানে একটি উদাহরণ পরীক্ষা:
> wilcox.test(adf$A,adf$B,alt="less",conf.int=TRUE)
Wilcoxon rank sum test
data: adf$A and adf$B
W = 300, p-value = 0.01317
alternative hypothesis: true location shift is less than 0
95 percent confidence interval:
-Inf -1.336372
sample estimates:
difference in location
-2.500199
যেমন আপনি দেখতে পাচ্ছেন, একতরফা পরীক্ষা নালকে প্রত্যাখ্যান করে; বি এর মানগুলির তুলনায় এ থেকে মানগুলি ছোট হতে থাকে The একই উপসংহারটি (একই পি-মান অনুসারে) বি বনাম সি, সি বনাম ডি এবং ডি বনাম এ প্রযোজ্য। প্রত্যাখ্যানের এই চক্রটি স্বয়ংক্রিয়ভাবে কোনও সমস্যা নয় is , যদি আমরা এর অর্থ কিছু বোঝাতে না পারি তবে তা হয় না। (অনুরূপ, তবে বৃহত্তর, নমুনাগুলির সাথে অনেক ছোট পি-মানগুলি পাওয়া সহজ বিষয়))
এখানে বৃহত্তর "প্যারাডক্স" আসে যখন আপনি লোকেশন শিফটের জন্য (এই ক্ষেত্রে একতরফা) অন্তরগুলি গণনা করেন - প্রতিটি ক্ষেত্রে 0 বাদ দেওয়া হয় (প্রতিটি ক্ষেত্রে অন্তরগুলি অভিন্ন নয়)। এটি আমাদের এই সিদ্ধান্তে পৌঁছে দেয় যে আমরা যখন A থেকে B থেকে C তে ডেটা কলামগুলি পেরিয়ে যাচ্ছি তখন অবস্থানটি ডানে চলে যায়, এবং আমরা আবার এ-তে ফিরে গেলে আবার একই ঘটনা ঘটে
এই ডেটা সেটগুলির বৃহত সংস্করণ (মানগুলির অনুরূপ বিতরণ, তবে তাদের আরও অনেকগুলি) সহ আমরা উল্লেখযোগ্যভাবে ছোট তাত্পর্য স্তরে তাত্পর্য (এক বা দুটি লেজযুক্ত) পেতে পারি, যাতে কেউ উদাহরণস্বরূপ বোনফেরনির সামঞ্জস্য ব্যবহার করতে পারে এবং প্রতিটিটি এখনও উপসংহারে পৌঁছে যায় গোষ্ঠীটি একটি বিতরণ থেকে এসেছিল যা পরেরটি থেকে স্থানান্তরিত হয়েছিল।
এটি আমাদের অন্যান্য বিষয়ের মধ্যেও দেখায় যে উইলকক্সন-মান-হুইটনিতে প্রত্যাখ্যান স্বয়ংক্রিয়ভাবে লোকেশন শিফটের দাবিকে ন্যায়সঙ্গত করে না।
(যদিও এই ডেটাগুলির ক্ষেত্রে এটি না হয়, সেখানে নমুনার মাধ্যম স্থির থাকে এমন সেটগুলিও তৈরি করা সম্ভব হয়, যখন উপরের মত ফলাফল প্রয়োগ হয়।)
পরবর্তী সম্পাদনায় যুক্ত করা হয়েছে: এটি সম্পর্কে একটি খুব তথ্যমূলক এবং শিক্ষাগত তথ্যসূত্র
ব্রাউন বিএম, এবং হিটম্যানস্পার্গার টিপি। (2002)
কৃসকল-ওয়ালিস, একাধিক কমোপ্রাইজনস এবং ইফ্রন ডাইস।
অস্ট ও এন.জেডজে স্ট্যাটাস। , 44 , 427–438।
৫) সম্পর্কিত আরও কয়েকটি দম্পতি এখানে উপস্থিত হয়েছে - যেখানে একটি আনোভা উল্লেখযোগ্য হতে পারে তবে সমস্ত যুগল তুলনা হয় না (সেখানে দুটি পৃথক উপায়ে ব্যাখ্যা করা হয়, বিভিন্ন উত্স প্রতিপন্ন করে)।
সুতরাং বেশ কয়েকটি প্রতিবিম্বিত ডেটা সেট রয়েছে যা ভুলগুলির মধ্যে যেগুলির মুখোমুখি হতে পারে তার বিরোধিতা করে।
আপনারা যেমন অনুমান করতে পারেন, আমি সাধারণত প্রয়োজন দেখা দেওয়ার সাথে সাথে প্রায়শই (অন্যান্য অনেক লোকের মতো) এ জাতীয় প্রতিরূপের উদাহরণগুলি তৈরি করি। এগুলির মধ্যে কিছু সাধারণ ভুল বোঝাবুঝির জন্য, আপনি পাল্টানো উদাহরণগুলি এমনভাবে বৈশিষ্ট্যযুক্ত করতে পারেন যাতে ইচ্ছামত নতুন উত্পন্ন হতে পারে (যদিও প্রায়শই, একটি নির্দিষ্ট স্তরের কাজ জড়িত থাকে)।
আপনার যদি আগ্রহী হতে পারে এমন কোনও ধরণের জিনিস থাকে তবে আমি এই জাতীয় আরও কিছু সেট (আমার বা অন্য লোকের) বা সম্ভবত কিছু নির্মাণ করতে সক্ষম হতে পারি।
র্যান্ডম রিগ্রেশন ডেটা উত্পন্ন করার জন্য একটি দরকারী কৌশল যা আপনি চান সহগের রয়েছে নিম্নরূপ (বন্ধনীগুলির অংশটি আর কোডের একটি রূপরেখা):
ক) কোন গোলমাল ছাড়াই আপনি চান সহগগুলি সেট আপ করুন ( y = b0 + b1 * x1 + b2 * x2
)
খ) পছন্দসই বৈশিষ্ট্য সহ ত্রুটি শব্দ উত্পন্ন ( n = rnorm(length(y),s=0.4
)
গ) একই এক্স এর ( nfit = lm(n~x1+x2)
) এর উপর শব্দের একটি প্রতিরোধ সেট আপ করুন
d) তার থেকে y ভ্যারিয়েবলের সাথে অবশিষ্টাংশ যুক্ত করুন ( y = y + nfit$residuals
)
সম্পন্ন. (পুরো জিনিসটি আর এর কয়েক লাইনেই করা যায়)