অঙ্কসেম্বের চৌকোটির মতো একই উদ্দেশ্যে নির্মিত ডেটাসেটগুলি


32

আমি সবেমাত্র আনসকম্বের চৌকোমিটি জুড়ে এসেছি (চারটি ডেটাসেট যা প্রায় পৃথক বর্ণনামূলক বর্ণনামূলক পরিসংখ্যান রয়েছে তবে পরিকল্পনার সময় খুব আলাদা দেখায়) এবং যদি আমি আরও কিছু বা কম সুপরিচিত ডেটাসেটগুলি নির্দিষ্ট দিকগুলির গুরুত্ব প্রদর্শনের জন্য তৈরি করা হয়েছে তা জানতে আগ্রহী am পরিসংখ্যান বিশ্লেষণ।


3
এই সাইটের অবশ্যই এই মুহুর্তে বেশ কয়েকটি শতাধিক ডেটাसेट থাকতে হবে, যদি না হয় তবে এর উত্তরগুলিতে ছড়িয়ে ছিটিয়ে থাকে। যদিও তাদের সন্ধানের কোনও নিয়মতান্ত্রিক উপায় নেই তবে জনপ্রিয় ট্যাগ যেমন রিগ্রেশন ট্যাগের জন্য সর্বাধিক-ভোট প্রাপ্ত থ্রেডগুলির তাত্ক্ষণিক দৃষ্টি আকর্ষণ করবে: এই অনুসন্ধানের চেষ্টা করুন ।
whuber

2
কিছু প্রত্যক্ষ প্রাসঙ্গিকতার ব্লগ.রেভলিউশনালিটিক্স.কম
হাইবারনেটিং

উত্তর:


30

ডেটা সেটগুলি জনপ্রিয় ভুল বোঝাবুঝির * এর পাল্টা উদাহরণ হিসাবে কাজ করে * বিদ্যমান রয়েছে - আমি বিভিন্ন পরিস্থিতিতে নিজেকে অনেকগুলি তৈরি করেছি, তবে তাদের বেশিরভাগই আপনার কাছে আকর্ষণীয় হবে না, আমি নিশ্চিত।

* (যা অ্যান্সকম্বের ডেটা তা করে, যেহেতু এই ভুল বোঝাবুঝিতে পরিচালিত লোকদের প্রতিক্রিয়া যা আপনি উল্লেখ করেছেন সেই একই পরিসংখ্যান থেকে কোনও মডেলের গুণাগুণ চিহ্নিত করা যায়)

আমি এখানে কয়েকটি অন্তর্ভুক্ত করব যা আমি উত্পন্ন করে সবচেয়ে বেশি আগ্রহী হতে পারে:

1) একটি উদাহরণ (বেশ কয়েকটিগুলির মধ্যে) কয়েকটি উদাহরণ বিচ্ছিন্ন বিতরণ (এবং এর মাধ্যমে ডেটা সেট) আমি সাধারণ দাবির প্রতিরোধ করার জন্য তৈরি করেছি যে শূন্যের তৃতীয়-মুহুর্তের সঙ্কোচিত প্রতিসাম্যতা বোঝায়। (কেন্ডাল এবং স্টুয়ার্টের পরিসংখ্যানের উন্নত তত্ত্ব আরও চিত্তাকর্ষক ধারাবাহিক পরিবার সরবরাহ করে))

এই বিতর্কিত বিতরণের উদাহরণগুলির মধ্যে একটি:

এক্স-415পি(এক্স=এক্স)2/63/61/6

(নমুনা মামলায় কাউন্টারেরেক্সামেলের জন্য সেট করা ডেটা এর দ্বারা সুস্পষ্ট: )-4,-4,1,1,1,5

আপনি দেখতে পাচ্ছেন, এই বিতরণটি প্রতিসম নয় , তৃতীয় মুহুর্তের সঙ্কোচটি শূন্য zero একইভাবে, দ্বিতীয় তাত্পর্যপূর্ণ সাধারণ স্কিউনেস পরিমাপের ক্ষেত্রে, দ্বিতীয় পিয়ারসন স্কিউনেস সহগ ( )।3(মিএকটিএন-মিআমিএকটিএনσ)

প্রকৃতপক্ষে আমি বিতরণ এবং / বা ডেটা সেটও নিয়ে এসেছি যার জন্য দুটি পদক্ষেপ সাইন ইন করার বিপরীতে রয়েছে - যা এই ঝাঁকুনিটি একটি একক, সহজেই উপলব্ধি করা ধারণা, এর চেয়ে সামান্য পিচ্ছিল ধারণার চেয়ে এই ধারণাটির বিরুদ্ধে লড়াই করে যা যথেষ্ট বিভিন্ন ক্ষেত্রে কীভাবে উপযুক্তভাবে পরিমাপ করতে হয় তা জানেন।

2) এই উত্তরে ডেটাগুলির একটি সেট তৈরি করা আছে চুনপ্রাদাব এবং ম্যাকনিল (২০০৫) এর পদ্ধতির অনুসরণ করে মাল্টিমোডাল বিতরণের জন্য বক্স-ও-হুইস্কার প্লটের এই জবাবটিতে ডেটাগুলির একটি সেট তৈরি করা হয়েছে, যা একই বক্সপ্লটের সাথে চারটি ভিন্ন-বর্ণিত ডেটা সেট দেখায়।

এখানে চিত্র বর্ণনা লিখুন

বিশেষত, প্রতিসম বক্সপ্লট সহ সুস্পষ্টভাবে স্কিউড বিতরণটি মানুষকে অবাক করে।

৩) হিস্টোগ্রামগুলির উপর মানুষের অতিরিক্ত নির্ভরতার প্রতিক্রিয়া হিসাবে আমি নির্মিত আরও কয়েকটি দ্য ডেটা সংগ্রহের সংকলন রয়েছে, বিশেষত কেবল কয়েকটি বিন এবং কেবল একটি বিন-প্রস্থ এবং বিন-উত্সে; যা বিতরণের আকার সম্পর্কে ভুলভাবে আত্মবিশ্বাসের দৃser়তার দিকে পরিচালিত করে। এই ডেটা সেট এবং উদাহরণ প্রদর্শনগুলি এখানে পাওয়া যাবে

সেখান থেকে পাওয়া উদাহরণগুলির মধ্যে একটি এখানে। এটি ডেটা:

  1.03, 1.24, 1.47, 1.52, 1.92, 1.93, 1.94, 1.95, 1.96, 1.97, 1.98, 
  1.99, 2.72, 2.75, 2.78, 2.81, 2.84, 2.87, 2.90, 2.93, 2.96, 2.99, 3.60, 
  3.64, 3.66, 3.72, 3.77, 3.88, 3.91, 4.14, 4.54, 4.77, 4.81, 5.62

এবং এখানে দুটি হিস্টোগ্রাম রয়েছে:

স্কিউ বনাম বেল

10.8

x <- c(1.03, 1.24, 1.47, 1.52, 1.92, 1.93, 1.94, 1.95, 1.96, 1.97, 1.98, 
  1.99, 2.72, 2.75, 2.78, 2.81, 2.84, 2.87, 2.9, 2.93, 2.96, 2.99, 3.6, 
  3.64, 3.66, 3.72, 3.77, 3.88, 3.91, 4.14, 4.54, 4.77, 4.81, 5.62)
hist(x,breaks=seq(0.3,6.7,by=0.8),xlim=c(0,6.7),col="green3",freq=FALSE)
hist(x,breaks=0:8,col="aquamarine",freq=FALSE)

পি(বি>একজন)>12 (যেমন উপসংহারে পৌঁছান যে বি A এর চেয়ে বড় হবে), এবং অনুরূপভাবে B এর বিপরীতে, এবং A এর বিপরীতে (বা D এর বিপরীতে এবং D এর বিপরীতে 4 নমুনা মামলার ক্ষেত্রে); প্রতিটি চক্রের আগেরটির তুলনায় বৃহত্তর হয়ে থাকে (এই অর্থে এটি বৃহত্তর হওয়ার সম্ভাবনার চেয়েও বেশি থাকে)।

A থেকে D লেবেলযুক্ত প্রতিটি নমুনায় 30 টি পর্যবেক্ষণ সহ এখানে এমন একটি ডেটা সেট রয়েছে:

       1     2     3     4     5     6     7     8     9    10    11    12
 A  1.58  2.10 16.64 17.34 18.74 19.90  1.53  2.78 16.48 17.53 18.57 19.05
 B  3.35  4.62  5.03 20.97 21.25 22.92  3.12  4.83  5.29 20.82 21.64 22.06
 C  6.63  7.92  8.15  9.97 23.34 24.70  6.40  7.54  8.24  9.37 23.33 24.26
 D 10.21 11.19 12.99 13.22 14.17 15.99 10.32 11.33 12.65 13.24 14.90 15.50

      13    14    15    16    17    18    19    20    21    22    23    24
 A  1.64  2.01 16.79 17.10 18.14 19.70  1.25  2.73 16.19 17.76 18.82 19.08
 B  3.39  4.67  5.34 20.52 21.10 22.29  3.38  4.96  5.70 20.45 21.67 22.89
 C  6.18  7.74  8.63  9.62 23.07 24.80  6.54  7.37  8.37  9.09 23.22 24.16
 D 10.20 11.47 12.54 13.08 14.45 15.38 10.87 11.56 12.98 13.99 14.82 15.65

      25    26    27    28    29    30
 A  1.42  2.56 16.73 17.01 18.86 19.98
 B  3.44  4.13  6.00 20.85 21.82 22.05
 C  6.57  7.58  8.81  9.08 23.43 24.45
 D 10.29 11.48 12.19 13.09 14.68 15.36

এখানে একটি উদাহরণ পরীক্ষা:

> wilcox.test(adf$A,adf$B,alt="less",conf.int=TRUE)

    Wilcoxon rank sum test

data:  adf$A and adf$B
W = 300, p-value = 0.01317
alternative hypothesis: true location shift is less than 0
95 percent confidence interval:
      -Inf -1.336372
sample estimates:
difference in location 
             -2.500199 

যেমন আপনি দেখতে পাচ্ছেন, একতরফা পরীক্ষা নালকে প্রত্যাখ্যান করে; বি এর মানগুলির তুলনায় এ থেকে মানগুলি ছোট হতে থাকে The একই উপসংহারটি (একই পি-মান অনুসারে) বি বনাম সি, সি বনাম ডি এবং ডি বনাম এ প্রযোজ্য। প্রত্যাখ্যানের এই চক্রটি স্বয়ংক্রিয়ভাবে কোনও সমস্যা নয় is , যদি আমরা এর অর্থ কিছু বোঝাতে না পারি তবে তা হয় না। (অনুরূপ, তবে বৃহত্তর, নমুনাগুলির সাথে অনেক ছোট পি-মানগুলি পাওয়া সহজ বিষয়))

এখানে বৃহত্তর "প্যারাডক্স" আসে যখন আপনি লোকেশন শিফটের জন্য (এই ক্ষেত্রে একতরফা) অন্তরগুলি গণনা করেন - প্রতিটি ক্ষেত্রে 0 বাদ দেওয়া হয় (প্রতিটি ক্ষেত্রে অন্তরগুলি অভিন্ন নয়)। এটি আমাদের এই সিদ্ধান্তে পৌঁছে দেয় যে আমরা যখন A থেকে B থেকে C তে ডেটা কলামগুলি পেরিয়ে যাচ্ছি তখন অবস্থানটি ডানে চলে যায়, এবং আমরা আবার এ-তে ফিরে গেলে আবার একই ঘটনা ঘটে

এই ডেটা সেটগুলির বৃহত সংস্করণ (মানগুলির অনুরূপ বিতরণ, তবে তাদের আরও অনেকগুলি) সহ আমরা উল্লেখযোগ্যভাবে ছোট তাত্পর্য স্তরে তাত্পর্য (এক বা দুটি লেজযুক্ত) পেতে পারি, যাতে কেউ উদাহরণস্বরূপ বোনফেরনির সামঞ্জস্য ব্যবহার করতে পারে এবং প্রতিটিটি এখনও উপসংহারে পৌঁছে যায় গোষ্ঠীটি একটি বিতরণ থেকে এসেছিল যা পরেরটি থেকে স্থানান্তরিত হয়েছিল।

এটি আমাদের অন্যান্য বিষয়ের মধ্যেও দেখায় যে উইলকক্সন-মান-হুইটনিতে প্রত্যাখ্যান স্বয়ংক্রিয়ভাবে লোকেশন শিফটের দাবিকে ন্যায়সঙ্গত করে না।

(যদিও এই ডেটাগুলির ক্ষেত্রে এটি না হয়, সেখানে নমুনার মাধ্যম স্থির থাকে এমন সেটগুলিও তৈরি করা সম্ভব হয়, যখন উপরের মত ফলাফল প্রয়োগ হয়।)

পরবর্তী সম্পাদনায় যুক্ত করা হয়েছে: এটি সম্পর্কে একটি খুব তথ্যমূলক এবং শিক্ষাগত তথ্যসূত্র

ব্রাউন বিএম, এবং হিটম্যানস্পার্গার টিপি। (2002)
কৃসকল-ওয়ালিস, একাধিক কমোপ্রাইজনস এবং ইফ্রন ডাইস।
অস্ট ও এন.জেডজে স্ট্যাটাস। , 44 , 427–438।

৫) সম্পর্কিত আরও কয়েকটি দম্পতি এখানে উপস্থিত হয়েছে - যেখানে একটি আনোভা উল্লেখযোগ্য হতে পারে তবে সমস্ত যুগল তুলনা হয় না (সেখানে দুটি পৃথক উপায়ে ব্যাখ্যা করা হয়, বিভিন্ন উত্স প্রতিপন্ন করে)।


সুতরাং বেশ কয়েকটি প্রতিবিম্বিত ডেটা সেট রয়েছে যা ভুলগুলির মধ্যে যেগুলির মুখোমুখি হতে পারে তার বিরোধিতা করে।

আপনারা যেমন অনুমান করতে পারেন, আমি সাধারণত প্রয়োজন দেখা দেওয়ার সাথে সাথে প্রায়শই (অন্যান্য অনেক লোকের মতো) এ জাতীয় প্রতিরূপের উদাহরণগুলি তৈরি করি। এগুলির মধ্যে কিছু সাধারণ ভুল বোঝাবুঝির জন্য, আপনি পাল্টানো উদাহরণগুলি এমনভাবে বৈশিষ্ট্যযুক্ত করতে পারেন যাতে ইচ্ছামত নতুন উত্পন্ন হতে পারে (যদিও প্রায়শই, একটি নির্দিষ্ট স্তরের কাজ জড়িত থাকে)।

আপনার যদি আগ্রহী হতে পারে এমন কোনও ধরণের জিনিস থাকে তবে আমি এই জাতীয় আরও কিছু সেট (আমার বা অন্য লোকের) বা সম্ভবত কিছু নির্মাণ করতে সক্ষম হতে পারি।


র্যান্ডম রিগ্রেশন ডেটা উত্পন্ন করার জন্য একটি দরকারী কৌশল যা আপনি চান সহগের রয়েছে নিম্নরূপ (বন্ধনীগুলির অংশটি আর কোডের একটি রূপরেখা):

ক) কোন গোলমাল ছাড়াই আপনি চান সহগগুলি সেট আপ করুন ( y = b0 + b1 * x1 + b2 * x2)

খ) পছন্দসই বৈশিষ্ট্য সহ ত্রুটি শব্দ উত্পন্ন ( n = rnorm(length(y),s=0.4)

গ) একই এক্স এর ( nfit = lm(n~x1+x2)) এর উপর শব্দের একটি প্রতিরোধ সেট আপ করুন

d) তার থেকে y ভ্যারিয়েবলের সাথে অবশিষ্টাংশ যুক্ত করুন ( y = y + nfit$residuals)

সম্পন্ন. (পুরো জিনিসটি আর এর কয়েক লাইনেই করা যায়)


6
(10)0.10.910-,=0,...,10

@ গ্লেন_বি ধন্যবাদ বিপরীতে, খুব, খুব আকর্ষণীয়। উদাহরণস্বরূপ, আমি স্রেজ নামে একটি ফাইল সংরক্ষণ করেছি your হিস্ট (এক্স, বিরতি = "স্কট", কর্নেল = "পান্না", ফ্রিকোয়েন্সি = মিথ্যা); হিস্ট (এক্স, ব্রেকস = "এফডি", কল = "ডার্কগ্রিন", ফ্রিক = = ফলস) আমি জানি কিছু লোক কোষের সংখ্যার জন্য ডিগ্রি হিসাবে স্টার্জসের নিয়মটি ব্যবহার করতে আর সম্প্রদায়কে বোঝাতে ব্যর্থ হয়েছিল - আপনার উদাহরণ সম্ভবত একটি রব হ্যান্ডম্যানের অপ্রকাশিত তাত্ত্বিক নোটের চেয়ে আরও দৃ conv়প্রত্যয়ী যুক্তি।
হাইবারনেটিং

@ হাইবার্নেটে স্পষ্টতার অভাবের জন্য আমার ক্ষমাপ্রার্থী - আমি যে আকর্ষণীয় ঘটনাগুলি ঘটলাম তা বেছে নিয়েছি। যেমনটি আমি বলেছি, জবাবদিহিতা তৈরি করা নিয়মিত উত্থাপিত হয় তবে তাদের বেশিরভাগই আকর্ষণীয় হবে না (তাদের সরাসরি দর্শকের বাইরে)। মাঝেমধ্যে কিছু কিছু থাকে, তাই আমি যা ভাবতে পারি তার সমস্ত উল্লেখ করেছি। যদি আমি স্টার্জসের নিয়মের সাথে সমস্যাগুলি দেখানোর জন্য একটি উদাহরণ তৈরি করতে যাচ্ছিলাম তবে আমি উদাহরণটি তার থেকে আলাদা করব। (আমি মনে করি যে উদাহরণটির মূল মূল্যটি পরিষ্কারভাবে প্রমাণ করার জন্য যে আপনি কোনও একক নিয়মের উপর নির্ভর করবেন না এবং সাধারণ নিয়মের চেয়ে সাধারণত আরও বেশি
আবদ্ধ হওয়া উচিত

2
এন=5

16

অনুরূপ উদ্দেশ্যে ডেটাসেটগুলি তৈরি করার ক্ষেত্রে (যেমন, আপনার নিজের) ডেটাসেটগুলি সম্পর্কে আপনার আগ্রহ থাকতে পারে:

পরিসংখ্যানগুলিতে ছদ্মবেশী / পাল্টা-স্বজ্ঞাত ঘটনাবলী প্রদর্শনের জন্য ব্যবহৃত ডেটাসেটগুলি হিসাবে অনেক কিছুই রয়েছে তবে আপনি কোন ঘটনাটি প্রদর্শন করতে চান তা নির্দিষ্ট করতে হবে। উদাহরণস্বরূপ, প্রদর্শক থেকে সম্মান সঙ্গে সিম্পসন এর প্যারাডক্স , বার্কলে লিঙ্গ পক্ষপাত ক্ষেত্রে ডেটা সেটটি খুব বিখ্যাত।

সকলের সর্বাধিক বিখ্যাত ডেটাসেটের দুর্দান্ত আলোচনার জন্য দেখুন: "আইরিস" ডেটা সেট এর কোন দিকগুলি উদাহরণ / শিক্ষণ / পরীক্ষার ডেটা সেট হিসাবে এটি এত সফল করে তুলেছে ?


1

কাগজে "চল রাখুন জঞ্জাল-ক্যান রিগ্রেশন এবং জঞ্জাল-ক্যান Probits তারা কোথায় যাবো" (সি Achen, 2004) লেখক একটি অ-রৈখিকতা যে বাস্তব জীবনের ক্ষেত্রে ডেটা প্রতিফলিত বোঝানো হয় সাথে একটি সিন্থেটিক ডেটা সেট তৈরি করে পরিমাপের সময় কোডিংয়ের ত্রুটি হতে পারে (যেমন শ্রেণিবদ্ধ মানগুলিতে ডেটা নির্ধারণে একটি বিকৃতি, বা ভুল পরিমাণ নির্ধারণ পদ্ধতি)।

দুটি ধনাত্মক সহগের সাথে একটি নিখুঁত রৈখিক সম্পর্ক থেকে সিন্থেটিক ডেটা তৈরি করা হয়েছে, তবে আপনি একবার অ-রৈখিক কোডিং ত্রুটি প্রয়োগ করলে স্ট্যান্ডার্ড রিগ্রেশন কৌশলগুলি একটি সহগ তৈরি করবে যা ভুল চিহ্নের এবং পরিসংখ্যানগতভাবেও তাত্পর্যপূর্ণ (এবং আরও যদি তাই হয়ে উঠত তবে) আপনি একটি বৃহত্তর সিন্থেটিক ডেটা সেট বুটস্ট্র্যাপ করেছেন)।

যদিও এটি কেবল একটি ছোট সিন্থেটিক ডেটা সেট, কাগজটি নিষ্প্রভের "আমি ডানদিকে যা ভাবতে পারি সবকিছুই ডাম্প" এর এক প্রকারের রিগ্রেশন উপস্থাপন করে, এটি এমনকি ক্ষুদ্র / সূক্ষ্ম অ-রেখাযুক্ততার সাথে দেখায় (যা আসলে বেশ কোডিং ত্রুটি বা কোয়ান্টাইজেশন ত্রুটিগুলির মতো সাধারণ), আপনি যদি স্ট্যান্ডার্ড রিগ্রেশন পুশ-বাটন বিশ্লেষণের ফলাফলকে বিশ্বাস করেন তবে আপনি বন্যার বিভ্রান্তিকর ফলাফল পেতে পারেন।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.