যেহেতু আমি বুঝতে পেরেছিলাম যে এই পোস্টটির (খুব দুর্দান্ত) উত্তরগুলির ব্যাখ্যা by
এবং aggregate
ব্যাখ্যা নেই। আমার অবদান এখানে।
দ্বারা
by
ফাংশন, যেমন ডকুমেন্টেশন বিবৃত যদিও হতে পারে, জন্য একটি "মোড়কের" হিসাবে tapply
। by
যখন আমরা কোনও কাজটি tapply
পরিচালনা করতে পারি না যে কোনও কাজ গণনা করতে চাই তখন শক্তি দেখা দেয় । একটি উদাহরণ এই কোড:
ct <- tapply(iris$Sepal.Width , iris$Species , summary )
cb <- by(iris$Sepal.Width , iris$Species , summary )
cb
iris$Species: setosa
Min. 1st Qu. Median Mean 3rd Qu. Max.
2.300 3.200 3.400 3.428 3.675 4.400
--------------------------------------------------------------
iris$Species: versicolor
Min. 1st Qu. Median Mean 3rd Qu. Max.
2.000 2.525 2.800 2.770 3.000 3.400
--------------------------------------------------------------
iris$Species: virginica
Min. 1st Qu. Median Mean 3rd Qu. Max.
2.200 2.800 3.000 2.974 3.175 3.800
ct
$setosa
Min. 1st Qu. Median Mean 3rd Qu. Max.
2.300 3.200 3.400 3.428 3.675 4.400
$versicolor
Min. 1st Qu. Median Mean 3rd Qu. Max.
2.000 2.525 2.800 2.770 3.000 3.400
$virginica
Min. 1st Qu. Median Mean 3rd Qu. Max.
2.200 2.800 3.000 2.974 3.175 3.800
আমরা যদি এই দুটি বস্তু মুদ্রণ ct
এবং cb
, আমরা "মূলত" একই ফলাফল এবং শুধুমাত্র পার্থক্য কিভাবে তারা দেখানো হয় এবং বিভিন্ন হয় class
যথাক্রমে বৈশিষ্ট্যাবলী by
জন্য cb
এবং array
জন্য ct
।
আমি যেমন বলেছি, by
যখন আমরা ব্যবহার করতে পারি না তখন শক্তি দেখা দেয় tapply
; নিম্নলিখিত কোডটি একটি উদাহরণ:
tapply(iris, iris$Species, summary )
Error in tapply(iris, iris$Species, summary) :
arguments must have same length
আর বলেছেন যে আর্গুমেন্টগুলির একই দৈর্ঘ্য থাকতে হবে, বলুন "আমরা ফ্যাক্টর বরাবর summary
সমস্ত ভেরিয়েবলের গণনা করতে চাই ": তবে আর কেবল এটি করতে পারে না কারণ এটি কীভাবে পরিচালনা করতে হয় তা জানে না।iris
Species
by
ফাংশনটি দিয়ে data frame
ক্লাসের জন্য একটি নির্দিষ্ট পদ্ধতি প্রেরণ করুন এবং তারপরে summary
প্রথম আর্গুমেন্টের দৈর্ঘ্য (এবং প্রকারটিও) পৃথক হলেও ফাংশনটি কাজ করতে দিন।
bywork <- by(iris, iris$Species, summary )
bywork
iris$Species: setosa
Sepal.Length Sepal.Width Petal.Length Petal.Width Species
Min. :4.300 Min. :2.300 Min. :1.000 Min. :0.100 setosa :50
1st Qu.:4.800 1st Qu.:3.200 1st Qu.:1.400 1st Qu.:0.200 versicolor: 0
Median :5.000 Median :3.400 Median :1.500 Median :0.200 virginica : 0
Mean :5.006 Mean :3.428 Mean :1.462 Mean :0.246
3rd Qu.:5.200 3rd Qu.:3.675 3rd Qu.:1.575 3rd Qu.:0.300
Max. :5.800 Max. :4.400 Max. :1.900 Max. :0.600
--------------------------------------------------------------
iris$Species: versicolor
Sepal.Length Sepal.Width Petal.Length Petal.Width Species
Min. :4.900 Min. :2.000 Min. :3.00 Min. :1.000 setosa : 0
1st Qu.:5.600 1st Qu.:2.525 1st Qu.:4.00 1st Qu.:1.200 versicolor:50
Median :5.900 Median :2.800 Median :4.35 Median :1.300 virginica : 0
Mean :5.936 Mean :2.770 Mean :4.26 Mean :1.326
3rd Qu.:6.300 3rd Qu.:3.000 3rd Qu.:4.60 3rd Qu.:1.500
Max. :7.000 Max. :3.400 Max. :5.10 Max. :1.800
--------------------------------------------------------------
iris$Species: virginica
Sepal.Length Sepal.Width Petal.Length Petal.Width Species
Min. :4.900 Min. :2.200 Min. :4.500 Min. :1.400 setosa : 0
1st Qu.:6.225 1st Qu.:2.800 1st Qu.:5.100 1st Qu.:1.800 versicolor: 0
Median :6.500 Median :3.000 Median :5.550 Median :2.000 virginica :50
Mean :6.588 Mean :2.974 Mean :5.552 Mean :2.026
3rd Qu.:6.900 3rd Qu.:3.175 3rd Qu.:5.875 3rd Qu.:2.300
Max. :7.900 Max. :3.800 Max. :6.900 Max. :2.500
এটি সত্যই কাজ করে এবং ফলাফলটি খুব অবাক করে। এটি শ্রেণীর একটি বস্তু by
যা বরাবর Species
(তাদের প্রত্যেকের জন্য) summary
প্রতিটি ভেরিয়েবলের গণনা করে ।
মনে রাখবেন যে প্রথম আর্গুমেন্টটি যদি একটি হয় data frame
তবে প্রেরিত ফাংশনটিতে সেই শ্রেণীর অবজেক্টের জন্য একটি পদ্ধতি থাকতে হবে। উদাহরণস্বরূপ আমরা mean
ফাংশন সহ এই কোডটি ব্যবহার করি আমাদের এই কোডটি থাকবে যা মোটেই কোনও বুদ্ধিমান নয়:
by(iris, iris$Species, mean)
iris$Species: setosa
[1] NA
-------------------------------------------
iris$Species: versicolor
[1] NA
-------------------------------------------
iris$Species: virginica
[1] NA
Warning messages:
1: In mean.default(data[x, , drop = FALSE], ...) :
argument is not numeric or logical: returning NA
2: In mean.default(data[x, , drop = FALSE], ...) :
argument is not numeric or logical: returning NA
3: In mean.default(data[x, , drop = FALSE], ...) :
argument is not numeric or logical: returning NA
সামগ্রিক
aggregate
অন্যটিকে ব্যবহারের ভিন্ন উপায় হিসাবে দেখা যেতে পারে tapply
যদি আমরা এটিকে এটি ব্যবহার করি।
at <- tapply(iris$Sepal.Length , iris$Species , mean)
ag <- aggregate(iris$Sepal.Length , list(iris$Species), mean)
at
setosa versicolor virginica
5.006 5.936 6.588
ag
Group.1 x
1 setosa 5.006
2 versicolor 5.936
3 virginica 6.588
দুটি তাত্ক্ষণিক পার্থক্য হ'ল দ্বিতীয় আর্গুমেন্টটি aggregate
অবশ্যই একটি তালিকা থাকতে হবে যখন তালিকা হতে tapply
পারে (বাধ্যতামূলক নয়) এবং এর আউটপুটটি aggregate
একটি ডেটা ফ্রেমের হয় যখন এর tapply
মধ্যে একটি হয় array
।
এর ক্ষমতাটি aggregate
হ'ল এটি subset
আর্গুমেন্টের সাহায্যে ডেটার সহজেই উপগ্রহগুলি পরিচালনা করতে পারে এবং এটিতে ts
বস্তুর জন্য পদ্ধতিও রয়েছে এবং formula
পাশাপাশি।
এই উপাদানগুলি কিছু পরিস্থিতিতে aggregate
এটির সাথে কাজ করা সহজ করে তোলে tapply
। এখানে কয়েকটি উদাহরণ (ডকুমেন্টেশনে উপলব্ধ):
ag <- aggregate(len ~ ., data = ToothGrowth, mean)
ag
supp dose len
1 OJ 0.5 13.23
2 VC 0.5 7.98
3 OJ 1.0 22.70
4 VC 1.0 16.77
5 OJ 2.0 26.06
6 VC 2.0 26.14
আমরা এর মাধ্যমে এটি অর্জন করতে পারি tapply
তবে বাক্য গঠনটি আরও শক্ত এবং আউটপুট (কিছু পরিস্থিতিতে) কম পাঠযোগ্য:
att <- tapply(ToothGrowth$len, list(ToothGrowth$dose, ToothGrowth$supp), mean)
att
OJ VC
0.5 13.23 7.98
1 22.70 16.77
2 26.06 26.14
অন্যান্য বার যখন আমরা ব্যবহার করতে পারবেন না আছে by
বা tapply
আমরা ব্যবহার করতে হবে aggregate
।
ag1 <- aggregate(cbind(Ozone, Temp) ~ Month, data = airquality, mean)
ag1
Month Ozone Temp
1 5 23.61538 66.73077
2 6 29.44444 78.22222
3 7 59.11538 83.88462
4 8 59.96154 83.96154
5 9 31.44828 76.89655
আমরা tapply
একটি কল দিয়ে পূর্ববর্তী ফলাফলটি অর্জন করতে পারি না তবে Month
প্রতিটি উপাদানগুলির জন্য আমাদের গড় গণনা করতে হবে এবং তারপরে তাদের একত্রিত করতে হবে (এটিও লক্ষ করুন যে আমাদের কল করতে হবে na.rm = TRUE
, কারণ ফাংশনের formula
পদ্ধতিগুলি aggregate
ডিফল্টরূপে আছে na.action = na.omit
):
ta1 <- tapply(airquality$Ozone, airquality$Month, mean, na.rm = TRUE)
ta2 <- tapply(airquality$Temp, airquality$Month, mean, na.rm = TRUE)
cbind(ta1, ta2)
ta1 ta2
5 23.61538 65.54839
6 29.44444 79.10000
7 59.11538 83.90323
8 59.96154 83.96774
9 31.44828 76.90000
যদিও by
আমরা কেবল এটি অর্জন করতে পারি না যে প্রকৃতপক্ষে নিম্নলিখিত ফাংশন কলটি একটি ত্রুটি প্রদান করে (তবে সম্ভবত এটি সরবরাহিত ফাংশন সম্পর্কিত, mean
):
by(airquality[c("Ozone", "Temp")], airquality$Month, mean, na.rm = TRUE)
অন্য সময় ফলাফলগুলি একই হয় এবং পার্থক্যগুলি কেবল শ্রেণিতে থাকে (এবং তারপরে এটি কীভাবে প্রদর্শিত / মুদ্রিত হয় এবং কেবল তা নয় - উদাহরণস্বরূপ, কীভাবে এটি উপসেট করা যায়) বস্তু:
byagg <- by(airquality[c("Ozone", "Temp")], airquality$Month, summary)
aggagg <- aggregate(cbind(Ozone, Temp) ~ Month, data = airquality, summary)
পূর্ববর্তী কোডটি একই লক্ষ্য এবং ফলাফল অর্জন করে, কিছু পয়েন্টে কোন সরঞ্জামটি ব্যবহার করতে হবে তা কেবল ব্যক্তিগত স্বাদ এবং প্রয়োজনের বিষয়; পূর্ববর্তী দুটি বস্তুর সাবসেটিংয়ের ক্ষেত্রে খুব আলাদা প্রয়োজন।
*apply()
এবংby
। প্লাইয়ার (কমপক্ষে আমার কাছে) অনেক বেশি সুসংগত মনে হয় যা আমি সর্বদা জানি যে এটি কোন ডেটা ফর্ম্যাটটি প্রত্যাশা করে এবং ঠিক কী তা ছুঁড়ে দেয়। যা আমাকে অনেক ঝামেলা বাঁচায়।