একটি ডেটাसेट পড়ার পরে:
dataset <- read.csv("forR.csv")
- এতে থাকা মামলার সংখ্যা আমাকে দিতে কীভাবে আমি আর পেতে পারি?
- এছাড়াও, প্রত্যাবর্তিত মানটি বাদ দেওয়া মামলাগুলি বাদ দেবে
na.omit(dataset)?
একটি ডেটাसेट পড়ার পরে:
dataset <- read.csv("forR.csv")
na.omit(dataset)?উত্তর:
datasetএকটি ডেটা ফ্রেম হবে। আমার কাছে যেমন নেই forR.csv, আমি উদাহরণের জন্য একটি ছোট ডেটা ফ্রেম তৈরি করব:
set.seed(1)
dataset <- data.frame(A = sample(c(NA, 1:100), 1000, rep = TRUE),
B = rnorm(1000))
> head(dataset)
A B
1 26 0.07730312
2 37 -0.29686864
3 57 -1.18324224
4 91 0.01129269
5 20 0.99160104
6 90 1.59396745
মামলার সংখ্যা পেতে, ব্যবহার করে nrow()বা সারিগুলির সংখ্যা গণনা করুন NROW():
> nrow(dataset)
[1] 1000
> NROW(dataset)
[1] 1000
বাদ পরে ডেটা গণনা NA, একই টুলস ব্যবহার করেন, কিন্তু মোড়ানো datasetমধ্যে na.omit():
> NROW(na.omit(dataset))
[1] 993
মধ্যে পার্থক্য NROW()এবং NCOL()তাদের ছোট হাতের রূপগুলো ( ncol()এবং nrow()) যে ছোট হাতের সংস্করণ শুধুমাত্র বস্তু আছে মাত্রা (অ্যারে, ম্যাট্রিক্স, ডাটা ফ্রেম) জন্য কাজ করবে হয়। বড় হাতের সংস্করণগুলি ভেক্টরগুলির সাথে কাজ করবে, যা তাদের 1 কলামের ম্যাট্রিক্স হিসাবে মনে করা হয় এবং দৃ you় হয় যদি আপনি নিজের ডেটা সাবসেট করে শেষ করেন যে আর খালি মাত্রা ছাড়বে।
বিকল্পভাবে, ব্যবহার করুন complete.cases()এবং sumএটি ( complete.cases()কোনও যৌক্তিক ভেক্টর ফেরত দেয় [ TRUEবা FALSE] সূচিত করে যে কোনও পর্যবেক্ষণগুলি NAকোনও সারিগুলির জন্য রয়েছে কিনা ।
> sum(complete.cases(dataset))
[1] 993
সংক্ষেপে:
চালানোর dim(dataset)উভয় পুনরুদ্ধার করতে এন এবং ট , এছাড়াও আপনি ব্যবহার করতে পারেন nrow(df)এবং ncol(df)(এবং এমনকি NROW(df)এবং NCOL(df)- রূপগুলো অন্যান্য ধরনের জন্য খুব প্রয়োজন হয়)।
যদি আপনি উদাহরণস্বরূপ রূপান্তর করেন dataset <- na.omit(dataset)তবে কেসগুলি চলে গেছে এবং গণনা করা হচ্ছে না। কিন্তু যদি আপনি না যেমন summary(dataset) এন ক্ষেত্রে জন্য দায়ী করা হয়।
str()কেননা এটি আপনার অবজেক্ট সম্পর্কে অন্যান্য দরকারী বিশদ সরবরাহ করে। একটি কলাম কেন এটি করা উচিত নয় তা ব্যাখ্যা করতে পারে (সংখ্যার পরিবর্তে ফ্যাক্টর ইত্যাদি)।