আমি কীভাবে আর এর মধ্যে একটি ডাটা.ফ্রেমের সারি সংখ্যা পেতে পারি? [বন্ধ]

157

একটি ডেটাसेट পড়ার পরে:

dataset <- read.csv("forR.csv")

এতে থাকা মামলার সংখ্যা আমাকে দিতে কীভাবে আমি আর পেতে পারি?
এছাড়াও, প্রত্যাবর্তিত মানটি বাদ দেওয়া মামলাগুলি বাদ দেবে na.omit(dataset)?

— টম রাইট
সূত্র

আমি এটি পর্যালোচনা করার পরামর্শ দিই str()কেননা এটি আপনার অবজেক্ট সম্পর্কে অন্যান্য দরকারী বিশদ সরবরাহ করে। একটি কলাম কেন এটি করা উচিত নয় তা ব্যাখ্যা করতে পারে (সংখ্যার পরিবর্তে ফ্যাক্টর ইত্যাদি)।

— চেজ

প্রথমে ওভেনের আর গাইডটি পড়ুন ( cran.r-project.org/doc/contrib/Owen-TheRGuide.pdf ), এবং সম্ভব হলে আর এর পরিচয় দিন intro.pdf )। উভয়ই আর এর অফিশিয়াল ওয়েবসাইটে রয়েছেন You're আপনি অবিশ্বাস্যভাবে ভাগ্যবান আপনি আসলে একটি উত্তর পান। আর-সহায়তার তালিকায় একজন আপনাকে কম মার্জিত শর্তে ম্যানুয়ালটিতে পুনর্নির্দেশ করবে। কোন অপরাধ মানে না।

— জোরিস মেজ

@ জরিস - পয়েন্টটি নেওয়া (অপরাধ ব্যতীত), তবে আমার ধারণা ছিল যে এসই সাইটগুলি ম্যানুয়াল দ্বারা সরবরাহ না করার উপায়ে সমস্যা / সমাধান শেখার প্রশিক্ষণ দেওয়ার জন্য ডিজাইন করা হয়েছিল। অতিরিক্তভাবে, এই প্রশ্নটি এখন অন্যান্য নতুনদের জন্য উপলব্ধ হবে। যদিও লিঙ্কগুলির জন্য ধন্যবাদ।

— টম রাইট

আপনার এই দাবির সাথে আমি একমত নই যে এই প্রশ্নটি অন্য নতুনদের জন্য সহায়ক হবে, বিশেষত যদি তারা ম্যানুয়ালটি বাদ না দেয়। তারা কেবল একটি সদৃশ প্রশ্ন তৈরি করবে।

— জোশুয়া উলরিচ

এবং, চার বছর পরে, গুগলে এই প্রশ্নের উত্তর খুঁজে পাওয়ার চেষ্টা করে আমি পেয়েছি এটিই দ্বিতীয় হিট। আমার কোনও সদৃশ তৈরি করার দরকার নেই (@ জোশুয়াউলিরিচ)।

— রিচার্ড

উত্তর:

173

datasetএকটি ডেটা ফ্রেম হবে। আমার কাছে যেমন নেই forR.csv, আমি উদাহরণের জন্য একটি ছোট ডেটা ফ্রেম তৈরি করব:

set.seed(1)
dataset <- data.frame(A = sample(c(NA, 1:100), 1000, rep = TRUE),
                      B = rnorm(1000))

> head(dataset)
   A           B
1 26  0.07730312
2 37 -0.29686864
3 57 -1.18324224
4 91  0.01129269
5 20  0.99160104
6 90  1.59396745

মামলার সংখ্যা পেতে, ব্যবহার করে nrow()বা সারিগুলির সংখ্যা গণনা করুন NROW():

> nrow(dataset)
[1] 1000
> NROW(dataset)
[1] 1000

বাদ পরে ডেটা গণনা NA, একই টুলস ব্যবহার করেন, কিন্তু মোড়ানো datasetমধ্যে na.omit():

> NROW(na.omit(dataset))
[1] 993

মধ্যে পার্থক্য NROW()এবং NCOL()তাদের ছোট হাতের রূপগুলো ( ncol()এবং nrow()) যে ছোট হাতের সংস্করণ শুধুমাত্র বস্তু আছে মাত্রা (অ্যারে, ম্যাট্রিক্স, ডাটা ফ্রেম) জন্য কাজ করবে হয়। বড় হাতের সংস্করণগুলি ভেক্টরগুলির সাথে কাজ করবে, যা তাদের 1 কলামের ম্যাট্রিক্স হিসাবে মনে করা হয় এবং দৃ you় হয় যদি আপনি নিজের ডেটা সাবসেট করে শেষ করেন যে আর খালি মাত্রা ছাড়বে।

বিকল্পভাবে, ব্যবহার করুন complete.cases()এবং sumএটি ( complete.cases()কোনও যৌক্তিক ভেক্টর ফেরত দেয় [ TRUEবা FALSE] সূচিত করে যে কোনও পর্যবেক্ষণগুলি NAকোনও সারিগুলির জন্য রয়েছে কিনা ।

> sum(complete.cases(dataset))
[1] 993

— গ্যাভিন সিম্পসন
সূত্র

সংক্ষেপে:

চালানোর dim(dataset)উভয় পুনরুদ্ধার করতে এন এবং ট , এছাড়াও আপনি ব্যবহার করতে পারেন nrow(df)এবং ncol(df)(এবং এমনকি NROW(df)এবং NCOL(df)- রূপগুলো অন্যান্য ধরনের জন্য খুব প্রয়োজন হয়)।
যদি আপনি উদাহরণস্বরূপ রূপান্তর করেন dataset <- na.omit(dataset)তবে কেসগুলি চলে গেছে এবং গণনা করা হচ্ছে না। কিন্তু যদি আপনি না যেমন summary(dataset) এন ক্ষেত্রে জন্য দায়ী করা হয়।

— ডর্ক এডেলবুয়েটেল
সূত্র