আমার কাছে একটি সিএসভি ফাইল (24.1 এমবি) রয়েছে যা আমি আমার আর সেশনে পুরোপুরি পড়তে পারি না। আমি যখন স্প্রেডশিট প্রোগ্রামে ফাইলটি খুলি তখন আমি 112,544 সারি দেখতে পাচ্ছি। আমি যখন এটি আর এর সাথে পড়ি তখন আমি read.csv
কেবল 56,952 টি সারি এবং এই সতর্কতা পাই:
cit <- read.csv("citations.CSV", row.names = NULL,
comment.char = "", header = TRUE,
stringsAsFactors = FALSE,
colClasses= "character", encoding= "utf-8")
Warning message:
In scan(file, what, nmax, sep, dec, quote, skip, nlines, na.strings, :
EOF within quoted string
আমি পুরো ফাইলটি আর এর মাধ্যমে পড়তে পারি readLines
:
rl <- readLines(file("citations.CSV", encoding = "utf-8"))
length(rl)
[1] 112545
তবে আমি আর এটিকে টেবিল হিসাবে (আরবি) হিসাবে ফিরে পেতে পারি না read.csv
:
write.table(rl, "rl.txt", quote = FALSE, row.names = FALSE)
rl_in <- read.csv("rl.txt", skip = 1, row.names = NULL)
Warning message:
In scan(file, what, nmax, sep, dec, quote, skip, nlines, na.strings, :
EOF within quoted string
আমার R
অধিবেশনটিতে পুরো ফাইলটি পেতে আমি কীভাবে এই ইওএফ বার্তাটি (যা একটি সতর্কতার চেয়ে ত্রুটি বলে মনে হয়) সমাধান করতে বা পুনরায় কাজ করতে পারি ?
CSV ফাইলগুলি পড়ার অন্যান্য পদ্ধতির সাথে আমারও একই সমস্যা রয়েছে:
require(sqldf)
cit_sql <- read.csv.sql("citations.CSV", sql = "select * from file")
require(data.table)
cit_dt <- fread("citations.CSV")
require(ff)
cit_ff <- read.csv.ffdf(file="citations.CSV")
এখানে আমার সেশন ইনফো ()
R version 3.0.1 (2013-05-16)
Platform: x86_64-w64-mingw32/x64 (64-bit)
locale:
[1] LC_COLLATE=English_United States.1252 LC_CTYPE=English_United States.1252
[3] LC_MONETARY=English_United States.1252 LC_NUMERIC=C
[5] LC_TIME=English_United States.1252
attached base packages:
[1] tools tcltk stats graphics grDevices utils datasets methods base
other attached packages:
[1] ff_2.2-11 bit_1.1-10 data.table_1.8.8 sqldf_0.4-6.4
[5] RSQLite.extfuns_0.0.1 RSQLite_0.11.4 chron_2.3-43 gsubfn_0.6-5
[9] proto_0.3-10 DBI_0.2-7
fread
আপনি এই পরিস্থিতিতে কাজ সম্পর্কে কি মনে করেন ? আমি এটি পছন্দ করি কারণ এটি এর চেয়ে অনেক দ্রুতread.csv
। তবেfread
কোনওquote
যুক্তি বলে মনে হচ্ছে না