আমি প্রায়শই অগোছালো সমীক্ষার ডেটা নিয়ে কাজ করি যা কোনও পরিসংখ্যান করার আগে অনেক পরিষ্কার করা দরকার। আমি এক্সেলে এই "ম্যানুয়ালি" করতাম, কখনও এক্সেল সূত্র ব্যবহার করতাম এবং কখনও কখনও একের পর এক এন্ট্রি পরীক্ষা করতাম। এগুলি আর-তে করার জন্য স্ক্রিপ্টগুলি লিখে আমি আরও বেশি করে কাজ করা শুরু করেছি, যা খুব উপকারী হয়েছে (সুবিধাগুলির মধ্যে রয়েছে যেটি হয়েছিল তার রেকর্ড থাকা, ভুল হওয়ার সম্ভাবনা কম এবং ডেটা সেট থাকলে কোডটি পুনরায় ব্যবহার করতে সক্ষম হওয়া আপডেট করা হয়েছে)।
তবে এখনও কিছু ধরণের ডেটা রয়েছে যা দক্ষতার সাথে পরিচালনা করতে আমার সমস্যা হয়। উদাহরণ স্বরূপ:
> d <- data.frame(subject = c(1,2,3,4,5,6,7,8,9,10,11),
+ hours.per.day = c("1", "2 hours", "2 hr", "2hr", "3 hrs", "1-2", "15 min", "30 mins", "a few hours", "1 hr 30 min", "1 hr/week"))
> d
subject hours.per.day
1 1 1
2 2 2 hours
3 3 2 hr
4 4 2hr
5 5 3 hrs
6 6 1-2
7 7 15 min
8 8 30 mins
9 9 a few hours
10 10 1 hr 30 min
11 11 1 hr/week
hours.per.day
একটি নির্দিষ্ট ক্রিয়ায় ব্যয় করা প্রতিদিনের গড় সংখ্যাকে বোঝানো হয়, তবে আমাদের কাছে যা বিষয় ছিল তা হ'ল। ধরুন আমি অস্পষ্ট প্রতিক্রিয়া নিয়ে কী করব সে সম্পর্কে কিছু সিদ্ধান্ত নিয়েছি এবং আমি নীচের মতো পরিপাটি পরিবর্তনশীল চাই hours.per.day2
।
subject hours.per.day hours.per.day2
1 1 1 1.0000000
2 2 2 hours 2.0000000
3 3 2 hr 2.0000000
4 4 2hr 2.0000000
5 5 3 hrs 3.0000000
6 6 1-2 1.5000000
7 7 15 min 0.2500000
8 8 30 mins 0.5000000
9 9 a few hours 3.0000000
10 10 1 hr 30 min 1.5000000
11 11 1 hr/week 0.1428571
ধরে নিই যে মামলার সংখ্যাটি বেশ বড় (1000 বলুন) এবং জেনেও যে বিষয়গুলি তাদের পছন্দ মতো কিছু লিখতে মুক্ত ছিল, এটির কাছে যাওয়ার সর্বোত্তম উপায় কোনটি?
new_var[by.hand] <- c(2, 1, ...)
হয়by.hand
তারTRUE
জন্য যেমন কিছু করার চেয়ে আরও ভাল উপায় আছে কি ?