আর এর মধ্যে পরিসংখ্যান বিশ্লেষণের জন্য সহজেই ডেটা সঞ্চয় করার সর্বোত্তম উপায় [বন্ধ]


12

আমি কিছু সময়ের জন্য কোনও সমস্যা ছাড়াই আমার ডেটা সংরক্ষণ করতে টেক্সট ফাইলগুলি ব্যবহার করছি। তবে সাম্প্রতিক প্রকল্পের জন্য কাঁচা পাঠ্য ফাইলগুলি হ্যান্ডেল করার জন্য ফাইলগুলির আকারগুলি খুব বড় হয়ে যাচ্ছে। সবচেয়ে সহজ বিকল্প কি?


5
কোন উপায়ে পাঠ্য ফাইলগুলি খুব বড় হয়ে উঠছে? আপনি কি তাদের নিষ্ঠার জন্য ভয় পান? অন্য কোনও সফ্টওয়্যার এগুলি খুলতে পারছেন না? এগুলি কি লোড করতে খুব ধীর? আপনার হার্ড ড্রাইভ (ল্যাপটপ?) এর জন্য খুব বড়?
গালা

3
+1 প্রকল্পগুলি বৃদ্ধি হিসাবে ডেটা পরিচালনা করা ডেটা বিশ্লেষণে সর্বজনীন সমস্যা (এবং এটির পক্ষে সুনির্দিষ্টভাবে সুনির্দিষ্ট R)। মৌলিক উদ্বেগ ফাইলের আকারের চেয়ে ডেটা অখণ্ডতার সাথে থাকে: কিছু আকারের সংক্ষেপণের প্রস্তাব দেওয়ার বিষয়টি সমাধান করার চেয়ে এটি কেবল অস্পষ্ট করে।
whuber

একটি নির্দিষ্ট আকারের txt উপরে ঠিক মনে হয় কাজ করে না। আমি txt ফাইলটিতে অতিরিক্ত ডেটা যুক্ত করতে এবং এটি আর-তে লোড করতে পারি, তবে অতিরিক্ত ডেটা আর-তে নেই ( আমার প্রকল্পটি বাড়ার সাথে সাথে সন্দেহ হচ্ছে আমি আবার একই সমস্যাগুলি শেষ করব))
খেলনা মল্টো

আপনার ডেটা সম্পর্কে আপনাকে আরও বলতে হবে, "কোনও ধরণের ডেটার সেরা উপায়" এর মতো কোনও জিনিস নেই।
zx8754

আপনার অর্থ কি read.tableবা read.csvনিঃশব্দে ব্যর্থ হচ্ছেন? আপনি কি নিশ্চিত যে আপনার চারপাশে বেশ কয়েকটি ফাইল রয়েছে এবং কিছু কোডিং ত্রুটি নেই (ভুল পথ, ভুল ফাইলের নাম ইত্যাদি)? কেবল ধারণাগুলি ঠিক করার জন্য, আপনি আনুমানিক কতগুলি ভেরিয়েবল এবং কয়টি রেকর্ড নিয়ে কাজ করছেন সে সম্পর্কেও আমাদের ধারণা দিতে পারেন।
গালা

উত্তর:


10

স্ট্যান্ডার্ড আর পদ্ধতির ব্যবহার saveএবং load। আপনি যদি saveএটি ডেটা ফ্রেমটি আমদানি করে বর্ণনা করার পরে চালিয়ে যান তবে আপনি উল্লেখ করতে পারেন compress=TRUEএবং সংক্ষেপণ এবং দ্রুত loadসময়ে আপনি অবাক হয়ে যাবেন । এটি বিশেষত ভাল কাজ করে যদি বস্তুর আকার প্রায় 400MB এর চেয়ে কম হয়। অন্যথায়, উপরের কিছু পরামর্শ বা আর এর শক্তিশালী ffপ্যাকেজটি দেখুন

Hmiscপ্যাকেজ সামান্য চাদরে হয়েছে Saveএবং Loadউপরে আরও বেশি যন্ত্রণাহীন করতে:

mydata <- csv.get(...)  # Hmisc package, has several options
Save(mydata)   # writes mydata.rda to current working directory
....
Load(mydata)   # reads mydata.rda and creates mydata data frame

9

এসকিউএলাইট 3 ডাটাবেসগুলি একবার দেখুন। প্রতিটি ডাটাবেস একটি ফাইল, তাই এটি একটি ডাটাবেস সার্ভার সেট আপ প্রয়োজন হয় না।

একটি ডাটাবেস তৈরি করতে:

$ sqlite3 my_db.db3
> CREATE TABLE my_table ( col1 TEXT );

আর এর সাথে ব্যবহারের জন্য, https://gist.github.com/lynaghk/1062939


+1 একটি সত্যিকারের ডাটাবেস ব্যবহার করা সঠিক দিকের এক বিশাল পদক্ষেপ।
whuber

এটি কি উপযুক্ত সরঞ্জাম হবে? cran.r-project.org/web/packages/RSQLite/index.html
EngrStudent

ধন্যবাদ, আমি এই রুটটি চেষ্টা করব। আমি মাইএসকিউএলকেও দেখেছি, তবে আমার প্রয়োজনের চেয়ে বেশি বলে মনে হচ্ছে।
খেলনা মোল্টো

4

জেনেরিক কয়েকটি বিকল্প রয়েছে।

  • আপনি পাঠ্যটি সংকুচিত করতে পারেন।
  • আপনি পাঠ্যটিতে বাইনারি যেতে পারেন, এসিআই তে লিখবেন না

দুর্দান্ত সংক্ষেপণ ডেটা নির্ভর।

আমার অনুমান (এবং আপনি নির্দিষ্ট করেননি তাই অবশ্যই অনুমান করতে হবে) হ'ল আপনি সিএসভি (কমা-বিস্মৃত) ব্যতীত অন্য কিছুতে স্প্রেডশিটের মতো ডেটা সংরক্ষণ করার সন্ধান করছেন।

আমার প্রিয় ফর্ম্যাটগুলির একটি (আমি ম্যাটল্যাবকে ভালবাসি) এইচডিএফ।

এইচডিএফ সম্পর্কিত আর সম্পর্কিত তথ্য এখানে:

  • hdf5, h5r, বায়োকন্ডাক্টরের rhdf5, আরনেটসিডিএফ, এনসিডিএফ এবং এনসিডিএফ 4 প্যাকেজগুলির মাধ্যমে অ্যাক্সেস করা হয়েছে
  • http://www.hdfgroup.org/HDF5/whatishdf5.html

এটি একটি উচ্চ-ঘনত্বের সুপার কমপুটিং ডেটা স্টোরেজ ফর্ম্যাট। এটি খুব দ্রুত এবং দক্ষ হতে পারে। এটি জিপড পাঠ্যের চেয়েও (আশ্চর্যজনকভাবে) কম


3

আর-তে স্ট্যান্ডার্ড ফাইল রিডিং ফাংশনগুলি এখন স্বয়ংক্রিয়ভাবে সহজেই জিজেপ করা ফাইলগুলি পড়তে পারে। সুতরাং, কেবল আপনার ডেটাতে সরল জিজপ সংক্ষেপণ চালান এবং সর্বদা পড়ুন, যেন এটি সরল পাঠ্য।

read.table('myfile.gz')

ঝরঝরে! আমি যে জানি না। ধন্যবাদ.
EngrStudent
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.