আমার একটি খুব বড় ডেটা সেট রয়েছে এবং আমি সম্পূর্ণ ডেটা সেট করা পড়ার সামর্থ্য রাখি না So সুতরাং, আমি প্রশিক্ষণের জন্য এর কেবলমাত্র একটি অংশ পড়ার চিন্তা করছি তবে কীভাবে এটি করবেন সে সম্পর্কে আমার কোনও ধারণা নেই। কোন চিন্তা প্রশংসা করা হবে।
উত্তর:
আপনি যদি কেবল প্রথম 999,999 (শিরোনামহীন) সারিটি পড়তে চান:
read_csv(..., nrows=999999)
আপনি যদি কেবল সারিগুলি 1,000,000 ... 1,999,999 টি পড়তে চান তবে
read_csv(..., skiprows=1000000, nrows=999999)
নরোস : ইনট, ডিফল্ট কিছুই নেই ফাইলের সারি সংখ্যা পড়ার জন্য। বড় ফাইলের টুকরো পড়ার জন্য দরকারী
স্কিপ্রো : তালিকার মতো বা পূর্ণসংখ্যার সারি সংখ্যা (0-ইনডেক্সড) বা সারিগুলি (এন্টি) এড়ানোর জন্য
এবং বড় ফাইলগুলির জন্য, আপনি সম্ভবত চুনসাইজ ব্যবহার করতে চান:
খণ্ডসাইজ : ইনট, ডিফল্ট কিছুই নেই পুনরাবৃত্তির জন্য টেক্সটফিলরেডার অবজেক্ট
nstart=,nend=...। আপনাকে পাটিগণিতটি করতে হবেskiprows = nend - nrows
LIMIT nstart, skiprows: /
header=n/list
chunksizeকিছুটা ব্যথা, আপনাকে অসম আকারের খণ্ডগুলি মোকাবেলা করতে হবে। আপনার অ্যারে / ডেটাফ্রেমগুলি আপনার প্রয়োজনীয় স্থির আকারের সাথে প্রিলোকলোক করুন, যখনই আপনি এড়াতে পারবেন তখন গতিশীলভাবে সংক্ষিপ্ত / সংযোজন করবেন না।