বড় ডেটার সাথে কাজ করার জন্য পাইথনের কয়েকটি খুব ভাল সরঞ্জাম রয়েছে:
numpy
নম্পির স্মৃতিযুক্ত ম্যাপযুক্ত অ্যারে আপনাকে ডিস্কে সংরক্ষণ করা কোনও ফাইল অ্যাক্সেস করার অনুমতি দেয়। আপনি যে অ্যারেগুলির সক্রিয়ভাবে সক্রিয়ভাবে কাজ করছেন তার অংশগুলি মেমরিতে লোড করা দরকার। এটি সাধারণ অ্যারে হিসাবে প্রায় একই ব্যবহার করা যেতে পারে।
h5py এবং pytables
এই দুটি গ্রন্থাগার এইচডিএফ 5 ফাইলগুলিতে অ্যাক্সেস সরবরাহ করে। এই ফাইলগুলি কেবলমাত্র ডেটার অংশে অ্যাক্সেসের অনুমতি দেয়। তদতিরিক্ত, ডেটা অ্যাক্সেস করতে ব্যবহৃত অন্তর্নিহিত লাইব্রেরিগুলির জন্য ধন্যবাদ, অনেক গাণিতিক ক্রিয়াকলাপ এবং ডেটার অন্যান্য হেরফেরগুলি পাইথন ডেটা কাঠামোতে লোড না করেই করা যেতে পারে। প্রচুর, অত্যন্ত কাঠামোগত ফাইলগুলি সম্ভব, 5 টিবির চেয়ে অনেক বড়। এটি বিরামবিহীন, ক্ষতিহীন সংকোচনের অনুমতি দেয়।
ডাটাবেস
বিভিন্ন ধরণের ডাটাবেস রয়েছে যা আপনাকে বড় ডেটা সেটগুলি সঞ্চয় করতে এবং আপনার প্রয়োজনীয় অংশগুলি লোড করতে দেয়। অজগর ডেটা স্ট্রাকচারে ডেটা লোড না করে অনেকগুলি ডাটাবেস আপনাকে ম্যানিপুলেশন করতে দেয়।
পান্ডাস
এটি এইচডিএফ 5 ডেটা, সিএসভি ফাইল, ডাটাবেস, এমনকি ওয়েবসাইটগুলি সহ বিভিন্ন ধরণের ডেটাতে উচ্চ স্তরের অ্যাক্সেসের অনুমতি দেয়। বড় ডেটার জন্য, এটি এইচডিএফ 5 ফাইল অ্যাক্সেসের চারপাশে মোড়ক সরবরাহ করে যা বড় ডেটা সেটগুলিতে বিশ্লেষণ করা সহজ করে।
mpi4py
এটি আপনার পাইথন কোডটি একাধিক প্রসেসর এমনকি একাধিক কম্পিউটার জুড়ে বিতরণ উপায়ে চালানোর জন্য একটি সরঞ্জাম। এটি আপনাকে একই সাথে আপনার ডেটার অংশগুলিতে কাজ করতে দেয়।
dask
এটি সাধারণ ন্যাম্পি অ্যারের একটি সংস্করণ সরবরাহ করে যা বহু নরমাল অপারেশনগুলিকে মাল্টি-কোর পদ্ধতিতে সমর্থন করে যা মেমরিতে ফিট করার জন্য খুব বড় ডেটাতে কাজ করতে পারে।
আলোকচ্ছটা
একটি সরঞ্জাম বিশেষত বড় ডেটার জন্য ডিজাইন করা। এটি মূলত উপরের লাইব্রেরিগুলির চারপাশে একটি মোড়ক, বিপুল পরিমাণে ডেটা (যেমন এইচডিএফ 5 বা ডাটাবেস) সংরক্ষণের বিভিন্ন ধরণের বিভিন্ন পদ্ধতিতে ধারাবাহিক ইন্টারফেস সরবরাহ করে এবং সরঞ্জামগুলি সহজেই পরিচালনা করতে পারে, গাণিতিক ক্রিয়াকলাপ চালায় এবং ডেটা বিশ্লেষণ করে যে স্মৃতিতে ফিট করার জন্য এটি খুব বড়।