কেউ কি কোনও মানদণ্ড করেছে?
হ্যাঁ, আপনি আপনার প্রশ্নে লিঙ্ক করেছেন এমন মানদণ্ডটি সম্প্রতি ডেটা.টেবল এবং পান্ডাসের সাম্প্রতিক সংস্করণের জন্য আপডেট করা হয়েছে। অতিরিক্তভাবে অন্যান্য সফ্টওয়্যার যুক্ত করা হয়েছে। আপনি https://h2oai.github.io/db-benchmark এ আপডেট হওয়া বেঞ্চমার্কটি খুঁজে পেতে পারেন
দুর্ভাগ্যক্রমে এটি 125 গিগাবাইট মেমরি মেশিনে নির্ধারিত হয়েছে (মূলটি 244 জিবি নয়)। ফলস্বরূপ পান্ডা এবং ড্যাস্ক groupby
1e9 সারি (50 গিগাবাইট সিএসভি) ডেটা চেষ্টা করতে অক্ষম কারণ ডেটা পড়ার সময় এগুলি মেমরির বাইরে চলে যায়। সুতরাং পান্ডাস বনাম ডেটা.ট্যাবলের জন্য আপনাকে 1e8 সারি (5 জিবি) ডেটা দেখতে হবে।
আপনি যে কন্টেন্টের জন্য জিজ্ঞাসা করছেন কেবল তার লিঙ্কটি না করার জন্য আমি সেই সমাধানগুলির জন্য সাম্প্রতিক সময়গুলি আটক করছি।
দয়া করে নোট করুন যে এই সময়গুলি পুরানো হয়ে গেছে আপডেট আপডেটের
জন্য https://h2oai.github.io/db-benchmark দেখুন
| in_rows|question | data.table| pandas|
|-------:|:---------------------|----------:|------:|
| 1e+07|sum v1 by id1 | 0.140| 0.414|
| 1e+07|sum v1 by id1:id2 | 0.411| 1.171|
| 1e+07|sum v1 mean v3 by id3 | 0.574| 1.327|
| 1e+07|mean v1:v3 by id4 | 0.252| 0.189|
| 1e+07|sum v1:v3 by id6 | 0.595| 0.893|
| 1e+08|sum v1 by id1 | 1.551| 4.091|
| 1e+08|sum v1 by id1:id2 | 4.200| 11.557|
| 1e+08|sum v1 mean v3 by id3 | 10.634| 24.590|
| 1e+08|mean v1:v3 by id4 | 2.683| 2.133|
| 1e+08|sum v1:v3 by id6 | 6.963| 16.451|
| 1e+09|sum v1 by id1 | 15.063| NA|
| 1e+09|sum v1 by id1:id2 | 44.240| NA|
| 1e+09|sum v1 mean v3 by id3 | 157.430| NA|
| 1e+09|mean v1:v3 by id4 | 26.855| NA|
| 1e+09|sum v1:v3 by id6 | 120.376| NA|
5 টির মধ্যে 4 টিতে ডেটা.ট্যাবলটি দ্রুততর এবং আমরা এটি আরও ভাল স্কেল দেখতে পাচ্ছি।
শুধু মনে রাখবেন যে এই সময় এখন হয় , যেখানে id1
, id2
এবং id3
চরিত্র ক্ষেত্র। সেই শ্রেণীগত শীঘ্রই পরিবর্তন করা হবে সম্পন্ন । এছাড়াও অন্যান্য কারণ রয়েছে যেগুলি অদূর ভবিষ্যতে সেই সময়গুলিকে প্রভাবিত করতে পারে (যেমন সমান্তরাল ডোনগুলিতে গ্রুপিং করা )। আমরা এনএ , এবং বিভিন্ন কার্ডিনালিটি সম্পন্ন ডেটার জন্য পৃথক মানদণ্ড যুক্ত করতে যাচ্ছি ।
অন্যান্য কর্ম একটানা এই মাপকাঠিতে প্রকল্পে আসছে তাই যদি আপনি আগ্রহী join
, sort
, read
এবং অন্যদের নিশ্চিত পরে চেক করতে হবে।
এবং অবশ্যই আপনাকে প্রকল্পের রেপোতে প্রতিক্রিয়া জানাতে স্বাগতম!