কেউ কি কোনও মানদণ্ড করেছে?
হ্যাঁ, আপনি আপনার প্রশ্নে লিঙ্ক করেছেন এমন মানদণ্ডটি সম্প্রতি ডেটা.টেবল এবং পান্ডাসের সাম্প্রতিক সংস্করণের জন্য আপডেট করা হয়েছে। অতিরিক্তভাবে অন্যান্য সফ্টওয়্যার যুক্ত করা হয়েছে। আপনি https://h2oai.github.io/db-benchmark এ আপডেট হওয়া বেঞ্চমার্কটি খুঁজে পেতে পারেন
দুর্ভাগ্যক্রমে এটি 125 গিগাবাইট মেমরি মেশিনে নির্ধারিত হয়েছে (মূলটি 244 জিবি নয়)। ফলস্বরূপ পান্ডা এবং ড্যাস্ক groupby1e9 সারি (50 গিগাবাইট সিএসভি) ডেটা চেষ্টা করতে অক্ষম কারণ ডেটা পড়ার সময় এগুলি মেমরির বাইরে চলে যায়। সুতরাং পান্ডাস বনাম ডেটা.ট্যাবলের জন্য আপনাকে 1e8 সারি (5 জিবি) ডেটা দেখতে হবে।
আপনি যে কন্টেন্টের জন্য জিজ্ঞাসা করছেন কেবল তার লিঙ্কটি না করার জন্য আমি সেই সমাধানগুলির জন্য সাম্প্রতিক সময়গুলি আটক করছি।
দয়া করে নোট করুন যে এই সময়গুলি পুরানো হয়ে গেছে আপডেট আপডেটের
জন্য https://h2oai.github.io/db-benchmark দেখুন
| in_rows|question | data.table| pandas|
|-------:|:---------------------|----------:|------:|
| 1e+07|sum v1 by id1 | 0.140| 0.414|
| 1e+07|sum v1 by id1:id2 | 0.411| 1.171|
| 1e+07|sum v1 mean v3 by id3 | 0.574| 1.327|
| 1e+07|mean v1:v3 by id4 | 0.252| 0.189|
| 1e+07|sum v1:v3 by id6 | 0.595| 0.893|
| 1e+08|sum v1 by id1 | 1.551| 4.091|
| 1e+08|sum v1 by id1:id2 | 4.200| 11.557|
| 1e+08|sum v1 mean v3 by id3 | 10.634| 24.590|
| 1e+08|mean v1:v3 by id4 | 2.683| 2.133|
| 1e+08|sum v1:v3 by id6 | 6.963| 16.451|
| 1e+09|sum v1 by id1 | 15.063| NA|
| 1e+09|sum v1 by id1:id2 | 44.240| NA|
| 1e+09|sum v1 mean v3 by id3 | 157.430| NA|
| 1e+09|mean v1:v3 by id4 | 26.855| NA|
| 1e+09|sum v1:v3 by id6 | 120.376| NA|
5 টির মধ্যে 4 টিতে ডেটা.ট্যাবলটি দ্রুততর এবং আমরা এটি আরও ভাল স্কেল দেখতে পাচ্ছি।
শুধু মনে রাখবেন যে এই সময় এখন হয় , যেখানে id1, id2এবং id3চরিত্র ক্ষেত্র। সেই শ্রেণীগত শীঘ্রই পরিবর্তন করা হবে সম্পন্ন । এছাড়াও অন্যান্য কারণ রয়েছে যেগুলি অদূর ভবিষ্যতে সেই সময়গুলিকে প্রভাবিত করতে পারে (যেমন সমান্তরাল ডোনগুলিতে গ্রুপিং করা )। আমরা এনএ , এবং বিভিন্ন কার্ডিনালিটি সম্পন্ন ডেটার জন্য পৃথক মানদণ্ড যুক্ত করতে যাচ্ছি ।
অন্যান্য কর্ম একটানা এই মাপকাঠিতে প্রকল্পে আসছে তাই যদি আপনি আগ্রহী join, sort, readএবং অন্যদের নিশ্চিত পরে চেক করতে হবে।
এবং অবশ্যই আপনাকে প্রকল্পের রেপোতে প্রতিক্রিয়া জানাতে স্বাগতম!