আমি হাইভের সাথে উপলব্ধ স্টোরেজ ফর্ম্যাটগুলিতে কয়েকটি পরীক্ষা চালিয়ে যাচ্ছি এবং পারকুইট এবং ওআরসি প্রধান বিকল্প হিসাবে ব্যবহার করছি। আমি ওআরসি একবার ডিফল্ট সংকোচনের সাথে এবং একবার স্নাপ্পির সাথে অন্তর্ভুক্ত করেছিলাম।
আমি অনেকগুলি ডকুমেন্ট পড়েছি যা ওপিসির তুলনায় পার্কিটকে সময় / স্থান জটিলতায় আরও ভাল হতে বলেছে কিন্তু আমার পরীক্ষাগুলি আমি যে নথিগুলি দিয়েছিলাম তার বিপরীতে।
আমার ডেটা সম্পর্কিত কিছু বিবরণ অনুসরণ করে।
Table A- Text File Format- 2.5GB
Table B - ORC - 652MB
Table C - ORC with Snappy - 802MB
Table D - Parquet - 1.9 GB
আমার টেবিলের সংকোচনের বিষয়ে পরকীয়াটি সবচেয়ে খারাপ ছিল।
উপরের টেবিলগুলির সাথে আমার পরীক্ষাগুলি নিম্নলিখিত ফলাফল পেয়েছে।
সারি গণনা অপারেশন
Text Format Cumulative CPU - 123.33 sec
Parquet Format Cumulative CPU - 204.92 sec
ORC Format Cumulative CPU - 119.99 sec
ORC with SNAPPY Cumulative CPU - 107.05 sec
একটি কলাম অপারেশনের যোগফল
Text Format Cumulative CPU - 127.85 sec
Parquet Format Cumulative CPU - 255.2 sec
ORC Format Cumulative CPU - 120.48 sec
ORC with SNAPPY Cumulative CPU - 98.27 sec
কলাম ক্রিয়াকলাপের গড়
Text Format Cumulative CPU - 128.79 sec
Parquet Format Cumulative CPU - 211.73 sec
ORC Format Cumulative CPU - 165.5 sec
ORC with SNAPPY Cumulative CPU - 135.45 sec
যেখানে ক্লজ ব্যবহার করে প্রদত্ত ব্যাপ্তি থেকে 4 টি কলাম নির্বাচন করা
Text Format Cumulative CPU - 72.48 sec
Parquet Format Cumulative CPU - 136.4 sec
ORC Format Cumulative CPU - 96.63 sec
ORC with SNAPPY Cumulative CPU - 82.05 sec
তার মানে কি ওআরসি পার্কুয়েট তত দ্রুত? বা এমন কিছু আছে যা আমি ক্যোয়ারীর প্রতিক্রিয়া সময় এবং সংক্ষেপণের অনুপাতের সাথে এটি আরও ভালভাবে কাজ করতে পারি
ধন্যবাদ!