আমি ইয়ার্নে স্পার্ক কাজ চালানোর সময় করের সংখ্যা এবং নির্বাহকের সংখ্যার সম্পর্ক বোঝার চেষ্টা করছি।
পরীক্ষার পরিবেশটি নিম্নরূপ:
- ডেটা নোডের সংখ্যা: 3
- ডেটা নোড মেশিন বিশেষ:
- সিপিইউ: কোর আই -4--47৯০ (করের #: 4, # থ্রেডের মধ্যে: 8)
- র্যাম: 32 জিবি (8 জিবি এক্স 4)
- এইচডিডি: 8 টিবি (2 টিবি এক্স 4)
নেটওয়ার্ক: 1 জিবি
স্পার্ক সংস্করণ: 1.0.0
হ্যাডোপ সংস্করণ: ২.৪.০ (হর্টন ওয়ার্কস এইচডিপি ২.১)
চাকরি প্রবাহ স্পার্ক করুন: sc.textFile -> ফিল্টার -> মানচিত্র -> ফিল্টার -> মানচিত্রটিপেইয়ার -> হ্রাসবাইক -> মানচিত্র -> saveAsTextFile
তথ্য অন্তর্ভুক্তী
- প্রকার: একক পাঠ্য ফাইল
- আকার: 165 জিবি
- লাইনের সংখ্যা: 454,568,833
আউটপুট
- দ্বিতীয় ফিল্টারের পরে রেখার সংখ্যা: 310,640,717
- ফলাফল ফাইলের লাইন সংখ্যা: 99,848,268
- ফলাফল ফাইলের আকার: 41 জিবি
কাজটি নিম্নলিখিত কনফিগারেশনের মাধ্যমে পরিচালিত হয়েছিল:
--master yarn-client --executor-memory 19G --executor-cores 7 --num-executors 3
(প্রতিটি ডেটা নোডের এক্সিকিউটাররা, কোর হিসাবে ব্যবহার করুন)--master yarn-client --executor-memory 19G --executor-cores 4 --num-executors 3
(# টি কোর কমেছে)--master yarn-client --executor-memory 4G --executor-cores 2 --num-executors 12
(কম কোর, আরও নির্বাহক)
বিগত সময়:
50 মিনিট 15 সেকেন্ড
55 মিনিট 48 সেকেন্ড
31 মিনিট 23 সেকেন্ড
আমার অবাক করার বিষয়, (3) অনেক দ্রুত ছিল।
আমি ভেবেছিলাম যে (1) দ্রুততর হবে, যেহেতু এলোমেলো করার সময় আন্ত-নির্বাহী যোগাযোগ কম হবে।
যদিও (১) এর কোরগুলির (#) কম (3) এর চেয়ে কম, তবে # কফ 2 (যেহেতু মূল কারণ নয়) ভাল অভিনয় করেছে perform
(পাইলট জলের উত্তর পরে অনুসরণ করা হয়েছে।)
তথ্যের জন্য, পারফরম্যান্স মনিটর স্ক্রিন ক্যাপচারটি নিম্নরূপ:
- (1) - এর জন্য গাংলিয়া ডেটা নোডের সংক্ষিপ্তসার - 04:37 এ কাজ শুরু হয়েছিল।
- (3) - এর জন্য গ্যাংলিয়া ডেটা নোডের সংক্ষিপ্তসার 19:47 এ কাজ শুরু হয়েছিল। সময়ের আগে গ্রাফ উপেক্ষা করুন।
গ্রাফটি মোটামুটি 2 বিভাগে বিভক্ত:
- প্রথম: বাইকি থেকে শুরু থেকে হ্রাস পর্যন্ত: সিপিইউ নিবিড়, কোনও নেটওয়ার্ক ক্রিয়াকলাপ নয়
- দ্বিতীয়: কমান্ডবাইয়ের পরে: সিপিইউ হ্রাস করে, নেটওয়ার্ক আই / ও করা হয়।
গ্রাফটি যেমন দেখায়, (1) যতটা সিপিইউ শক্তি দেওয়া হয়েছিল তা ব্যবহার করতে পারে। সুতরাং, এটি থ্রেড সংখ্যার সমস্যা নাও হতে পারে।
এই ফলাফলটি কীভাবে ব্যাখ্যা করবেন?