পাইস্পার্কে স্পার্ক কার্যকর করার জন্য দুটি উপাদান একসাথে কাজ করা প্রয়োজন:
pyspark
পাইথন প্যাকেজ
- একটি জেভিএম-তে স্পার্ক উদাহরণ
স্পার্ক-সাবমিট বা পাইসপার্কের সাহায্যে জিনিসগুলি চালু করার সময়, এই স্ক্রিপ্টগুলি উভয়েরই যত্ন নেবে, অর্থাত্ তারা আপনার পাইথনপথ, পাঠ ইত্যাদি স্থাপন করবে যাতে আপনার স্ক্রিপ্টটি পাইপার্ক খুঁজে পেতে পারে এবং আপনার স্পষ্ট উদাহরণটি শুরু করে আপনার প্যারাম অনুসারে কনফিগার করে যেমন, - মাস্টার এক্স
বিকল্পভাবে, এই স্ক্রিপ্টগুলি বাইপাস করা এবং আপনার স্পার্ক অ্যাপ্লিকেশনটি সরাসরি পাইথন ইন্টারপ্রেটারের মতো চালানো সম্ভব python myscript.py
। এটি বিশেষত আকর্ষণীয় যখন স্পার্ক স্ক্রিপ্টগুলি আরও জটিল হতে শুরু করে এবং শেষ পর্যন্ত তাদের নিজস্ব আরগগুলি গ্রহণ করে।
- পাইপার্ক প্যাকেজটি পাইথন ইন্টারপ্রেটারের দ্বারা পাওয়া যাবে তা নিশ্চিত করুন। ইতিমধ্যে আলোচিত হিসাবে হয় হয় পাইথনপথে স্পার্ক / পাইথন দির যুক্ত করুন বা পিপ ইনস্টল ব্যবহার করে সরাসরি পাইপার্ক ইনস্টল করুন।
- আপনার স্ক্রিপ্ট থেকে স্পার্ক উদাহরণের পরামিতিগুলি সেট করুন (যেগুলি পিএসপার্কে প্রেরণ করা হত)।
- স্পার্ক কনফিগারেশনের জন্য আপনি সাধারণত --conf দিয়ে সেট করতে চান সেগুলি স্পার্কসেশন.বিল্ডার.কমফিগের একটি কনফিগার অবজেক্ট (বা স্ট্রিং কনফিগারেশন) দিয়ে সংজ্ঞায়িত করা হয়েছে
- প্রধান বিকল্পগুলির জন্য (যেমন - মাস্টার, বা - ড্রাইভার - মেম) আপনি যে মুহুর্তে সেগুলি সেট করতে পারবেন সেই মুহুর্তের জন্য আপনি পিওয়াইএসপিআরএসএসএসবিএমএসআইবিএমআইআরআইজি এনভায়রনমেন্ট ভেরিয়েবলের কাছে লিখে set জিনিসগুলিকে আরও পরিষ্কার এবং নিরাপদ করার জন্য আপনি এটিকে পাইথনের মধ্যে থেকেই সেট করতে পারেন এবং শুরু করার সাথে সাথে স্পার্কটি এটি পড়বে।
- উদাহরণটি শুরু করুন, যার জন্য আপনাকে কেবল
getOrCreate()
বিল্ডার অবজেক্ট থেকে কল করতে হবে ।
আপনার স্ক্রিপ্টে এর মতো কিছু থাকতে পারে:
from pyspark.sql import SparkSession
if __name__ == "__main__":
if spark_main_opts:
# Set main options, e.g. "--master local[4]"
os.environ['PYSPARK_SUBMIT_ARGS'] = spark_main_opts + " pyspark-shell"
# Set spark config
spark = (SparkSession.builder
.config("spark.checkpoint.compress", True)
.config("spark.jars.packages", "graphframes:graphframes:0.5.0-spark2.1-s_2.11")
.getOrCreate())