প্রোগ্রামিং rdd

15

স্পার্কে ডেটাফ্রেম, ডেটাসেট এবং আরডিডি-র মধ্যে পার্থক্য

আমি কেবল ভাবছি যে অ্যাপাচি স্পার্কে একটি RDDএবং DataFrame (স্পার্ক ২.০.০ ডেটা ফ্রেমটি কেবল টাইপ ওরফে Dataset[Row]) এর মধ্যে পার্থক্য কী ? আপনি কি অন্যকে রূপান্তর করতে পারবেন?

257 dataframe apache-spark apache-spark-sql rdd apache-spark-dataset

13

স্পার্ক - পুনরায় বিভাজন () বনাম কোলেসেস ()

লার্নিং স্পার্ক অনুযায়ী মনে রাখবেন যে আপনার ডেটা পুনরায় ভাগ করা মোটামুটি ব্যয়বহুল ক্রিয়াকলাপ। স্পার্কে repartition()ডাকা একটি অপ্টিমাইজড সংস্করণ রয়েছে যা coalesce()ডেটা চলাচল এড়াতে দেয় তবে কেবল যদি আপনি আরডিডি পার্টিশনের সংখ্যা হ্রাস করে থাকেন। একটি পার্থক্য যা আমি পাই তা হ'ল repartition()পার্টিশনের সংখ্যা বাড়িয়ে / হ্রাস করা যায়, তবে …

251 apache-spark distributed-computing rdd

5

ক্যাশে এবং অবিচলিত মধ্যে পার্থক্য কি?

RDDঅধ্যবসায়ের বিচারে , স্পার্কের মধ্যে cache()এবং পার্থক্যগুলি কী persist()?

202 apache-spark distributed-computing rdd

2

স্কালা বনাম পাইথনের জন্য দুর্দান্ত পারফরম্যান্স

আমি স্কেলার চেয়ে পাইথনকে পছন্দ করি। তবে, স্পার্ক যেমন স্থানীয়ভাবে স্কালায় লেখা হয়, আমি প্রত্যাশা করছিলাম যে স্পষ্টত কারণে আমার কোডটি স্কালায় পাইথন সংস্করণের চেয়ে দ্রুত চলবে obvious এই অনুমানের সাথে, আমি কিছু 1 জিবি ডেটার জন্য কিছু খুব সাধারণ প্রাক প্রসেসিং কোডের স্কালা সংস্করণটি শিখতে এবং লিখতে ভেবেছিলাম। ডেটার …

178 scala performance apache-spark pyspark rdd

5

(কেন) আমাদের ক্যাশে কল করতে বা আরডিডি চালিয়ে যাওয়া দরকার

পাঠ্য ফাইল বা সংগ্রহ থেকে (বা অন্য কোনও আরডিডি থেকে) যখন একটি অনিচ্ছাকৃত বিতরণ করা ডেটাসেট (আরডিডি) তৈরি করা হয় তখন আরডিডি ডেটা মেমরিতে রাখার জন্য আমাদের কী স্পষ্টভাবে "ক্যাশে" কল করতে বা "জেদ" রাখতে হবে? বা আরডিডি ডেটা ডিফল্টরূপে মেমরিতে বিতরণ উপায়ে সংরক্ষণ করা হয়? val textFile = sc.textFile("/user/emp.txt") …

171 scala apache-spark rdd

11

কিভাবে rdd অবজেক্টটি স্পার্কে ডেটাফ্রেমে রূপান্তর করা যায়

আমি কীভাবে org.apache.spark.rdd.RDD[org.apache.spark.sql.Row]কোনও আরডিডি ( ) কে ডেটাফ্রেমে রূপান্তর করতে পারি org.apache.spark.sql.DataFrame। আমি একটি ডেটাফ্রেমকে আরডিডি ব্যবহার করে রূপান্তর করেছি .rdd। এটি প্রক্রিয়া করার পরে আমি এটি ডেটা ফ্রেমে ফিরে চাই। কিভাবে আমি এটি করতে পারব ?

139 scala apache-spark apache-spark-sql rdd

3

অ্যাপাচি স্পার্ক: মানচিত্র বনাম মানচিত্রের পার্টিশন?

আরডিডি map এবং mapPartitionsপদ্ধতির মধ্যে পার্থক্য কী ? এবং flatMapমত mapবা মত আচরণ করে mapPartitions? ধন্যবাদ। (সম্পাদনা) অর্থাত্ পার্থক্যটি (অর্থহীনভাবে বা বাস্তবায়নের ক্ষেত্রে) কী def map[A, B](rdd: RDD[A], fn: (A => B)) (implicit a: Manifest[A], b: Manifest[B]): RDD[B] = { rdd.mapPartitions({ iter: Iterator[A] => for (i <- iter) yield fn(i) …

133 performance scala apache-spark rdd

1

অ্যাপাচি স্পার্ক ওয়েব ইউআইতে "পর্যায় এড়ানো" এর অর্থ কী?

আমার স্পার্ক ইউআই থেকে এড়িয়ে যাওয়া মানে কী?

88 apache-spark rdd

প্রশ্ন ট্যাগ «rdd»