প্রশ্ন ট্যাগ «rdd»

15
স্পার্কে ডেটাফ্রেম, ডেটাসেট এবং আরডিডি-র মধ্যে পার্থক্য
আমি কেবল ভাবছি যে অ্যাপাচি স্পার্কে একটি RDDএবং DataFrame (স্পার্ক ২.০.০ ডেটা ফ্রেমটি কেবল টাইপ ওরফে Dataset[Row]) এর মধ্যে পার্থক্য কী ? আপনি কি অন্যকে রূপান্তর করতে পারবেন?

13
স্পার্ক - পুনরায় বিভাজন () বনাম কোলেসেস ()
লার্নিং স্পার্ক অনুযায়ী মনে রাখবেন যে আপনার ডেটা পুনরায় ভাগ করা মোটামুটি ব্যয়বহুল ক্রিয়াকলাপ। স্পার্কে repartition()ডাকা একটি অপ্টিমাইজড সংস্করণ রয়েছে যা coalesce()ডেটা চলাচল এড়াতে দেয় তবে কেবল যদি আপনি আরডিডি পার্টিশনের সংখ্যা হ্রাস করে থাকেন। একটি পার্থক্য যা আমি পাই তা হ'ল repartition()পার্টিশনের সংখ্যা বাড়িয়ে / হ্রাস করা যায়, তবে …


2
স্কালা বনাম পাইথনের জন্য দুর্দান্ত পারফরম্যান্স
আমি স্কেলার চেয়ে পাইথনকে পছন্দ করি। তবে, স্পার্ক যেমন স্থানীয়ভাবে স্কালায় লেখা হয়, আমি প্রত্যাশা করছিলাম যে স্পষ্টত কারণে আমার কোডটি স্কালায় পাইথন সংস্করণের চেয়ে দ্রুত চলবে obvious এই অনুমানের সাথে, আমি কিছু 1 জিবি ডেটার জন্য কিছু খুব সাধারণ প্রাক প্রসেসিং কোডের স্কালা সংস্করণটি শিখতে এবং লিখতে ভেবেছিলাম। ডেটার …

5
(কেন) আমাদের ক্যাশে কল করতে বা আরডিডি চালিয়ে যাওয়া দরকার
পাঠ্য ফাইল বা সংগ্রহ থেকে (বা অন্য কোনও আরডিডি থেকে) যখন একটি অনিচ্ছাকৃত বিতরণ করা ডেটাসেট (আরডিডি) তৈরি করা হয় তখন আরডিডি ডেটা মেমরিতে রাখার জন্য আমাদের কী স্পষ্টভাবে "ক্যাশে" কল করতে বা "জেদ" রাখতে হবে? বা আরডিডি ডেটা ডিফল্টরূপে মেমরিতে বিতরণ উপায়ে সংরক্ষণ করা হয়? val textFile = sc.textFile("/user/emp.txt") …
171 scala  apache-spark  rdd 

11
কিভাবে rdd অবজেক্টটি স্পার্কে ডেটাফ্রেমে রূপান্তর করা যায়
আমি কীভাবে org.apache.spark.rdd.RDD[org.apache.spark.sql.Row]কোনও আরডিডি ( ) কে ডেটাফ্রেমে রূপান্তর করতে পারি org.apache.spark.sql.DataFrame। আমি একটি ডেটাফ্রেমকে আরডিডি ব্যবহার করে রূপান্তর করেছি .rdd। এটি প্রক্রিয়া করার পরে আমি এটি ডেটা ফ্রেমে ফিরে চাই। কিভাবে আমি এটি করতে পারব ?

3
অ্যাপাচি স্পার্ক: মানচিত্র বনাম মানচিত্রের পার্টিশন?
আরডিডি map এবং mapPartitionsপদ্ধতির মধ্যে পার্থক্য কী ? এবং flatMapমত mapবা মত আচরণ করে mapPartitions? ধন্যবাদ। (সম্পাদনা) অর্থাত্ পার্থক্যটি (অর্থহীনভাবে বা বাস্তবায়নের ক্ষেত্রে) কী def map[A, B](rdd: RDD[A], fn: (A => B)) (implicit a: Manifest[A], b: Manifest[B]): RDD[B] = { rdd.mapPartitions({ iter: Iterator[A] => for (i <- iter) yield fn(i) …

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.