প্রোগ্রামিং apache-spark

10

আমি উইন্ডোজে অ্যাপাচি স্পার্ক সেটআপ করার চেষ্টা করছি। কিছুটা অনুসন্ধান করার পরে, আমি বুঝতে পারি যে স্ট্যান্ডেলোন মোডটি আমি চাই। উইন্ডোতে অ্যাপাচি স্পার্ক চালানোর জন্য আমি কোন বাইনারি ডাউনলোড করব? আমি স্পার্ক ডাউনলোড পৃষ্ঠায় হ্যাডোপ এবং সিডিএইচ সহ বিতরণগুলি দেখতে পাচ্ছি। আমার এই ওয়েবে রেফারেন্স নেই। এটির জন্য ধাপে ধাপে …

93 windows apache-spark

12

java.io.IOException: হাদোপ বাইনারিগুলিতে এক্সিকিউটেবল নাল \ বিন \ winutils.exe সনাক্ত করতে পারেনি। উইন্ডোজ on-তে সূর্যগ্রহণ শুরু করুন

আমি (ম্যাভেন স্পার্ক প্রকল্প) ইনস্টল থাকা কোনও সাধারণ sparkকাজ চালাতে পারছি নাScala IDEWindows 7 স্পার্ক কোর নির্ভরতা যুক্ত করা হয়েছে। val conf = new SparkConf().setAppName("DemoDF").setMaster("local") val sc = new SparkContext(conf) val logData = sc.textFile("File.txt") logData.count() ত্রুটি: 16/02/26 18:29:33 INFO SparkContext: Created broadcast 0 from textFile at FrameDemo.scala:13 16/02/26 18:29:34 ERROR …

92 eclipse scala apache-spark

10

হ্যাডোপ ছাড়াই কি অ্যাপাচি স্পার্ক চলতে পারে?

স্পার্ক এবং হাদোপের মধ্যে কোনও নির্ভরতা রয়েছে ? যদি না হয়, সেখানে যখন আমি রান আমি মিস করব কোন বৈশিষ্ট্য স্পার্ক ছাড়া Hadoop এর ?

91 hadoop amazon-s3 apache-spark mapreduce mesos

5

ডেটাফ্রেম গ্রুপটি স্পার্ক করুন এবং অবতরণ ক্রমে সাজান (পাইপর্ক)

আমি পাইস্পার্ক (পাইথন ২.7.৯ / স্পার্ক ১.৩.১) ব্যবহার করছি এবং একটি ডেটা ফ্রেম গ্রুপঅবজেক্ট রয়েছে যা আমাকে ফিল্ডিং এবং সাজানোর ক্রম অনুসারে বাছাই করতে হবে। কোডের এই অংশের মাধ্যমে এটি অর্জনের চেষ্টা করা হচ্ছে। group_by_dataframe.count().filter("`count` >= 10").sort('count', ascending=False) তবে এটি নিম্নলিখিত ত্রুটি ছুড়ে ফেলে। sort() got an unexpected keyword argument …

90 python apache-spark dataframe pyspark apache-spark-sql

12

ম্যাক স্পার্ক শেল স্পারকন্টেক্সট শুরু করার সময় ত্রুটি

আমি ম্যাক ওএস ইয়োসেমাইট 10.10.5 ব্যবহার করে স্পার্ক 1.6.0 (স্পার্ক-1.6.0-বিন-হাদুপ 2.4) শুরু করার চেষ্টা করেছি "./bin/spark-shell". এটি নীচে ত্রুটি আছে। আমি স্পার্কের বিভিন্ন সংস্করণ ইনস্টল করার চেষ্টাও করেছি তবে সকলেরই ত্রুটি রয়েছে। এইবার আমি দ্বিতীয়বার স্পার্ক চালাচ্ছি। আমার আগের রান ভাল কাজ করে। log4j:WARN No appenders could be found for …

89 apache-spark

1

অ্যাপাচি স্পার্ক ওয়েব ইউআইতে "পর্যায় এড়ানো" এর অর্থ কী?

আমার স্পার্ক ইউআই থেকে এড়িয়ে যাওয়া মানে কী?

88 apache-spark rdd

18

আমি কীভাবে চালকের অজগর সংস্করণটি স্পার্কে সেট করব?

আমি স্পার্ক 1.4.0-rc2 ব্যবহার করছি তাই আমি স্পার্ক সহ পাইথন 3 ব্যবহার করতে পারি। আমি যদি যোগ করিexport PYSPARK_PYTHON=python3 আমার .bashrc ফাইলটিতে যুক্ত করি তবে অজগর 3 দিয়ে ইন্টারেক্টিভভাবে স্পার্ক চালাতে পারি However তবে, আমি যদি স্থানীয় মোডে স্ট্যান্ড স্টোন প্রোগ্রাম চালাতে চাই তবে আমি একটি ত্রুটি পেয়েছি: Exception: Python …

88 apache-spark pyspark

8

Org.apache.spark.shuffle.MetadataFetchFiledException দ্বারা স্পার্ক চাকরীগুলি কেন ব্যর্থ হয়: জল্পনা মোডে 0 টি বদলের জন্য একটি আউটপুট অবস্থান অনুপস্থিত?

আমি একটি জল্পনা মোডে স্পার্ক কাজ চালাচ্ছি। আমার প্রায় 500 টি টাস্ক এবং 1 জিবি জিজেডের প্রায় 500 ফাইল সংকুচিত রয়েছে। আমি প্রতিটি কাজ পেতে থাকি, 1-2 টি কাজের জন্য, সংযুক্ত ত্রুটি যেখানে এটি পরে কয়েক ডজন বার পুনরায় সংঘটিত হয় (কাজটি শেষ করতে বাধা দেয়)। org.apache.spark.shuffle.MetadataFetchFiledException: শ্যাফেল 0 এর …

88 apache-spark

11

কীভাবে সরাসরি হাইভে ডেটাফ্রেম সংরক্ষণ করবেন?

DataFrameমাতালকে সরাসরি স্পার্কে সংরক্ষণ করা সম্ভব ? আমি রূপান্তর DataFrameকরার চেষ্টা করেছি Rddএবং তারপরে একটি পাঠ্য ফাইল হিসাবে সংরক্ষণ এবং তারপরে মধুচক্রের লোড। তবে আমি ভাবছি যে আমি সরাসরি dataframeহুবহু সংরক্ষণ করতে পারি কিনা

85 scala apache-spark hive apache-spark-sql

2

কিভাবে স্পার্ক এক্সিকিউটারের নম্বর, কোর এবং এক্সিকিউটার মেমরি টিউন করবেন?

আপনি উল্লিখিত প্যারামগুলি টিউন করতে কোথায় শুরু করবেন। আমরা কি এক্সিকিউটারের মেমোরি দিয়ে শুরু করি এবং এক্সিকিউটারের সংখ্যা পাই, বা আমরা কোর দিয়ে শুরু করি এবং এক্সিকিউটারের নম্বর পাই। আমি লিঙ্কটি অনুসরণ করেছিলাম । তবে একটি উচ্চ স্তরের ধারণা পেয়েছে তবে এখনও কীভাবে বা কোথায় শুরু হবে এবং চূড়ান্ত সিদ্ধান্তে …

84 apache-spark

5

রাস্তার গড় গতি গণনা করুন [বন্ধ]

বন্ধ । এই প্রশ্নটি আরও ফোকাস করা প্রয়োজন । এটি বর্তমানে উত্তর গ্রহণ করছে না। এই প্রশ্নটি উন্নত করতে চান? প্রশ্নটি আপডেট করুন যাতে এটি কেবলমাত্র এই পোস্টটি সম্পাদনা করে একটি সমস্যার উপর দৃষ্টি নিবদ্ধ করে । 3 দিন আগে বন্ধ ছিল । আমি একটি ডেটা ইঞ্জিনিয়ার জব সাক্ষাত্কারে গিয়েছিলাম। …

20 apache-spark apache-kafka stream-processing

2

যখন অনেকগুলি স্পার্ক কাজ একই সাথে নির্ধারিত হয় তখন ডিডলক হয়

স্পার্ক FIFO শিডিয়ুলারের সাহায্যে YARN ক্লাস্টার মোডে চলমান স্পার্ক 2.4.4 ব্যবহার করা Using আমি একটি চলক সংখ্যক থ্রেড সহ থ্রেড পুল নির্বাহক ব্যবহার করে একাধিক স্পার্ক ডেটাফ্রেম অপারেশনগুলি (অর্থাত্ এস 3 তে ডেটা লিখন) জমা দিচ্ছি। আমার কাছে 10 ডলার থ্রেড থাকলে এটি ঠিকঠাক কাজ করে তবে আমি যদি কয়েকশ …

17 apache-spark

2

স্পার্ক: পাইথন আমার ব্যবহারের ক্ষেত্রে স্ক্যালাকে উল্লেখযোগ্যভাবে ছাড়িয়ে যায় কেন?

পাইথন এবং স্কালা ব্যবহার করার সময় স্পার্কের পারফরম্যান্সের তুলনা করতে আমি উভয় ভাষায় একই কাজ তৈরি করেছি এবং রানটাইম তুলনা করেছি। আমি উভয় চাকরিই প্রায় একই পরিমাণে সময় নেওয়ার প্রত্যাশা করেছিল, তবে পাইথন 27minচাকরীটি কেবল গ্রহণ করেছিল , যখন স্কালার কাজটি 37min(প্রায় ৪০% বেশি সময়!) নিয়েছিল । আমি জাভাতেও একই …

16 python scala apache-spark pyspark

1

Pyspark df থেকে PostgresSQL এ 50 মিলিয়নেরও বেশি রচনা, সেরা দক্ষ পদ্ধতির

কয়েক মিলিয়ন রেকর্ড সন্নিবেশনের সবচেয়ে কার্যকর উপায় কী বলে স্পার্ক ডেটাফ্রেম থেকে পোস্টগ্রিস টেবিলগুলিতে 50 মিলিয়ন। অতীতে আমি স্পার্ক থেকে এমএসএসকিউএল পর্যন্ত বাল্ক কপি এবং ব্যাচের আকারের বিকল্পটি ব্যবহার করে সফল হয়েছি । পোস্টগ্রিসের জন্য এখানে কি অনুরূপ কিছু থাকতে পারে? আমার চেষ্টা করা কোড এবং প্রক্রিয়াটি চালাতে যে সময়টি …

16 postgresql apache-spark pyspark apache-spark-sql bigdata

3

কীভাবে 'টাইপএরর' ঠিক করতে হবে: স্পার্ক ২.৪.৪ ইনস্টল করার পরে পাইপর্ক চালানোর চেষ্টা করার সময় একটি পূর্ণসংখ্যার (টাইপ বাইটস পাওয়া যায়) ত্রুটি

আমি ওপেনজেডিকে 13.0.1 এবং পাইথন 3.8 এবং স্পার্ক 2.4.4 ইনস্টল করেছি। ইনস্টলটি পরীক্ষা করার জন্য নির্দেশগুলি চালনা করা হয় the স্পার্ক ইনস্টলেশনটির মূল থেকে \ বিন \ পাইপার্ক। আমি নিশ্চিত না যে আমি কিছু পরিবেশের পরিবর্তনশীল স্থাপনের মতো স্পার্ক ইনস্টল করার কোনও পদক্ষেপ মিস করেছি, তবে আমি আর কোনও বিস্তারিত …

16 apache-spark pyspark

প্রশ্ন ট্যাগ «apache-spark»