ফাংশনাল প্রোগ্রামিংগুলিতে হ্রাস এবং ভাঁজ / ভাঁজ / ভাঁজ (বিশেষত স্কালা এবং স্কালা এপিআই) এর মধ্যে পার্থক্য?


96

কেন Scala এবং স্ফুলিঙ্গ মত অবকাঠামো ও বুকফাটা উভয় আছে reduceএবং foldLeft? আমি তখন এর মধ্যে পার্থক্য কি reduceএবং fold?



উত্তর:


261

বনাম ভাঁজ হ্রাস করুন

একটি বড় বড় পার্থক্য, যা এই বিষয়ে স্পষ্টভাবে সম্পর্কিত অন্য কোনও স্ট্যাকওভারফ্লো উত্তরে উল্লেখ করা হয়নি, তা reduceহল একটি ক্রমবর্ধমান মনোয়েড দেওয়া উচিত , অর্থাত্ একটি ক্রিয়াকলাপ যা ভ্রমণ এবং সহযোগী উভয়ই হয়। এর অর্থ অপারেশনটি সমান্তরাল হতে পারে।

বিগ ডেটা / এমপিপি / ডিস্ট্রিবিউটেড কম্পিউটিং এবং reduceএমনকি কেন বিদ্যমান রয়েছে তার পুরো কারণেই এই পার্থক্যটি অত্যন্ত গুরুত্বপূর্ণ । সংগ্রহটি কাটা যাবে এবং reduceপ্রতিটি খণ্ডে এটি পরিচালনা করতে পারে , তারপরে reduceপ্রতিটি খণ্ডের ফলাফলগুলি পরিচালনা করতে পারে - বাস্তবে খণ্ডনের স্তরটি এক স্তর গভীর থেকে থামতে হবে না। আমরা প্রতিটি অংশ খুব কাটা যেতে পারে। এই কারণেই একটি তালিকায় সংখ্যার যোগফলকে O (লগ এন) দেওয়া হয় যদি অসীম সংখ্যক সিপিইউ দেওয়া হয়।

আপনি যদি স্বাক্ষরগুলির দিকে তাকান তবে reduceঅস্তিত্বের কোনও কারণ নেই কারণ আপনি এটি দিয়ে reduceযা কিছু করতে পারেন তা অর্জন করতে পারেন foldLeft। এর কার্যকারিতা এর কার্যকারিতার foldLeftচেয়ে বৃহত্তর reduce

তবে আপনি একটি সমান্তরাল করতে পারবেন না foldLeft, সুতরাং এটির রানটাইমটি সর্বদা ও (এন) হয় (আপনি যদি কোনও পরিবহিত মনোয়েড খাওয়ান)। এর কারণ হল এটা অধিকৃত অপারেশন হয় না একটি বিনিময় monoid এবং তাই ক্রমযোজিত মান অনুক্রমিক aggregations একটি সিরিজ দ্বারা নির্ণিত করা হবে না।

foldLeftচলাচল বা সাহসীতা গ্রহণ করে না। এটি সাহসিকতা যা সংগ্রহটি কাটা করার ক্ষমতা দেয় এবং এটি ক্রমবর্ধমানতা যা কমুলেটকে সহজ করে তোলে কারণ আদেশ গুরুত্বপূর্ণ নয় (তাই প্রতিটি খণ্ড থেকে ফলাফলের প্রতিটি ফলাফলকে একত্রিত করার জন্য কোন আদেশ তা বিবেচনা করে না)। সমান্তরালকরণের জন্য কঠোরভাবে যোগাযোগের প্রয়োজন হয় না, উদাহরণস্বরূপ বিতরণ করা অ্যালগরিদমগুলি বিতর্ক করা এটি যুক্তিটিকে আরও সহজ করে তোলে কারণ আপনার খণ্ডগুলিকে অর্ডার দেওয়ার দরকার নেই।

আপনার যদি স্পার্ক ডকুমেন্টেশনের দিকে নজর থাকে তবে reduceসুনির্দিষ্টভাবে বলে ... "... পরিবর্তনশীল এবং সহযোগী বাইনারি অপারেটর"

http://spark.apache.org/docs/1.0.0/api/scala/index.html#org.apache.spark.rdd.RDD

এখানে এমন প্রমাণ রয়েছে যা reduceকেবল একটি বিশেষ ক্ষেত্রে নয়foldLeft

scala> val intParList: ParSeq[Int] = (1 to 100000).map(_ => scala.util.Random.nextInt()).par

scala> timeMany(1000, intParList.reduce(_ + _))
Took 462.395867 milli seconds

scala> timeMany(1000, intParList.foldLeft(0)(_ + _))
Took 2589.363031 milli seconds

বনাম ভাঁজ হ্রাস করুন

এখন এখান থেকে এটি এফপি / গাণিতিক শিকাগুলির আরও কাছাকাছি যায় এবং ব্যাখ্যা করার জন্য একটু কৌশলযুক্ত হয়। হ্রাস হ'ল ম্যাপ্রেডিউস দৃষ্টান্তের অংশ হিসাবে আনুষ্ঠানিকভাবে সংজ্ঞায়িত করা হয়েছে, যা অর্ডারলেস সংগ্রহের (মাল্টিসেটস) কাজ করে, ভাঁজটি পুনরাবৃত্তি হিসাবে (সংঘবদ্ধতা দেখুন) পদে সংজ্ঞায়িত হয় এবং এইভাবে সংগ্রহের কাঠামো / ক্রম অনুমান করে।

foldস্ক্যালডিংয়ে কোনও পদ্ধতি নেই কারণ (কঠোর) মানচিত্র হ্রাস প্রোগ্রামিং মডেলের অধীনে আমরা সংজ্ঞা দিতে foldপারি না কারণ খণ্ডগুলির কোনও অর্ডার নেই এবং foldকেবল যোগাযোগের প্রয়োজন নয়, কেবল মিশ্রতা প্রয়োজন।

সরলভাবে বলুন, reduceসংক্রমণের অর্ডার ব্যতীত কাজ করে, foldসংক্রমণের অর্ডার প্রয়োজন এবং এটি সেই সংকলনের ক্রম যা শূন্য মানের নয় যা তাদের আলাদা করে শূন্য মানের অস্তিত্বের প্রয়োজন। কঠোরভাবে বলতে reduce উচিত একটি খালি সংগ্রহের কাজ করে, কারণ একটি অবাধ মান গ্রহণ করে অনুমিত দ্বারা তার শূন্য মান করতে পারেন xএবং তারপর সমাধানে x op y = x, কিন্তু যে কোনো অ-বিনিময় অপারেশন সঙ্গে কাজ করে না যেমন আছে বাম এবং ডান শূন্য মান স্বতন্ত্র বিদ্যমান পারেন না (অর্থাত্ x op y != y op x) অবশ্যই স্কেলা এই শূন্যের মানটি কী তা নিয়ে কাজ করতে বিরক্ত করে না কারণ এর জন্য কিছু গণিত করা প্রয়োজন (যা সম্ভবত অসম্পূর্ণযোগ্য), তাই কেবল একটি ব্যতিক্রম ছোঁড়ে।

দেখে মনে হচ্ছে (ব্যুৎপত্তি ক্ষেত্রে প্রায়শই দেখা যায়) এই আসল গাণিতিক অর্থটি হারিয়ে গেছে, কারণ প্রোগ্রামিংয়ের একমাত্র সুস্পষ্ট পার্থক্য হ'ল স্বাক্ষর। ফলাফলটি মানচিত্রের মূল অর্থ সংরক্ষণের পরিবর্তে এর reduceপ্রতিশব্দ হয়ে উঠেছে fold। এখন এই পদগুলি প্রায়শই আন্তঃবিস্মরণীয়ভাবে ব্যবহৃত হয় এবং বেশিরভাগ বাস্তবায়নে (খালি সংগ্রহ উপেক্ষা করে) একই আচরণ করে। অদ্ভুততা স্পার্কের মতো অদ্ভুততার দ্বারা আরও বেড়ে যায়, যা আমরা এখন সম্বোধন করব।

সুতরাং স্পার্ক করে একটি আছে fold, কিন্তু ক্রমে সাব ফলাফল (প্রতিটি পার্টিশন জন্য এক) (লেখার সময়) একত্রিত করা হয় একই আদেশ, যা কর্ম সম্পন্ন - এবং এইভাবে অ নির্ণায়ক। ইশারা যে জন্য @CafeFeed ধন্যবাদ foldব্যবহারসমূহ runJob, যা কোড মাধ্যমে পড়ার পর আমি বুঝতে পারি যে এটি নন-নির্ণায়ক নয়। আরও বিভ্রান্তি স্পার্ক একটি treeReduceকিন্তু না থাকার দ্বারা তৈরি করা হয় treeFold

উপসংহার

সেখানে মধ্যে একটি পার্থক্য আছে reduceএবং foldএমনকি যখন খালি নয় এমন সিকোয়েন্স প্রয়োগ করা হয়েছিল। পূর্ববর্তীটিকে নির্বিচারে আদেশের ( http://theory.stanford.edu/~sergei/papers/soda10-mrc.pdf ) সংগ্রহের উপর মানচিত্রের প্রোগ্রামিং দৃষ্টান্তের অংশ হিসাবে সংজ্ঞায়িত করা হয়েছে এবং অপারেটররা সত্ত্বেও বহিরাগত হয়ে উঠছেন বলে ধরে নেওয়া উচিত সংযোজনীয় ফলাফল দিতে সংঘবদ্ধ। পরেরটি ক্যাটোমর্ফিজমের পরিভাষায় সংজ্ঞায়িত হয় এবং প্রয়োজন হয় যে সংগ্রহগুলি ক্রমের একটি ধারণা থাকতে পারে (বা সংযুক্ত তালিকার মতো পুনরাবৃত্তভাবে সংজ্ঞায়িত করা হয়), সুতরাং চলমান অপারেটরগুলির প্রয়োজন হয় না।

বাস্তবে প্রোগ্রামিংয়ের তুলনাহীন প্রকৃতির কারণে reduceএবং foldএকইভাবে আচরণ করার ঝোঁক হয়, হয় সঠিকভাবে (স্কালার মতো) বা ভুলভাবে (স্পার্কের মতো)।

অতিরিক্ত: স্পার্ক এপিআইতে আমার মতামত

আমার মতামতটি হল foldস্পার্কে শব্দটি সম্পূর্ণরূপে বাদ দেওয়া হলে বিভ্রান্তি এড়ানো হবে । কমপক্ষে স্পার্কের নথিতে একটি নোট রয়েছে:

এটি স্কালার মতো কার্যকরী ভাষায় বিতরণবিহীন সংগ্রহের জন্য প্রয়োগ করা ভাঁজ অপারেশন থেকে কিছুটা আলাদা আচরণ করে।


4
এটা কেন হয় foldLeftরয়েছে Leftতার নামে এবং কেন সেখানে একটি পদ্ধতি বলা হয় fold
কিরিতসুকু

4
@ ক্লাউডটেক এটি একক থ্রেডড বাস্তবায়নের একটি কাকতালীয় ঘটনা নয়, এর নির্দিষ্টকরণের মধ্যে নয়। আমার 4-কোর মেশিনে, যদি আমি যুক্ত করার চেষ্টা করি .par, তাই (List(1000000.0) ::: List.tabulate(100)(_ + 0.001)).par.reduce(_ / _)প্রতিবারই আমি বিভিন্ন ফলাফল পাই।
সামতিবেস্ট

4
কম্পিউটার বিজ্ঞানের প্রসঙ্গে @ অ্যালেক্সডিয়ান, এটির সত্যিকারের কোনও পরিচয়ের প্রয়োজন নেই কারণ খালি সংগ্রহগুলি কেবল ব্যতিক্রম ছোঁড়ে। তবে এটি গাণিতিকভাবে আরও মার্জিত (যদি সংগ্রহগুলি এটি করত তবে এটি আরও মার্জিত হবে) যদি সংগ্রহটি খালি থাকে তখন পরিচয় উপাদানটি ফিরে আসে। গণিতে "থ্রো ব্যতিক্রম" বিদ্যমান নেই।
সামতিবেস্ট

4
@ সাম্তেবেস্ট: আপনি কি পরিবহনের বিষয়ে নিশ্চিত? github.com/apache/spark/blob/… বলছেন "যে ক্রিয়াকলাপগুলি পরিবর্তনীয় নয়, ফলাফলগুলি কোনও বিতরণকৃত সংগ্রহের ক্ষেত্রে প্রয়োগ করা ভাঁজ থেকে পৃথক হতে পারে" "
Make42

4
@ মেক That's২ এটি সঠিক, যে কেউ তাদের নিজস্ব পিম্প লিখতে পারে reallyFoldযদিও: যেমন rdd.mapPartitions(it => Iterator(it.fold(zero)(f)))).collect().fold(zero)(f), যাতায়াত করতে এফের দরকার হবে না।
সামিটবেস্ট

10

আমি যদি ভুল না হয়ে থাকি, যদিও স্ফুলিপি এপিআই এর প্রয়োজন হয় না, তবে ভাঁজটির জন্য এফটি পরিবহনযোগ্য হওয়া আবশ্যক। কারণ যে ক্রমে পার্টিশনগুলি একত্রিত করা হবে তা নিশ্চিত নয়। উদাহরণস্বরূপ, নিম্নলিখিত কোডে কেবল প্রথম প্রিন্ট আউট বাছাই করা হয়:

import org.apache.spark.{SparkConf, SparkContext}

object FoldExample extends App{

  val conf = new SparkConf()
    .setMaster("local[*]")
    .setAppName("Simple Application")
  implicit val sc = new SparkContext(conf)

  val range = ('a' to 'z').map(_.toString)
  val rdd = sc.parallelize(range)

  println(range.reduce(_ + _))
  println(rdd.reduce(_ + _))
  println(rdd.fold("")(_ + _))
}  

প্রিন্ট আউট:

abcdefghijklmnopqrstuvwxyz

abcghituvjklmwxyzqrsdefnop

Defghinopjklmqrstuvabcwxyz


পিছনে পিছনে কিছু পরে, আমরা বিশ্বাস করি আপনি সঠিক আছেন। সম্মিলনের ক্রম প্রথমে প্রথমে পরিবেশন করা হয়। আপনি যদি sc.makeRDD(0 to 9, 2).mapPartitions(it => { java.lang.Thread.sleep(new java.util.Random().nextInt(1000)); it } ).map(_.toString).fold("")(_ + _)বেশ কয়েকবার 2+ কোরের সাথে চালনা করেন তবে আমার মনে হয় আপনি এটি দেখতে পারবেন এলোমেলো (পার্টিশন-ভিত্তিক) ক্রম। আমি আমার উত্তর অনুসারে আপডেট করেছি।
সামতেবেস্ট

3

foldঅ্যাপাচি স্পার্কে foldবিতরণ না করা সংগ্রহের মতো নয়। প্রকৃতপক্ষে ডিটারমিনিটিক ফলাফল আনতে এটির জন্য চলমান কার্য প্রয়োজন :

এটি স্কালার মতো কার্যকরী ভাষায় বিতরণবিহীন সংগ্রহের জন্য প্রয়োগ করা ভাঁজ অপারেশন থেকে কিছুটা আলাদা আচরণ করে। এই ভাঁজ অপারেশনটি পৃথক পৃথকভাবে পার্টিশনের ক্ষেত্রে প্রয়োগ করা যেতে পারে এবং তারপরে কোনও ফলাফলকে কিছু সংজ্ঞায়িত ক্রমে ক্রমান্বয়ে প্রতিটি উপাদানটিতে ভাঁজটি প্রয়োগ না করে চূড়ান্ত ফলাফলের মধ্যে ফলাফলগুলি ফোল্ড করে। যে ক্রিয়াকলাপগুলি পরিবহণযোগ্য নয়, তাদের জন্য ফলাফল একটি বিতরণকৃত সংগ্রহের জন্য প্রয়োগ করা ভাঁজ থেকে পৃথক হতে পারে।

এই দেখানো হয়েছে দ্বারা মীশায়েল Rosenthal এবং দ্বারা প্রস্তাবিত Make42 মধ্যে তার মন্তব্য

এটি প্রস্তাবিত হয়েছে যে পর্যবেক্ষণ করা আচরণ সম্পর্কিত হয় HashPartitionerযখন বাস্তবে পরিবর্তন parallelizeহয় না এবং ব্যবহার হয় না HashPartitioner

import org.apache.spark.sql.SparkSession

/* Note: standalone (non-local) mode */
val master = "spark://...:7077"  

val spark = SparkSession.builder.master(master).getOrCreate()

/* Note: deterministic order */
val rdd = sc.parallelize(Seq("a", "b", "c", "d"), 4).sortBy(identity[String])
require(rdd.collect.sliding(2).forall { case Array(x, y) => x < y })

/* Note: all posible permutations */
require(Seq.fill(1000)(rdd.fold("")(_ + _)).toSet.size == 24)

ব্যাখ্যা:

foldআরডিডির কাঠামো

def fold(zeroValue: T)(op: (T, T) => T): T = withScope {
  var jobResult: T
  val cleanOp: (T, T) => T
  val foldPartition = Iterator[T] => T
  val mergeResult: (Int, T) => Unit
  sc.runJob(this, foldPartition, mergeResult)
  jobResult
}

আরডিডির কাঠামোরreduce মতোই :

def reduce(f: (T, T) => T): T = withScope {
  val cleanF: (T, T) => T
  val reducePartition: Iterator[T] => Option[T]
  var jobResult: Option[T]
  val mergeResult =  (Int, Option[T]) => Unit
  sc.runJob(this, reducePartition, mergeResult)
  jobResult.getOrElse(throw new UnsupportedOperationException("empty collection"))
}

যেখানে runJobপার্টিশন ক্রমকে অগ্রাহ্য করার সাথে সঞ্চালিত হয় এবং ফলাফলের পরিবর্তিত ক্রিয়াকলাপ প্রয়োজন।

foldPartitionএবং reducePartitionপ্রক্রিয়াকরণ আদেশের শর্ত এবং কার্যকরভাবে (উত্তরাধিকার এবং প্রতিনিধিদলের দ্বারা) দ্বারা বাস্তবায়িত মধ্যে হয় সমতুল্য reduceLeftএবং foldLeftউপর TraversableOnce

উপসংহার: foldআরডিডি-তে খণ্ডের ক্রমের উপর নির্ভর করতে পারে না এবং প্রয়োজন যোগাযোগ এবং সাহচর্য


আমাকে স্বীকার করতে হবে যে ব্যুৎপত্তি বিভ্রান্তিকর এবং প্রোগ্রামিং সাহিত্যের আনুষ্ঠানিক সংজ্ঞা নেই in আমি মনে করি এটি নিরাপদ বলে যে foldএটি RDDসত্যই সত্যই ঠিক তেমন একই reduceতবে এটি মূল গাণিতিক পার্থক্যের প্রতি সম্মান দেয় না (আমি আরও উত্তর পরিষ্কার করার জন্য আমার উত্তর আপডেট করেছি)। যদিও আমি একমত নই যে আমাদের সত্যিকারের চলাচলের প্রয়োজন, যদি তাদের পার্টিশনার যা-কিছু করুক না কেন সে বিষয়ে আত্মবিশ্বাসী, তবে এটি অর্ডার সংরক্ষণ করছে।
সামিটবেস্ট

ভাঁজের অপরিজ্ঞাত অর্ডার পার্টিশন সম্পর্কিত নয়। এটি রানজব বাস্তবায়নের প্রত্যক্ষ পরিণতি।

আঃ! দুঃখিত, আপনার বক্তব্যটি আমি কী কাজ করতে পারিনি, তবে runJobকোডটি পড়ে আমি দেখতে পেলাম যে কোনও কাজ শেষ হওয়ার পরে এটি অবশ্যই সংমিশ্রণটি করে, পার্টিশনের ক্রম নয়। এটি এই মূল বিবরণ যা সমস্ত কিছু জায়গায় পড়ে। আমি আমার উত্তরটি আবার সম্পাদনা করেছি এবং এভাবে আপনি যে ভুলটি উল্লেখ করেছেন তা সংশোধন করেছি । আমরা যেহেতু এখন চুক্তিতে রয়েছি আপনি দয়া করে আপনার অনুগ্রহটি সরিয়ে ফেলতে পারেন?
সামতিবেস্ট

আমি সম্পাদনা করতে বা অপসারণ করতে পারি না - এমন কোনও বিকল্প নেই। আমি পুরষ্কার দিতে পারি তবে আমার মনে হয় আপনি একাকী মনোযোগ থেকে বেশ কয়েকটি পয়েন্ট পেয়েছেন, আমি কি ভুল করছি? আপনি যদি নিশ্চিত হন যে আপনি আমাকে পুরষ্কার চান তবে আমি এটি পরবর্তী 24 ঘন্টার মধ্যে করব। সংশোধন করার জন্য ধন্যবাদ এবং একটি পদ্ধতির জন্য দুঃখিত তবে দেখে মনে হচ্ছে আপনি সমস্ত সতর্কতা উপেক্ষা করেছেন, এটি একটি বড় বিষয়, এবং উত্তরটি পুরো জায়গাতেই উদ্ধৃত করা হয়েছে।

4
আপনি কীভাবে @ মিশেল রোজেন্থালকে এটি প্রদান করবেন যেহেতু তিনিই প্রথম উদ্বেগের বিষয়টি স্পষ্টভাবে জানিয়েছেন। পয়েন্টগুলিতে আমার কোনও আগ্রহ নেই, আমি এসইও এবং সংস্থার জন্য এসও ব্যবহার করতে পছন্দ করি।
সামতিবেস্ট

2

স্কালডিংয়ের জন্য আর একটি পার্থক্য হাদুপে কম্বিনার ব্যবহার।

আপনার ক্রিয়াকলাপটি পরিবর্তনীয় একঘেয়েমি বলে মনে করুন, হ্রাস সহ এটি হ্রাসকারীদের সাথে সমস্ত ডেটা বাছাই / সাজানোর পরিবর্তে মানচিত্রের পাশে প্রয়োগ করা হবে। সঙ্গে foldLeft এই ঘটনা না।

pipe.groupBy('product) {
   _.reduce('price -> 'total){ (sum: Double, price: Double) => sum + price }
   // reduce is .mapReduceMap in disguise
}

pipe.groupBy('product) {
   _.foldLeft('price -> 'total)(0.0){ (sum: Double, price: Double) => sum + price }
}

আপনার ক্রিয়াকলাপকে স্কালডিং-এ monoid হিসাবে সংজ্ঞায়িত করা সর্বদা ভাল অনুশীলন।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.