দাবি অস্বীকার: আমি অ্যাপাচি ফ্লিংক প্রতিশ্রুতিবদ্ধ এবং পিএমসির সদস্য এবং কেবল স্টর্মের উচ্চ-স্তরের ডিজাইনের সাথে পরিচিত, এর অভ্যন্তরীণ নয়।
অ্যাপাচি ফ্লিংক ইউনিফাইড স্ট্রিম এবং ব্যাচ প্রসেসিংয়ের জন্য একটি কাঠামো। সমান্তরাল কার্যগুলির মধ্যে পাইপলাইনযুক্ত ডেটা স্থানান্তরের কারণে ফ্লাইকের রানটাইম নেটিভালি উভয় ডোমেনকে সমর্থন করে যার মধ্যে পাইপলাইনযুক্ত শাফলগুলি অন্তর্ভুক্ত রয়েছে। রেকর্ডগুলি তত্ক্ষণাত্ উত্পাদনগুলি থেকে কার্যগুলি গ্রহণের ক্ষেত্রে সরবরাহ করা হয় (নেটওয়ার্ক ট্রান্সফারের জন্য বাফারে সংগ্রহের পরে)। ব্লকিং ডেটা স্থানান্তর ব্যবহার করে ব্যাচের কাজগুলি কার্যকরভাবে কার্যকর করা যেতে পারে।
অ্যাপাচি স্পার্ক একটি ফ্রেমওয়ার্ক যা ব্যাচ এবং স্ট্রিম প্রসেসিংয়ে সহায়তা করে। ফ্লিংকের ব্যাচের এপিআই দেখতে বেশ সাদৃশ্যপূর্ণ এবং অনুরূপ ব্যবহারের কেস স্পার্ক হিসাবে সম্বোধন করে তবে অভ্যন্তরীণ অঞ্চলে পৃথক। স্ট্রিমিংয়ের জন্য, উভয় সিস্টেমই খুব আলাদা পদ্ধতির অনুসরণ করে (মিনি ব্যাচ বনাম স্ট্রিমিং) যা তাদের বিভিন্ন ধরণের অ্যাপ্লিকেশনের জন্য উপযুক্ত করে তোলে। আমি বলব স্পার্ক এবং ফ্লিঙ্কের তুলনা বৈধ এবং কার্যকর, তবে স্পার্ক ফ্লিংকের কাছে সর্বাধিক অনুরূপ স্ট্রিম প্রসেসিং ইঞ্জিন নয়।
আসল প্রশ্নে আসা, অ্যাপাচি স্টর্ম ব্যাচ ক্ষমতা ছাড়াই ডেটা স্ট্রিম প্রসেসর। প্রকৃতপক্ষে, ফ্লিংকের পাইপলাইনযুক্ত ইঞ্জিনটি অভ্যন্তরীণভাবে ঝড়ের সাথে কিছুটা মিল দেখায়, অর্থাত্, ফ্লিংকের সমান্তরাল কার্যগুলির ইন্টারফেসগুলি স্টর্মের বোল্টের মতো। ঝড় এবং ফ্লিংকের মিল রয়েছে যে তারা পাইপলাইনযুক্ত ডেটা স্থানান্তর দ্বারা স্বল্প প্রসারণের প্রবাহ প্রক্রিয়াজাতকরণের লক্ষ্যে রয়েছে। তবে ঝড়ের তুলনায় ফ্লিঙ্ক আরও উচ্চ-স্তরের এপিআই সরবরাহ করে। এক বা একাধিক পাঠক এবং সংগ্রহকারীদের সাথে बोल্টগুলির কার্যকারিতা বাস্তবায়নের পরিবর্তে, ফ্লিংকের ডেটাস্ট্রিম এপিআই মানচিত্র, গ্রুপবি, উইন্ডো এবং যোগদানের মতো ফাংশন সরবরাহ করে। ঝড় ব্যবহার করার সময় এই কার্যকারিতাটির অনেক কিছুই ম্যানুয়ালি প্রয়োগ করতে হবে। আর একটি পার্থক্য হচ্ছে শব্দার্থক প্রক্রিয়াজাতকরণ। ঝড় কমপক্ষে একবারে প্রক্রিয়াজাতকরণের গ্যারান্টি দেয় তবে ফ্লিঙ্ক ঠিক একবারে সরবরাহ করে। এই প্রক্রিয়াজাতকরণের গ্যারান্টি দেয় এমন বাস্তবায়নগুলি কিছুটা পৃথক হয়। ঝড়টি রেকর্ড-স্তরের স্বীকৃতিগুলি ব্যবহার করার সময়, ফ্লিংক চ্যান্ডি-ল্যাম্পোর্ট অ্যালগরিদমের বিভিন্ন রূপ ব্যবহার করে। সংক্ষেপে, ডেটা উত্সগুলি পর্যায়ক্রমে ডেটা প্রবাহে চিহ্নিতকারীগুলিকে ইনজেকশন দেয়। যখনই কোনও অপারেটর এই জাতীয় মার্কার পান, তখন এটি তার অভ্যন্তরীণ অবস্থার উপর নজর রাখে। যখন কোনও মার্কার সমস্ত ডেটা ডুবে থাকে, তখন চিহ্নিতকারী (এবং এর আগে প্রক্রিয়া করা সমস্ত রেকর্ড) প্রতিশ্রুতিবদ্ধ হয়। ব্যর্থতার ক্ষেত্রে, সমস্ত প্রতিশ্রুতিবদ্ধ অপারেটররা যখন শেষ প্রতিশ্রুতিবদ্ধ চিহ্নিতকারী দেখেছিল এবং প্রসেসিং চালিয়ে যায় তখন তাদের রাজ্যে পুনরায় সেট করা হয়। এই মার্কার-চেকপয়েন্টের পদ্ধতিটি ঝড়ের রেকর্ড-স্তরের স্বীকৃতিগুলির চেয়ে বেশি হালকা। এই ডেটা উত্সগুলি পর্যায়ক্রমে ডেটা প্রবাহে চিহ্নিতকারীগুলিকে ইনজেক্ট করে। যখনই কোনও অপারেটর এই জাতীয় মার্কার পান, তখন এটি তার অভ্যন্তরীণ অবস্থার উপর নজর রাখে। যখন কোনও মার্কার সমস্ত ডেটা ডুবে থাকে, তখন চিহ্নিতকারী (এবং এর আগে প্রক্রিয়া করা সমস্ত রেকর্ড) প্রতিশ্রুতিবদ্ধ হয়। ব্যর্থতার ক্ষেত্রে, সমস্ত প্রতিশ্রুতিবদ্ধ অপারেটররা যখন শেষ প্রতিশ্রুতিবদ্ধ চিহ্নিতকারী দেখেছিল এবং প্রসেসিং চালিয়ে যায় তখন তাদের রাজ্যে পুনরায় সেট করা হয়। এই মার্কার-চেকপয়েন্টের পদ্ধতিটি ঝড়ের রেকর্ড-স্তরের স্বীকৃতিগুলির চেয়ে বেশি হালকা। এই ডেটা উত্সগুলি পর্যায়ক্রমে ডেটা প্রবাহে চিহ্নিতকারীগুলিকে ইনজেক্ট করে। যখনই কোনও অপারেটর এই জাতীয় মার্কার পান, এটি তার অভ্যন্তরীণ অবস্থাকে চেকপয়েন্ট করে। যখন কোনও মার্কার সমস্ত ডেটা ডুবে থাকে, তখন চিহ্নিতকারী (এবং এর আগে প্রক্রিয়া করা সমস্ত রেকর্ড) প্রতিশ্রুতিবদ্ধ হয়। ব্যর্থতার ক্ষেত্রে, সমস্ত প্রতিশ্রুতিবদ্ধ অপারেটররা যখন শেষ প্রতিশ্রুতিবদ্ধ চিহ্নিতকারী দেখেছিল এবং প্রসেসিং চালিয়ে যায় তখন তাদের রাজ্যে পুনরায় সেট করা হয়। এই মার্কার-চেকপয়েন্টের পদ্ধতিটি ঝড়ের রেকর্ড-স্তরের স্বীকৃতিগুলির চেয়ে বেশি হালকা। এই সমস্ত উত্স অপারেটররা তাদের প্রতিস্থাপিত হয়েছে যখন তারা শেষ প্রতিশ্রুতিবদ্ধ চিহ্নিতকারী দেখেছিল এবং প্রক্রিয়াজাতকরণ অব্যাহত থাকে। এই মার্কার-চেকপয়েন্টের পদ্ধতিটি ঝড়ের রেকর্ড-স্তরের স্বীকৃতিগুলির চেয়ে বেশি হালকা। এই সমস্ত উত্স অপারেটররা তাদের প্রতিস্থাপিত হয়েছে যখন তারা শেষ প্রতিশ্রুতিবদ্ধ চিহ্নিতকারী দেখেছিল এবং প্রক্রিয়াজাতকরণ অব্যাহত থাকে। এই মার্কার-চেকপয়েন্টের পদ্ধতিটি ঝড়ের রেকর্ড-স্তরের স্বীকৃতিগুলির চেয়ে বেশি হালকা। এইস্লাইড সেট এবং সংশ্লিষ্ট আলাপ দোষ সহনশীলতা, checkpointing, এবং রাষ্ট্র হ্যান্ডলিং সহ Flink এর স্ট্রিমিং প্রক্রিয়াকরণ পদ্ধতির আলোচনা।
ঝড়ও ঠিক একবারে, ট্রাইডেন্ট নামে উচ্চ স্তরের এপিআই সরবরাহ করে। যাইহোক, ত্রিশূল মিনি-ব্যাচগুলির উপর ভিত্তি করে এবং তাই ফ্লিঙ্কের চেয়ে স্পার্কের সাথে আরও বেশি মিল similar
ফ্লিঙ্কের সামঞ্জস্যযোগ্য বিলম্বিতা ফ্লিনকে একটি কাজ থেকে অন্য কাজে রেকর্ডগুলি যেভাবে প্রেরণ করে তা বোঝায়। আমি আগেই বলেছিলাম যে ফ্লিঙ্কগুলি পাইপলাইনযুক্ত ডেটা স্থানান্তর ব্যবহার করে এবং রেকর্ডগুলি তৈরি হওয়ার সাথে সাথে ফরোয়ার্ড করে। দক্ষতার জন্য, এই রেকর্ডগুলি একটি বাফারে সংগ্রহ করা হয় যা একবার পূর্ণ হয়ে গেলে বা নির্দিষ্ট সময়সীমাটি পূরণ হওয়ার পরে নেটওয়ার্কে প্রেরণ করা হয়। এই প্রান্তিক রেকর্ডের বিলম্বিকে নিয়ন্ত্রণ করে কারণ এটি পরবর্তী কার্যে না পাঠিয়ে সর্বাধিক পরিমাণ নির্দিষ্ট করে যে কোনও রেকর্ড বাফারে থাকবে। যাইহোক, এটি কোনও প্রোগ্রামে প্রবেশের সময় থেকে রেকর্ড নিতে যে সময় লাগে তার সম্পর্কে কঠোর গ্যারান্টি দিতে ব্যবহার করা যায় না কারণ এটি কার্যক্রমে প্রসেসিংয়ের সময় এবং অন্যান্য জিনিসের মধ্যে নেটওয়ার্ক ট্রান্সফারের সংখ্যার উপরও নির্ভর করে।