আমি টেরাবাইট-আকারের সিগন্যাল ফাইলগুলিতে একটি এফএফটি এর গণনার সমান্তরাল করার চেষ্টা করছি। এই মুহুর্তে ওপেন-সোর্স লাইব্রেরি ব্যবহার করে এমন এফএফটি অনেক ঘন্টা সময় নেয়, এমনকি আমার কাছে দ্রুততম জিপিইউতে CUDA এর মাধ্যমে চলতে পারে। আমি এই প্রক্রিয়াটির সাথে মানিয়ে নেওয়ার চেষ্টা করছি কাঠামো হ্যাডোপ। খুব বেসিক পদগুলিতে, হ্যাডোপ নিম্নলিখিত পদ্ধতিতে যে কোনও সংখ্যক সার্ভার নোডের উপরে সমস্যা বিতরণ করে:
• আপনি আপনার ইনপুট ফাইলকে (কী, মান) জোড়ায় বিভক্ত করেন।
• এই জোড়াগুলিকে একটি "মানচিত্র" অ্যালগরিদম খাওয়ানো হয়, যা আপনার (কী, মান) জোড়গুলিকে মানচিত্রের ভিতরে রাখার ভিত্তিতে কিছু অন্যান্য (কী, মান) জোড়গুলিতে রূপান্তরিত করে।
Framework ফ্রেমওয়ার্কটি তখন মানচিত্র থেকে সমস্ত (কী, মান) আউটপুট সংগ্রহ করে এবং কী অনুসারে বাছাই করে, পাশাপাশি একই কী দিয়ে একক জোড়ায় মানগুলিকে একত্রিত করে, যাতে আপনি (কী, তালিকা (মান 1, মান 2, ..)) জোড়া
• এই জোড়াগুলিকে পরে "হ্রাস করুন" অ্যালগরিদম খাওয়ানো হয়, ফলস্বরূপ আপনার চূড়ান্ত ফলাফল হিসাবে আরও (কী, মান) জোড়া আউটপুট করে (কোনও ফাইলের কাছে লিখিত)।
প্রসেসিং সার্ভার লগগুলির মতো ব্যবহারিক স্টাফগুলিতে এই মডেলটির জন্য অনেকগুলি অ্যাপ্লিকেশন রয়েছে তবে এফএফটি কে "মানচিত্র" এবং "হ্রাস" কার্যগুলিতে কাটাতে কাঠামোটি প্রয়োগ করতে আমার বেশ কষ্ট হচ্ছে, বিশেষত যেহেতু আমি সত্যিই ডিএসপির সাথে পরিচিত নই।
আমি আপনাকে প্রোগ্রামিং মম্বো জাম্বো নিয়ে বিরক্ত করব না, কারণ এটি একটি ডিএসপি প্রশ্নোত্তর। সমান্তরালে এফএফটি গণনার জন্য আমি কি অ্যালগরিদম বিদ্যমান তা নিয়ে বিভ্রান্ত; মানচিত্র এবং হ্রাস কার্যগুলি একে অপরের সাথে (প্রযুক্তিগতভাবে) কথা বলতে পারে না, সুতরাং এফএফটি অবশ্যই স্বাধীন সমস্যায় বিভক্ত হতে হবে যা থেকে ফলাফলগুলি কোনওভাবে শেষে পুনরায় সমন্বিত হতে পারে।
আমি কুলি-টুকি রেডিক্স 2 ডিআইটি-র একটি সহজ বাস্তবায়ন কর্মসূচী করেছি যা ছোট উদাহরণগুলির সাথে কাজ করে তবে এটি বিলিয়ন বাইটের জন্য বিজোড় / এমনকি সূচক ডিএফটি গণনার জন্য ব্যবহার করা কার্যকর হবে না। আমি ম্যাপ্রেডিউস এফএফটি অ্যালগরিদম (এসএসএ গুণে তার কাগজের অংশ হিসাবে টিএসজ-ওও স্যাসে লেখা, আমি 2 টি হাইপারলিঙ্কের বেশি লিঙ্ক করতে পারি না) এবং "চার ধাপের এফএফটি" সহ অনেকগুলি কাগজপত্র পড়তে কয়েক সপ্তাহ ব্যয় করেছি ( এখানে এবং এখানে)), যা একে অপরের সাথে সাদৃশ্যপূর্ণ এবং আমি কী সম্পাদন করার চেষ্টা করছি। যাইহোক, আমি অঙ্কে আশাহীনভাবে খারাপ, এবং and 1,2, 3, 4, 5, 6, 7, 8} (সমস্ত কল্পিত উপাদান 0 রয়েছে) এর মতো সাধারণ কিছু সেট হাতে হাতে এই পদ্ধতিগুলির প্রয়োগ করে আমার বন্যভাবে ভুল ফলাফল। কেউ কী আমাকে দক্ষ প্যারালাল এফএফটি অ্যালগরিদমকে সরল ইংরেজিতে (যেটিকে আমি সংযুক্ত করেছি বা অন্য কোনওটি) ব্যাখ্যা করতে পারি যাতে আমি চেষ্টা করে প্রোগ্রাম করতে পারি?
সম্পাদনা: জিম ক্লে এবং অন্য যে কেউ আমার ব্যাখ্যা দ্বারা বিভ্রান্ত হতে পারে, আমি তারাবাইট ফাইলের একটি একক এফএফটি করার চেষ্টা করছি। প্রক্রিয়াটি গতি বাড়ানোর জন্য আমি একযোগে একাধিক সার্ভারে এটি করতে সক্ষম হতে চাই।