ম্যাট শেপার্ডের উত্তরটি দুর্দান্ত (মোড আপ), তবে একটি টাকু সম্পর্কে চিন্তা করার সময় আমি এই কারণগুলি বিবেচনা করব:
- কাঠামো: এটি স্পষ্টতই টুকরো টুকরো হয়ে যায় বা আপনি ট্রেড অফ করছেন?
- ব্যবহার: ডেটা কীভাবে বিশ্লেষণ / পুনরুদ্ধার / কুঁচকানো হবে?
- লাইফটাইম: ডেটা কতক্ষণ কাজে লাগে?
- আকার: কত তথ্য আছে?
আরডিবিএমএসের মাধ্যমে সিএসভি ফাইলগুলির একটি বিশেষ সুবিধা হ'ল এগুলি সহজেই ঘনীভূত হতে পারে এবং ব্যবহারিকভাবে অন্য কোনও মেশিনে ঘোরাঘুরি করা যায়। আমরা বড় ডেটা স্থানান্তর করি এবং সবকিছুই যথেষ্ট সহজ আমরা কেবল একটি বড় সিএসভি ফাইল ব্যবহার করি এবং আরএসসিএনসি এর মতো সরঞ্জাম ব্যবহার করে স্ক্রিপ্ট-এ সহজ। বড় সিএসভি ফাইলগুলিতে পুনরাবৃত্তি হ্রাস করতে, আপনি YAML এর মতো কিছু ব্যবহার করতে পারেন । আমি নিশ্চিত নই যে আমি জেএসওএন বা এক্সএমএলের মতো কিছু সঞ্চয় করতাম, যদি না আপনার উল্লেখযোগ্য সম্পর্কের প্রয়োজনীয়তা থাকে।
যতক্ষণ না উল্লিখিত বিকল্পগুলি রয়েছে, হ্যাডোপকে ছাড় দেবেন না , এটি ম্যাপ্রেডুসের একটি উন্মুক্ত উত্স বাস্তবায়ন। আপনার যদি এমন স্বচ্ছভাবে কাঠামোগত ডেটার বিশ্লেষণ করা দরকার এবং আপনি এমন একটি দৃশ্যে থাকতে চান যেখানে ডেটা প্রসেসিং পরিচালনা করতে আপনি আরও 10 টি মেশিন যুক্ত করতে পারেন তবে এটি ভালভাবে কাজ করবে।
উদাহরণস্বরূপ, আমি পারফরম্যান্স বিশ্লেষণের চেষ্টা শুরু করেছিলাম যা প্রায় 20 টি মেশিনে লগইন করা বিভিন্ন ফাংশনের মূলত সমস্ত টাইম সংখ্যা ছিল। আরডিবিএমএস-এ সমস্ত কিছু আটকে রাখার চেষ্টা করার পরে, আমি বুঝতে পেরেছিলাম যে একবার তথ্য সংগ্রহ করার পরে আমার আর তথ্য জিজ্ঞাসা করার দরকার নেই। এবং, এটি আমার কাছে এটি একত্রিত ফর্ম্যাটটিতে কেবল কার্যকর। সুতরাং, আমি লগ ফাইলগুলি চারপাশে, সংকুচিত করে রাখি এবং তারপরে একটি সংযুক্ত ডেটা একটি ডিবিতে রেখে দেই।
দ্রষ্টব্য আমি "বড়" আকারগুলির সাথে আরও চিন্তাভাবনা করতে অভ্যস্ত।