আমরা নেটফ্লো ডেটা ক্যাপচার এবং বিশ্লেষণের জন্য একটি সরঞ্জাম বিকাশের দিকে লক্ষ্য করছি, যার মধ্যে আমরা প্রচুর পরিমাণে সংগ্রহ করি। প্রতিদিন আমরা প্রায় ~ 1.4 বিলিয়ন প্রবাহের রেকর্ড ক্যাপচার করি যা জসন ফর্ম্যাটে এর মতো দেখায়:
{
"tcp_flags": "0",
"src_as": "54321",
"nexthop": "1.2.3.4",
"unix_secs": "1352234521",
"src_mask": "23",
"tos": "0",
"prot": "6",
"input": "105",
"doctets": "186",
"engine_type": "0",
"exaddr": "2.3.4.5",
"engine_id": "2",
"srcaddr": "9.8.7.6",
"dst_as": "12345",
"unix_nsecs": "752265174",
"sysuptime": "2943529544",
"dst_mask": "24",
"dstport": "80",
"last": "2943523241",
"srcport": "52672",
"dpkts": "4",
"output": "111",
"dstaddr": "6.5.4.3",
"first": "2943517993"
}
আমরা ডেটা সেটটিতে দ্রুত অনুসন্ধান (10 সেকেন্ডেরও কম) করতে সক্ষম হতে চাই, সম্ভবত বেশিরভাগ সময় সংকীর্ণ টুকরো (10 - 30 মিনিটের বিরতি)। আমরা বেশিরভাগ ডেটা পয়েন্টকে সূচিও দিতে চাই যাতে আমরা সেগুলির প্রত্যেকটিতে দ্রুত অনুসন্ধান করতে পারি। অনুসন্ধানগুলি কার্যকর করা হলে আমরা ডেটাতে আপ টু ডেট ভিউ রাখতে চাই। ওপেন সোর্স ওয়ার্ল্ডে থাকতে পারলে দুর্দান্ত লাগবে, তবে আমরা এই প্রকল্পের মালিকানাধীন সমাধানগুলি দেখার বিরোধী নই।
ধারণাটি হ'ল প্রায় এক মাসের ডেটা রাখা, যা হবে ~ 43.2 বিলিয়ন রেকর্ড। মোটামুটি অনুমান যে প্রতিটি রেকর্ডটিতে প্রায় 480 বাইট ডেটা থাকবে, এক মাসের মধ্যে 18.7 ডলার টেরাবাইট ডেটা হবে এবং সূচকের সাথে সম্ভবত তিনগুণ হবে। অবশেষে আমরা ট্রিলিয়ন রেকর্ড সংরক্ষণের জন্য এই সিস্টেমের সক্ষমতা বাড়িয়ে তুলতে চাই।
এই প্রকল্পের সম্ভাব্য প্রার্থী হিসাবে আমরা এখন পর্যন্ত কোচবেস, ক্যাসান্দ্রা এবং মংডবকে মূল্যায়ন করেছি, তবে প্রত্যেকে তাদের নিজস্ব চ্যালেঞ্জের প্রস্তাব দিয়েছে। কাউচবেস দিয়ে সূচি অন্তর অন্তর করা হয় এবং ডেটা সন্নিবেশের সময় হয় না যাতে দেখা যায় না তারিখগুলি না হয়, ক্যাসান্দ্রার মাধ্যমিক সূচকগুলি ফলাফল ফেরত দেওয়ার ক্ষেত্রে খুব কার্যকরী হয় না কারণ তাদের ফলাফলের জন্য সাধারণত পুরো ক্লাস্টারটি স্ক্যান করা প্রয়োজন, এবং মংডাবটি আশাবাদী দেখায় তবে এটি মাস্টার / স্লেভ / শার্পড হওয়ায় স্কেল করা অনেক বেশি কঠিন বলে মনে হচ্ছে। আমরা মূল্যায়ন করার পরিকল্পনা করি এমন আরও কিছু প্রার্থী হলেন ইলাস্টিক সার্চ, মাইএসকিএল (এটি এমনকি প্রযোজ্য কিনা তা নিশ্চিত নয়) এবং কয়েকটি কলাম ওরিয়েন্টেড রিলেশনাল ডাটাবেস। কোনও পরামর্শ বা বাস্তব বিশ্বের অভিজ্ঞতা প্রশংসা করা হবে।