আপনি যথাযথভাবে লক্ষ করুন যে, এই দিনগুলিতে "বিগ ডেটা" এমন কিছু যা প্রত্যেকে বলতে চেয়েছিল যে তারা পেয়েছে, যা লোকেরা কীভাবে এই শব্দটিকে সংজ্ঞায়িত করে তাতে একটি looseিলা হয়। সাধারণত, যদিও আমি বলব যে আপনি অবশ্যই বড় ডেটা নিয়ে কাজ করছেন যদি স্কেলটি এমন হয় যে আরডিবিএমএসের মতো আরও traditionalতিহ্যবাহী প্রযুক্তিগুলি যেমন হাদুপের মতো বড় ডেটা প্রযুক্তির সাথে পরিপূরক না করে পরিচালনা করা আর সম্ভব হয় না।
আপনার ডেটা আসলে তার জন্য কে কত বড় হতে পারে তা বিতর্কযোগ্য। এখানে একটি (কিছুটা উস্কানিমূলক) ব্লগ পোস্ট দাবি করেছে যে দাবি করেছে যে এটি 5 টিবি-র কম ডেটার জন্য সত্যিকারের ক্ষেত্রে নয়। (স্পষ্টরূপে, এটি "5 টিবি এর চেয়ে কম ডেটা নয় বলে দাবি করে না", তবে কেবল "5 টিবি এর চেয়ে কম এটি আপনার পক্ষে হ্যাডোপের প্রয়োজনের পরিমাণের চেয়ে বড় নয়"))
তবে এমনকি ছোট ডেটাসেটগুলিতে, হ্যাডোপের মতো বড় ডেটা প্রযুক্তিগুলির ব্যাচ অপারেশনের পক্ষে ভালভাবে যুক্ত হওয়া, অনির্দিষ্ট কাঠামোগত ডেটার সাথে ভাল খেলানো (সেইসাথে এমন ডেটা যাঁর কাঠামো আগে থেকেই জানা যায়নি বা পরিবর্তিত হতে পারে) সহ আনুভূমিক স্কেলিবিলিটি ( আপনার বিদ্যমান সার্ভারগুলিকে গোমাংস করার পরিবর্তে আরও নোড যুক্ত করে স্কেলিং এবং (উপরের লিঙ্কযুক্ত পোস্ট নোটগুলিতে মন্তব্যকারীদের একজন হিসাবে) বাহ্যিক ডেটা সেটগুলির সাথে আপনার ডেটা প্রসেসিংকে সংহত করার ক্ষমতা (ম্যাপার যেখানে ম্যাপার কথা ভাবেন সেখানে ভাবুন অন্য সার্ভারে কল দেয়)। নোএসকিএল ডেটাবেসগুলির মতো বড় ডেটার সাথে যুক্ত অন্যান্য প্রযুক্তিগুলি বড় পরিসরে ডেটা ব্যবহার করার সময় দ্রুত পারফরম্যান্স এবং ধারাবাহিক প্রাপ্যতার উপর জোর দেয়, পাশাপাশি আধা-অ-কাঠামোগত ডেটা পরিচালনা করতে ও অনুভূমিকভাবে স্কেল করতে সক্ষম হয়।
অবশ্যই, traditionalতিহ্যবাহী আরডিবিএমএসের নিজস্ব সুবিধা রয়েছে এসিডি গ্যারান্টি সহ (পারমাণবিকতা, ধারাবাহিকতা, বিচ্ছিন্নতা, স্থায়িত্ব) এবং নির্দিষ্ট ক্রিয়াকলাপগুলির জন্য আরও ভাল পারফরম্যান্স, পাশাপাশি আরও প্রমিত, আরও পরিপক্ক এবং (অনেক ব্যবহারকারীর জন্য) আরও পরিচিত। এমনকি নির্বিচারে "বড়" ডেটার জন্যও, আপনার ডেটাগুলির একটি অংশকে একটি traditionalতিহ্যগত এসকিউএল ডাটাবেসে লোড করা এবং এটি বড় ডেটা প্রযুক্তির সাথে একত্রে ব্যবহার করা বোধগম্য হতে পারে।
সুতরাং, আরও উদার সংজ্ঞাটি হ'ল আপনার কাছে এত বড় ডেটা রয়েছে যে এটি যথেষ্ট বড় যে ডেটা প্রযুক্তিগুলি আপনার জন্য কিছু যুক্ত মূল্য সরবরাহ করে। তবে আপনি দেখতে পাচ্ছেন, এটি কেবলমাত্র আপনার ডেটার আকারের উপর নির্ভর করে না তবে আপনি কীভাবে এটিতে কাজ করতে চান এবং নমনীয়তা, ধারাবাহিকতা এবং পারফরম্যান্সের ক্ষেত্রে আপনার কী ধরণের প্রয়োজনীয়তা প্রয়োজন তা নির্ভর করে। আপনি কীভাবে আপনার ডেটা ব্যবহার করছেন তা আপনি কী ব্যবহার করছেন (যেমন ডেটা মাইনিং) এর চেয়ে প্রশ্নের সাথে বেশি প্রাসঙ্গিক । এটি বলেছে যে ডেটা মাইনিং এবং মেশিন লার্নিংয়ের মতো ব্যবহারগুলি কার্যকর ফলাফল অর্জনের সম্ভাবনা বেশি যদি আপনার সাথে কাজ করার জন্য যথেষ্ট পরিমাণে ডেটা সেট থাকে।