বড় ডেটা কত বড়?


86

প্রচুর লোকেরা বিগ ডেটা শব্দটি বরং বাণিজ্যিক উপায়ে ব্যবহার করে, এটি বোঝানোর উপায় হিসাবে যে বড় ডেটাসেটগুলি গণিতে জড়িত, এবং সুতরাং সম্ভাব্য সমাধানগুলির অবশ্যই ভাল পারফরম্যান্স থাকতে হবে। অবশ্যই, বড় ডেটা সর্বদা স্কেলাবিলিটি এবং দক্ষতার সাথে সম্পর্কিত পদগুলি বহন করে, তবে কোন সমস্যাটিকে একটি বড় ডেটা সমস্যা হিসাবে ঠিক সংজ্ঞায়িত করে ?

এই ডেটা মাইনিং / তথ্য পুনরুদ্ধারের মতো নির্দিষ্ট উদ্দেশ্যে কিছু গণনার সাথে সম্পর্কিত হতে হবে, বা ডেটাসেট যথেষ্ট বড় হলে সাধারণ গ্রাফ সমস্যার জন্য একটি অ্যালগরিদমকে বড় ডেটা লেবেল করা যেতে পারে ? এছাড়াও, কিভাবে বড় হয় যথেষ্ট বড় (যদি এই সংজ্ঞায়িত করা সম্ভব)?


7
যখন আপনার ডেটা স্বাভাবিক ব্যবহার chrisstucchio.com/blog/2013/hadoop_hatred.html করার জন্য অত্যন্ত বড় হতে শুরু সম্পর্কে একটি চমৎকার নিবন্ধ
Johnny000

18
"এক্সেলের মধ্যে লোড করা খুব বড় যে কোনও কিছু" হ'ল চলমান রসিকতা।
স্পেসডম্যান

1
এটি কেবলমাত্র একটি বাজওয়ার্ড হিসাবে ফেলে দেওয়া হচ্ছে কিনা তার উপর নির্ভর করে।
জন রবার্টসন

এটি অবিকল 1 জিবি। এটি রুল বইয়ের কাট অফ। অস্পষ্টতার কোন জায়গা নেই।
হ্যাক-আর

এটি একটি চমৎকার প্রশ্ন। উত্তরের বিভিন্ন বর্ণিত হিসাবে, সংজ্ঞাটি হ'ল ... অপরিবর্তিত
মানু এইচ

উত্তর:


86

আমার কাছে (একটি সম্পর্কিত সম্পর্কিত ডাটাবেস পটভূমি থেকে আসা), "বিগ ডেটা" মূলত ডেটা আকার সম্পর্কে নয় (যা অন্য উত্তরগুলি এখন পর্যন্ত কী পরিমাণে রয়েছে তার চেয়ে বড় অংশ)।

"বিগ ডেটা" এবং "খারাপ ডেটা" ঘনিষ্ঠভাবে সম্পর্কিত। রিলেশনাল ডেটাবেসগুলির জন্য 'প্রাথমিক তথ্য' প্রয়োজন। যদি ডেটাবেজে ডেটা থাকে তবে তা নির্ভুল, পরিষ্কার এবং 100% নির্ভরযোগ্য। রিলেশনাল ডেটাবেসগুলিতে "গ্রেট ডেটা" দরকার হয় এবং ডেটাবেজে লোড করার আগে ডেটা ভালভাবে প্রস্তুত করা হয় তা নিশ্চিত করার জন্য প্রচুর সময়, অর্থ এবং জবাবদিহিতা রাখা হয়। যদি ডেটাবেসে ডেটা থাকে, তবে এটি 'গসপেল' এবং এটি সিস্টেমের বাস্তবতা বোঝার জন্য সংজ্ঞা দেয়।

"বিগ ডেটা" অন্য দিক থেকে এই সমস্যার সমাধান করে। ডেটা দুর্বলভাবে সংজ্ঞায়িত করা হয়েছে, এর বেশিরভাগটিই ভুল হতে পারে এবং এর বেশিরভাগ অংশটি অনুপস্থিত থাকতে পারে। সম্পর্কের বিপরীতে তথ্যের কাঠামো এবং বিন্যাস লিনিয়ার।

বিগ ডেটাতে পর্যাপ্ত পরিমাণে ভলিউম থাকতে হবে যাতে খারাপ ডেটা, বা অনুপস্থিত ডেটার পরিমাণ পরিসংখ্যানগতভাবে তুচ্ছ হয়ে যায়। যখন আপনার ডেটাতে ত্রুটিগুলি একে অপরকে বাতিল করার জন্য যথেষ্ট সাধারণ, যখন অনুপস্থিত ডেটা তুলনামূলকভাবে নগণ্য হওয়ার জন্য যথেষ্ট ছোট এবং যখন আপনার ডেটা অ্যাক্সেসের প্রয়োজনীয়তা এবং অ্যালগরিদমগুলি অসম্পূর্ণ এবং ভুল তথ্য থাকা সত্ত্বেও কার্যকরী হয় তখন আপনার "বিগ ডেটা" থাকে ।

"বিগ ডেটা" আসলে ভলিউম সম্পর্কে নয়, এটি ডেটার বৈশিষ্ট্যগুলি নিয়ে।


6
+1 আমি বড় ডেটা যে আকার কী তা সম্পর্কে নয় , এবং বিষয়বস্তুটি কী (বৈশিষ্ট্যগুলি) সেগুলি সম্পর্কে যা তা সম্পর্কে চাপ দেওয়া সম্পর্কে প্রশংসা করি ।
রুবেন্স

4
এটি একটি খুব সতেজ দৃষ্টিভঙ্গি। আমি এর আগে কখনও শুনিনি, তবে এটি খুব সত্য। এটি পরামর্শ দেয় যে এসকিউএল এবং নোএসকিউএল প্রযুক্তিগুলি প্রতিযোগিতামূলক নয়, তবে পরিপূরক।
জে গডসে

7
আপনি স্ট্রাকচার্ড ডেটা নিয়ে কথা বলছেন, বড় ডেটা নয়। কাঠামোগত ডেটা সাধারণত নোএসকিউএল সমাধান এবং প্রয়োগে বড় ডেটা নিয়ে যায় তবে তারা এখনও আলাদা।
TheGrimmScientist

আমি মনে করি এটি একটি বড় ব্যবসায়িক দৃষ্টিভঙ্গি কী বড় ডেটা তবে নির্দিষ্ট প্রশ্নের উত্তর দেয় না যা যথেষ্ট নির্দেশিত "বড় ডেটা কত বড়?"
wabbit

33

আপনি যথাযথভাবে লক্ষ করুন যে, এই দিনগুলিতে "বিগ ডেটা" এমন কিছু যা প্রত্যেকে বলতে চেয়েছিল যে তারা পেয়েছে, যা লোকেরা কীভাবে এই শব্দটিকে সংজ্ঞায়িত করে তাতে একটি looseিলা হয়। সাধারণত, যদিও আমি বলব যে আপনি অবশ্যই বড় ডেটা নিয়ে কাজ করছেন যদি স্কেলটি এমন হয় যে আরডিবিএমএসের মতো আরও traditionalতিহ্যবাহী প্রযুক্তিগুলি যেমন হাদুপের মতো বড় ডেটা প্রযুক্তির সাথে পরিপূরক না করে পরিচালনা করা আর সম্ভব হয় না।

আপনার ডেটা আসলে তার জন্য কে কত বড় হতে পারে তা বিতর্কযোগ্য। এখানে একটি (কিছুটা উস্কানিমূলক) ব্লগ পোস্ট দাবি করেছে যে দাবি করেছে যে এটি 5 টিবি-র কম ডেটার জন্য সত্যিকারের ক্ষেত্রে নয়। (স্পষ্টরূপে, এটি "5 টিবি এর চেয়ে কম ডেটা নয় বলে দাবি করে না", তবে কেবল "5 টিবি এর চেয়ে কম এটি আপনার পক্ষে হ্যাডোপের প্রয়োজনের পরিমাণের চেয়ে বড় নয়"))

তবে এমনকি ছোট ডেটাসেটগুলিতে, হ্যাডোপের মতো বড় ডেটা প্রযুক্তিগুলির ব্যাচ অপারেশনের পক্ষে ভালভাবে যুক্ত হওয়া, অনির্দিষ্ট কাঠামোগত ডেটার সাথে ভাল খেলানো (সেইসাথে এমন ডেটা যাঁর কাঠামো আগে থেকেই জানা যায়নি বা পরিবর্তিত হতে পারে) সহ আনুভূমিক স্কেলিবিলিটি ( আপনার বিদ্যমান সার্ভারগুলিকে গোমাংস করার পরিবর্তে আরও নোড যুক্ত করে স্কেলিং এবং (উপরের লিঙ্কযুক্ত পোস্ট নোটগুলিতে মন্তব্যকারীদের একজন হিসাবে) বাহ্যিক ডেটা সেটগুলির সাথে আপনার ডেটা প্রসেসিংকে সংহত করার ক্ষমতা (ম্যাপার যেখানে ম্যাপার কথা ভাবেন সেখানে ভাবুন অন্য সার্ভারে কল দেয়)। নোএসকিএল ডেটাবেসগুলির মতো বড় ডেটার সাথে যুক্ত অন্যান্য প্রযুক্তিগুলি বড় পরিসরে ডেটা ব্যবহার করার সময় দ্রুত পারফরম্যান্স এবং ধারাবাহিক প্রাপ্যতার উপর জোর দেয়, পাশাপাশি আধা-অ-কাঠামোগত ডেটা পরিচালনা করতে ও অনুভূমিকভাবে স্কেল করতে সক্ষম হয়।

অবশ্যই, traditionalতিহ্যবাহী আরডিবিএমএসের নিজস্ব সুবিধা রয়েছে এসিডি গ্যারান্টি সহ (পারমাণবিকতা, ধারাবাহিকতা, বিচ্ছিন্নতা, স্থায়িত্ব) এবং নির্দিষ্ট ক্রিয়াকলাপগুলির জন্য আরও ভাল পারফরম্যান্স, পাশাপাশি আরও প্রমিত, আরও পরিপক্ক এবং (অনেক ব্যবহারকারীর জন্য) আরও পরিচিত। এমনকি নির্বিচারে "বড়" ডেটার জন্যও, আপনার ডেটাগুলির একটি অংশকে একটি traditionalতিহ্যগত এসকিউএল ডাটাবেসে লোড করা এবং এটি বড় ডেটা প্রযুক্তির সাথে একত্রে ব্যবহার করা বোধগম্য হতে পারে।

সুতরাং, আরও উদার সংজ্ঞাটি হ'ল আপনার কাছে এত বড় ডেটা রয়েছে যে এটি যথেষ্ট বড় যে ডেটা প্রযুক্তিগুলি আপনার জন্য কিছু যুক্ত মূল্য সরবরাহ করে। তবে আপনি দেখতে পাচ্ছেন, এটি কেবলমাত্র আপনার ডেটার আকারের উপর নির্ভর করে না তবে আপনি কীভাবে এটিতে কাজ করতে চান এবং নমনীয়তা, ধারাবাহিকতা এবং পারফরম্যান্সের ক্ষেত্রে আপনার কী ধরণের প্রয়োজনীয়তা প্রয়োজন তা নির্ভর করে। আপনি কীভাবে আপনার ডেটা ব্যবহার করছেন তা আপনি কী ব্যবহার করছেন (যেমন ডেটা মাইনিং) এর চেয়ে প্রশ্নের সাথে বেশি প্রাসঙ্গিক । এটি বলেছে যে ডেটা মাইনিং এবং মেশিন লার্নিংয়ের মতো ব্যবহারগুলি কার্যকর ফলাফল অর্জনের সম্ভাবনা বেশি যদি আপনার সাথে কাজ করার জন্য যথেষ্ট পরিমাণে ডেটা সেট থাকে।


এই মন্তব্যটি প্রায় 5 বছরের পুরানো, এবং এর কিছু অংশ এখনও সত্য হওয়ার পরেও আমি যে ব্লগটি উদ্ধৃত করেছি তা 5 টিবি থ্রোসোল্ড অবশ্যই সত্য নয়। উদাহরণ হিসেবে বলা যায়, মাইক্রোসফট পর্যন্ত 100 টিবি "hyperscale" এসকিউএল DBS দিচ্ছে: docs.microsoft.com/en-us/azure/sql-database/... অবশ্যই, এক বিশাল এসকিউএল DBS অনেক সংগঠন অনুমান করতে পারেন এছাড়াও বলার আছে, বিভিন্ন কাজের চাপ সমর্থন করার জন্য একটি স্পার্ক ক্লাস্টার। আপনার একটি বা অন্যটি বেছে নেওয়ার কোনও নিয়ম নেই।
টিম গুডম্যান

21

বিশ্বে মোট ডেটা পরিমাণ: ২০১২ সালে ২.৮ জেটাবাইট, ২০১৫ ( উত্স ) দ্বারা এবং months০ মাসের দ্বিগুণ সময়ের সাথে 8 টি জেতাবাইটে পৌঁছবে বলে অনুমান করা হয়েছে । এর চেয়ে বড় হতে পারে না :)

একটি একক বৃহত সংস্থার উদাহরণ হিসাবে, ফেসবুক প্রতিদিন 500 টেরাবাইটে 100 টি পেটাবাইট গুদামে টানছে এবং ২০১২ ( উত্স ) হিসাবে প্রতিদিন এটিতে 70k ক্যোয়ারি চালিত হয় তাদের বর্তমান গুদাম> 300 পেটবাইট।

বিগ ডেটা সম্ভবত এমন কিছু যা ফেসবুক সংখ্যার একটি ভাল ভগ্নাংশ (1/100 সম্ভবত হ্যাঁ, 1/10000 সম্ভবত না: এটি একটি বর্ণালী একটি সংখ্যা নয়)।

আকার ছাড়াও কিছু বৈশিষ্ট্য যা এটিকে "বড়" করে তোলে:

  • এটি সক্রিয়ভাবে বিশ্লেষণ করা হয়েছে, কেবল সঞ্চিত নয় (উদ্ধৃতি "যদি আপনি বড় ডেটার সদ্ব্যবহার না করেন, তবে আপনার কাছে বড় ডেটা নেই, আপনার কাছে কেবল একটি গাদা তথ্য আছে" জয় পরীখ @ ফেসবুক)

  • ডেটা গুদাম নির্মাণ ও পরিচালনা একটি বড় অবকাঠামো প্রকল্প

  • এটি একটি উল্লেখযোগ্য হারে বাড়ছে

  • এটি কাঠামোগত গঠনযুক্ত বা অনিয়মিত কাঠামো রয়েছে

গার্টনার সংজ্ঞা: "বড় ডেটা হ'ল ভলিউম, উচ্চ বেগ এবং / অথবা উচ্চতর বিভিন্ন ধরণের তথ্য সম্পদ যা প্রসেসিংয়ের নতুন ফর্মগুলির প্রয়োজন" (3Vs) তাই তারাও মনে করেন যে "বিগনেস" সম্পূর্ণভাবে ডেটাসেটের আকার সম্পর্কে নয়, তবে এছাড়াও বেগ এবং কাঠামো এবং প্রয়োজনীয় ধরণের সরঞ্জামগুলি সম্পর্কে।


2
বিশ্বের ডেটার মোট পরিমাণ প্রতি 40 মাসের দ্বিগুণ, তাহলে নিশ্চয় এটা করতে যে চেয়ে বড় পেতে। ; পি
এয়ার

2
অন্যরা বিগ ডেটা আইবিএম এর 4 ভী বা এমনকি 5 ভি'র ডেভেল 2011
প্রশংসনীয় বর্ণনা করেছেন

2
আসল 3 ভিস 2001 সালে ডগ লেনি 3 ডি ডেটা ম্যানেজমেন্ট দ্বারা নির্ধারণ করা হয়েছিল : ডেটা ভলিউম, वेग এবং বিভিন্নতা নিয়ন্ত্রণ করে
nmtoken

13

আমার কাছে বিগ ডেটা মূলত সরঞ্জামগুলি সম্পর্কে (সর্বোপরি, এটি সেখান থেকেই শুরু হয়েছিল); প্রচলিত সরঞ্জামগুলি পরিচালনা করতে খুব বড় একটি "বিগ" ডেটাসেট - বিশেষত, একক মেশিনের চেয়ে ক্লাস্টারে স্টোরেজ এবং প্রসেসিংয়ের দাবি তুলনায় যথেষ্ট বড়। এটি একটি প্রচলিত আরডিবিএমএসকে বাতিল করে এবং প্রক্রিয়াকরণের জন্য নতুন কৌশলগুলির দাবি করে; বিশেষত, বিভিন্ন হ্যাডোপ-জাতীয় ফ্রেমওয়ার্কগুলি এই গণনার ফর্মটি সীমাবদ্ধ করে ব্যয় করে, একটি ক্লাস্টারের উপরে একটি গণনা বিতরণ করা সহজ করে তোলে। আমি http://www.chrisstucchio.com/blog/2013/hadoop_hatred.html এর রেফারেন্সটি দ্বিতীয় করব; বড় ডেটা কৌশলগুলি ডেটাসেটগুলির জন্য একটি শেষ অবলম্বন যা অন্য কোনও উপায়ে পরিচালনা করতে খুব বড়। আমি বলব যে কোনও ডাটাসেটের জন্য এটি যথেষ্ট বড় হলে যোগ্যতা অর্জন করতে পারে - যদিও সমস্যার আকারটি যদি এমন হয় যে বিদ্যমান "বিগ ডেটা" সরঞ্জামগুলি উপযুক্ত না হয় তবে সম্ভবত নতুনটি নিয়ে আসা ভাল better নাম।

অবশ্যই কিছু ওভারল্যাপ আছে; যখন আমি (সংক্ষেপে) শেষ.এফএম এ কাজ করেছি, আমরা হ্যাডোপ ব্যবহার করে একই 50TB ডেটাसेटে এবং মোটামুটি হাস্যকর সার্ভারে একটি এসকিউএল ডাটাবেসে কাজ করেছি (আমি মনে করি এটিতে 1 টিবি র‌্যাম ছিল, এবং এটি কয়েক বছর আগে)। কোন অর্থে এটির অর্থ হ'ল এটি উভয়ই ছিল এবং বড় ডেটা ছিল না, আপনি কোন চাকরিতে কাজ করছেন তার উপর নির্ভর করে। তবে আমি মনে করি এটি একটি সঠিক বৈশিষ্ট্য; হ্যাডোপ জব নিয়ে কাজ করা লোকেরা বিগ ডেটা কনফারেন্স এবং ওয়েবসাইটগুলিতে যেতে সুবিধাজনক বলে মনে হয়, যখন এসকিউএল জব নিয়ে কাজ করা লোকেরা তা করেনি।


10

ডেটা "বড়" হয়ে যায় যখন কোনও একক পণ্য কম্পিউটার আর আপনার কাছে থাকা পরিমাণের পরিমাণটি পরিচালনা করতে পারে না। এটি সেই পয়েন্টটিকে নির্দেশ করে যেখানে আপনাকে আপনার কম্পিউটারে সুপার কম্পিউটার তৈরি করার বিষয়ে চিন্তাভাবনা শুরু করতে বা আপনার ডেটা প্রসেস করার জন্য গুচ্ছ ব্যবহার করতে হবে need


7

বিগ ডেটা ডেটা ভলিউম দ্বারা সংজ্ঞায়িত করা হয়, এটি ঠিক, তবে তা নয়। বড় তথ্য বিশেষত্ব যে আপনি একটি সঞ্চয় করতে প্রয়োজন প্রচুর এর বিভিন্ন এবং কখনও কখনও আনস্ট্রাকচারড সামগ্রী সব সময় এবং থেকে সেন্সর টন , সাধারণত বছর বা দশকে

তদুপরি আপনার কিছু স্কেলযোগ্য দরকার, যাতে কোনও ডেটা ফিরে পেতে আপনার অর্ধেক বছর সময় লাগে না।

সুতরাং এখানে আসুন বিগ ডেটা, যেখানে traditionalতিহ্যবাহী পদ্ধতিটি আর কাজ করবে না। এসকিউএল স্কেলযোগ্য নয়। এবং এসকিউএল খুব কাঠামোগত এবং লিঙ্কযুক্ত ডেটার সাথে কাজ করে (সেই সমস্ত প্রাথমিক এবং বিদেশী কী জগাখিচুড়ি, অভ্যন্তরীণ অংশে, সংক্রামিত অনুরোধের সাথে ...)।

মূলত, স্টোরেজটি সস্তা এবং সস্তায় এবং ডেটা আরও বেশি মূল্যবান হয়ে যায়, তাই বড় ম্যানেজার ইঞ্জিনিয়ারকে সবকিছু রেকর্ড করতে বলে। এই সমস্ত মোবাইল, সামাজিক নেটওয়ার্ক, এম্বেড থাকা স্টাফ ... ইত্যাদি সহ এই টন নতুন সেন্সরগুলিতে যুক্ত করুন। সুতরাং ক্লাসিক পদ্ধতিগুলি যেমন কাজ করবে না, তাদের নতুন প্রযুক্তি (ফাইলগুলিতে, জসন ফর্ম্যাটে, বড় সূচক সহ, যাকে আমরা নোএসকিউএল বলি) সন্ধান করতে হবে।

বিগ ডেটা খুব বড় হতে পারে তবে এগুলি এত বড় হতে পারে না তবে জটিল কাঠামোগত বা বিভিন্ন ডেটা হতে পারে যা একটি কাঁচা ফর্ম্যাটে দ্রুত এবং অন-দৌড়তে হয়। আমরা প্রথমে ফোকাস করি এবং সংরক্ষণ করি এবং তারপরে আমরা কীভাবে সমস্ত কিছু সংযুক্ত করতে পারি তা দেখি।


6

জিনোমিক্সে বিশেষত ডি-নভো অ্যাসেমব্লিতে বিগ ডেটা কেমন তা আমি ভাগ করব।

যখন আমরা আপনার জিনোমকে সিক্যুয়েন্স করি (উদা: উপন্যাস জিনগুলি সনাক্ত করুন), আমরা কয়েক মিলিয়ন পরবর্তী প্রজন্মের সংক্ষিপ্ত পাঠ গ্রহণ করি। নীচের চিত্রটি দেখুন, যেখানে আমরা কয়েকটি পাঠকে একত্রিত করার চেষ্টা করি।

এখানে চিত্র বর্ণনা লিখুন

এটা সহজ দেখাচ্ছে? কিন্তু আপনি যদি এর কোটি কোটি পড়ে থাকেন? যদি এই পাঠাগুলিতে ক্রম ত্রুটি থাকে? আপনার র‌্যামের পাঠ্য রাখার মতো পর্যাপ্ত মেমরি না থাকলে কী হবে? খুব সাধারণ আলু এলিমেন্টের মতো পুনরাবৃত্ত ডিএনএ অঞ্চলগুলি সম্পর্কে কী বলা যায় ?

ডি-নওভো অ্যাসেম্বলিটি ডি-ব্রুইজন গ্রাফ তৈরি করে করা হয় :

এখানে চিত্র বর্ণনা লিখুন

গ্রাফটি ওভারল্যাপিং রিডগুলি উপস্থাপনের জন্য একটি চৌকস-খনিত ডেটা-কাঠামো। এটি নিখুঁত নয় তবে এটি সম্ভাব্য সমস্ত ওভারল্যাপ উত্পন্ন করার চেয়ে ভাল এবং সেগুলি একটি অ্যারেতে সঞ্চয় করা।

সমাবেশ প্রক্রিয়াটি শেষ হতে কয়েক দিন সময় নিতে পারে, কারণ এখানে বেশ কয়েকটি পথ রয়েছে যা একটি সমাবেশকারীকে পথ পাড়ি দিতে এবং ধসে পড়তে হবে।

জিনোমিক্সে আপনার কাছে একটি বড় ডেটা থাকে যখন:

  • আপনি সমস্ত সংমিশ্রণকে জোর করে জোর করতে পারবেন না
  • আপনার কম্পিউটারে ডেটা সঞ্চয় করার জন্য পর্যাপ্ত শারীরিক মেমরি নেই
  • আপনাকে মাত্রাগুলি হ্রাস করতে হবে (উদাহরণস্বরূপ: অপ্রয়োজনীয় গ্রাফের পথগুলি ভেঙে দেওয়া)
  • আপনি হতাশ হয়ে যান কারণ আপনাকে কিছু করার জন্য কয়েক দিন অপেক্ষা করতে হবে
  • ডেটা উপস্থাপনের জন্য আপনার একটি বিশেষ ডেটা কাঠামো দরকার
  • ত্রুটির জন্য আপনাকে আপনার ডেটা-সেট ফিল্টার করতে হবে (উদা: ক্রম ত্রুটি)

https://en.wikipedia.org/wiki/De_Bruijn_graph


5

অ্যালগোরিদমগুলি গ্রাফ করার জন্য বিশেষ বিষয় রয়েছে, আপনি মূল প্রশ্নগুলি যা পরে বিশেষ করে তোলে যা মূলত ডেটা ভাগ করার দক্ষতার বিষয়ে about

কিছু জিনিসের জন্য, অ্যারের উপর সংখ্যা বাছাইয়ের মতো ডেটা স্ট্রাকচারের সমস্যাটিকে ছোট ছোট বিভাজক অংশগুলিতে ভাগ করা খুব বেশি কঠিন নয়, উদাহরণস্বরূপ : স্থানটি সমান্তরালভাবে মার্জ সাজান

গ্রাফ অ্যালগরিদমগুলির জন্য তবে একটি চ্যালেঞ্জ রয়েছে যে প্রদত্ত গ্রাফিক মেট্রিকের একটি partitionচ্ছিক বিভাজন সন্ধান করা হিসাবে পরিচিতএনপি-একটিR

সুতরাং 10 গিগাবাইট সংখ্যার বাছাই করার সময় কোনও সাধারণ পিসিতে খুব সহজেই পৌঁছনীয় সমস্যা হতে পারে (আপনি কেবল ডায়নামিক প্রোগ্রামিংয়ের মাধ্যমে করতে পারেন এবং প্রোগ্রামের প্রবাহ সম্পর্কে খুব ভাল ভবিষ্যদ্বাণী করতে পারেন), 10 জিবি গ্রাফের ডেটা স্ট্রাকচারের সাথে কাজ করা ইতিমধ্যে চ্যালেঞ্জের মাধ্যমে হয়ে উঠতে পারে।

গ্রাফএক্সের মতো অনেকগুলি বিশেষ নকশাগুলি রয়েছে যেমন গ্রাফএক্স পদ্ধতি এবং বিশেষ কম্পিউটিং প্যারাডিম ব্যবহার করে গ্রাফের অন্তর্নিহিত চ্যালেঞ্জকে কিছুটা রোধ করতে পারে।

সুতরাং আপনার প্রশ্নের সংক্ষিপ্তভাবে জবাব দেওয়ার জন্য: অন্যদের দ্বারা যেমনটি আগে উল্লেখ করা হয়েছিল, যখন আপনার পিসি কোনও সাধারণ পিসিতে মূল স্মৃতিতে ফিট করে না তবে আপনার সমস্যার উত্তর দেওয়ার জন্য আপনার এগুলির সমস্ত প্রয়োজন হয়, আপনার ডেটা ইতিমধ্যে কিছুটা বড় বলে একটি ভাল ইঙ্গিত। যদিও সঠিক লেবেলিং নির্ভর করে আমি ডেটা কাঠামো এবং জিজ্ঞাসিত প্রশ্নের উপর কিছুটা ভাবি।


4

আমি মনে করি যে বড় ডেটা সেই বিন্দুতে শুরু হয় যেখানে আকারটি আপনাকে যা করতে চায় তা করতে বাধা দেয়। বেশিরভাগ পরিস্থিতিতে, চলমান সময়ের একটি সীমা থাকে যা সম্ভাব্য বলে বিবেচিত হয়। কিছু ক্ষেত্রে এটি এক ঘন্টা, কিছু ক্ষেত্রে এটি কয়েক সপ্তাহ হতে পারে। যতক্ষণ না ডেটা পর্যাপ্ত পরিমাণে বড় না হয় কেবলমাত্র ও (এন) অ্যালগরিদমগুলি সম্ভাব্য সময়সীমার মধ্যে চলতে পারে ততক্ষণ আপনি বড় ডেটাতে পৌঁছাতে পারেননি।

আমি এই সংজ্ঞাটি পছন্দ করি যেহেতু এটি ভলিউম, প্রযুক্তি স্তর এবং নির্দিষ্ট অ্যালগরিদমে অজানা is এটি সংস্থাগুলিতে অজ্ঞাতসৃষ্ট নয় তাই গ্রেডের শিক্ষার্থী গুগলের সামনে বড় ডেটা পয়েন্টে পৌঁছে যাবে।

ডেটাটি কত বড় তা প্রমাণ করতে সক্ষম হতে আমি এটির ব্যাকআপ নেওয়ার জন্য প্রয়োজনীয় সময়টি বিবেচনা করতে চাই। যেহেতু প্রযুক্তি অগ্রগতি, কিছু বছর আগে ভলিউমগুলি বড় হিসাবে বিবেচিত হত এখন মাঝারি। ব্যাকআপ সময় যেমন উন্নত হয় তেমনি শিক্ষার অ্যালগরিদমগুলির চলমান সময় যেমন উন্নত হয় improves আমি মনে করি যে কোনও ডেটাসেট সম্পর্কে কথা বলা আরও বুদ্ধিমান, এটি ব্যাকআপ হতে X ঘন্টা সময় নেয়, ওয়াই বাইটের কোনও ডেটাসেট নয়।

গীত।

এটি লক্ষণীয় গুরুত্বপূর্ণ যে আপনি যদি বড় ডেটা পয়েন্টে পৌঁছে যান এবং আপনি ও (এন) এর চেয়ে জটিলতার অ্যালগরিদমগুলি সোজাভাবে এগিয়ে চালাতে না পারেন তবে এই ধরণের অ্যালগোরিদম থেকে এখনও উপকৃত হওয়ার জন্য আপনি প্রচুর পরিমাণে করতে পারেন।

উদাহরণস্বরূপ, বৈশিষ্ট্য নির্বাচন অনেকগুলি অ্যালগরিদম চলমান সময় নির্ভর করে এমন বৈশিষ্ট্যগুলির সংখ্যা হ্রাস করতে পারে। মাথার কয়েকটি আইটেমগুলিতে মনোযোগ নিবদ্ধ করে অনেক দীর্ঘ লেজ বিতরণে উপকার হতে পারে। আপনি একটি নমুনা ব্যবহার করতে পারেন এবং এটিতে ধীর আলগোরিদিমগুলি চালাতে পারেন।


হে(এন)

4

ডেটা হ'ল "বিগ ডেটা" যদি এটির পরিমাণ বেশি হয় তবে এটি একটি উচ্চ-কম্পিউটারের চেয়ে দুটি বা ততোধিক পণ্য কম্পিউটারে বিশ্লেষণ করা কম ব্যয়বহুল।

এটি মূলত গুগলের "বিগফাইলস" ফাইল সিস্টেমের উদ্ভব হয়েছিল। পৃষ্ঠা এবং ব্রিন তাদের ওয়েব সূচক সংরক্ষণ এবং অনুসন্ধান করার জন্য কোনও অভিনব সান সার্ভারের সামর্থ্য করতে পারে নি, তাই বেশ কয়েকটি পণ্য কম্পিউটারকে জড়িয়ে ধরে


1

@ ড্যান লেভিন ইতিমধ্যে যা বলেছেন তার সাথে আমি একমত হতে চাই। শেষ পর্যন্ত যেহেতু আমরা কেবল তথ্য সংরক্ষণ না করে তথ্য থেকে দরকারী অন্তর্দৃষ্টি আঁকতে চাই, এটি আলগোরিদিম / সিস্টেমগুলি শেখার ক্ষমতা যা "বিগ ডেটা" বলা হয় তা নির্ধারণ করা উচিত। এমএল সিস্টেমগুলি যেহেতু বিগ ডেটা ছিল তা বিকশিত হওয়ায় আজকের কাল আর আর বিগ ডেটা হবে না।

বড় ডেটা সংজ্ঞায়নের একটি উপায় হতে পারে:

  • বড় ডেটা : যে ডেটাতে আপনি টিপিক্যাল ওয়ার্কস্টেশনে (4 জিবি র‌্যাম সহ ) উপযুক্ত সময়ে (1-2 ঘন্টা) এমএল মডেলগুলি তৈরি করতে পারবেন না Data
  • অ-বিগ ডেটা : উপরের পরিপূরক

এই সংজ্ঞাটি ধরে নেওয়া, যতক্ষণ না পৃথক সারি দ্বারা আটকানো স্মৃতি (একক উপাত্তের জন্য সমস্ত ভেরিয়েবল) মেশিন র‌্যাম অতিক্রম না করে আমাদের নন-বিগ ডাটা সিস্টেমের মধ্যে থাকা উচিত ।

দ্রষ্টব্য: স্বতন্ত্র সারি (ডেটা পয়েন্ট) <র‌্যাম (4 জিবি বলুন) যতক্ষণ অবধি স্বতন্ত্র ওয়াব্বিট (আজ অবধি সবচেয়ে দ্রুততম এমএল সিস্টেম) যে কোনও ডেটা সেট শিখতে পারে। সারিগুলির সংখ্যা কোনও সীমাবদ্ধতা নয় কারণ এটি একাধিক কোরগুলিতে এসজিডি ব্যবহার করে। অভিজ্ঞতা থেকে কথা বললে আপনি একটি ল্যাপটপে 10 কে বৈশিষ্ট্য এবং 10 এমএন সারি সহ একটি মডেলকে প্রশিক্ষণ দিতে পারেন।


1

"বিগ ডেটা" আক্ষরিক অর্থে কেবলমাত্র প্রচুর ডেটা। যদিও এটি কোনও কিছুর চেয়ে বিপণন শর্তের বেশি, তবে বোঝা যায় যে আপনার কাছে এত বেশি ডেটা থাকে যা আপনি একবারে সমস্ত ডেটা বিশ্লেষণ করতে পারবেন না কারণ মেমরির পরিমাণ (র‌্যাম) পরিমাণে এটি ডেটা ধরে রাখতে পারে প্রক্রিয়া এবং বিশ্লেষণ এটি উপলব্ধ মেমরির পরিমাণের চেয়ে বড়।

এর অর্থ হ'ল বিশ্লেষণগুলি সাধারণত ডেটাগুলির এলোমেলো অংশগুলিতে করতে হয়, যা তথ্যগুলির অন্যান্য অংশের সাথে তুলনা করতে মডেলগুলি তৈরি করতে দেয়।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.