বিগ ডেটা ঠিক কী?


44

আমাকে বেশ কয়েকটি অনুষ্ঠানে প্রশ্ন করা হয়েছিল:

বিগ-ডেটা কী?

শিক্ষার্থী এবং আমার আত্মীয় উভয়ই যা পরিসংখ্যান এবং এমএল-এর কাছাকাছি বাজছে।

আমি এই সিভি-পোস্ট পেয়েছি । এবং আমি অনুভব করি যে আমি সেখানে একমাত্র উত্তরের সাথে একমত।

উইকিপিডিয়া পৃষ্ঠা এছাড়াও এটিতে কিছু মন্তব্য আছে, কিন্তু আমি নিশ্চিত যদি আমি সত্যিই সেখানে সবকিছু সাথে একমত নই।

সম্পাদনা: (আমি অনুভব করি যে উইকিপিডিয়া পৃষ্ঠায় এটির সমাধান করার পদ্ধতিগুলি এবং আমি নীচে উল্লিখিত দৃষ্টান্তটি ব্যাখ্যা করার অভাব বোধ করছি)

আমি সম্প্রতি ইমানুয়েল ক্যান্ডসের একটি বক্তৃতায় অংশ নিয়েছি , যেখানে তিনি বিগ-ডেটা দৃষ্টান্ত হিসাবে প্রবর্তন করেছিলেন

প্রথমে ডেটা সংগ্রহ করুন পরে প্রশ্ন করুন

এটি হাইপোথিসিস-চালিত গবেষণা থেকে মূল পার্থক্য, যেখানে আপনি প্রথমে একটি অনুমান তৈরি করেন এবং তারপরে এটি সম্পর্কে কিছু বলার জন্য ডেটা সংগ্রহ করেন।

তিনি তথ্য স্নুপিং দ্বারা উত্পাদিত হাইপোথিসের নির্ভরযোগ্যতার পরিমাণের বিষয়গুলিতে অনেক কিছু গেছিলেন। আমি তার বক্তৃতাটি থেকে প্রধান জিনিসটি বের করেছিলাম তা হ'ল আমাদের সত্যই এফডিআর নিয়ন্ত্রণ করা শুরু করা উচিত এবং তিনি এটি করার জন্য নকআফ পদ্ধতিটি উপস্থাপন করেছিলেন ।

আমি মনে করি যে বিগ-ডেটা কী এবং এটিতে আপনার সংজ্ঞা কী তা নিয়ে সিভিতে একটি প্রশ্ন থাকা উচিত। আমি অনুভব করি যে এখানে অনেকগুলি "সংজ্ঞা" রয়েছে , এটি কী তা সত্যই উপলব্ধি করা বা অন্যদের কাছে ব্যাখ্যা করা শক্ত, যদি এর মধ্যে কী রয়েছে তার বিষয়ে সাধারণ sensক্যমত্য না থাকলে।

আমি অনুভব করি যে ক্যান্ডিসের দেওয়া "সংজ্ঞা / দৃষ্টান্ত / বিবরণ" আমি একমত হওয়া সবচেয়ে কাছের জিনিস, আপনার মতামত কী?

সম্পাদনা 2: আমি অনুভব করি যে উত্তরটি কেবলমাত্র ডেটা কেবল তার ব্যাখ্যা ব্যতীত আরও কিছু সরবরাহ করতে পারে। এটি ডেটা / পদ্ধতি / দৃষ্টান্তের মিশ্রণ হওয়া উচিত।

সম্পাদনা 3: আমি অনুভব করি যে মাইকেল জর্ডানের সাথে এই সাক্ষাত্কারটি টেবিলে কিছু যোগ করতে পারে।

সম্পাদনা 4: আমি সর্বাধিক ভোট দেওয়া উত্তরকে সঠিক হিসাবে বেছে নেওয়ার সিদ্ধান্ত নিয়েছি। যদিও আমি মনে করি যে সমস্ত উত্তর আলোচনায় কিছু যুক্ত করে এবং আমি ব্যক্তিগতভাবে অনুভব করি যে আমরা অনুমানগুলি কীভাবে তৈরি করি এবং ডেটা দিয়ে কীভাবে কাজ করি তার একটি দৃষ্টান্তের প্রশ্ন এটিই আরও বেশি। আমি আশা করি যে এই প্রশ্নটি তাদের জন্য উল্লেখের পুল হিসাবে কাজ করবে যারা বিগ-ডেটা কী তা সন্ধান করে। আমি আশা করি যে একাধিক তুলনা সমস্যা এবং এফডিআর নিয়ন্ত্রণের উপর আরও জোর দেওয়ার জন্য উইকিপিডিয়া পৃষ্ঠাটি পরিবর্তন করা হবে।


55
"বড় ডেটা কিশোর লিঙ্গের মতো: সবাই এ সম্পর্কে কথা বলে, কেউ সত্যিই এটি কীভাবে করতে হয় তা জানে না, প্রত্যেকেই মনে করে অন্য সবাই এটি করছে, তাই প্রত্যেকে দাবি করে যে তারা এটি করছে" " সাইমন ম্যাথিউজ
আলেকজান্ডার লুটসেনকো

4
এই উদ্ধৃতি আর বৈধ নয়। লোকেরা সম্প্রতি অনেকগুলি অসাধারণ কাজ করছে। আপনি যদি কাগল সম্পর্কিত প্রতিযোগিতাগুলি দেখেন তবে সংস্থাগুলি তাদের ব্যবসায়ের উন্নতি করছে এবং প্রচুর অর্থ ব্যয় না করে প্রচুর অর্থ উপার্জন করছে। বিগ ডেটা এর অ্যাপ্লিকেশনের জন্য অন্যান্য উদাহরণ এখানে পাওয়া যাবে: linkedin.com/pulse/...
Metariat

5
@ XuanQuangDO, আমি সম্মত এই উদ্ধৃতিটিকে গুরুত্ব সহকারে নেবেন না।
আলেকজান্ডার লুটসেনকো

6
@ জুয়ানকুয়াংডো: ঠিক আছে, আমি নিশ্চিত যে কিছু কিশোর কিশোরীরা অসাধারণ যৌন মিলন করছে, তবে এর ফলেও অনেক অযোগ্য বা বিপথগামী ভুল হচ্ছে যে লোকেরা নির্মমভাবে উপহাস করবে ;-)
স্টিভ জেসোপ

উত্তর:


54

আর স্টুডিও খ্যাতির ডাঃ হ্যাডলি উইকহ্যামের দেওয়া একটি বক্তৃতায় অংশ নিয়ে আমার খুব আনন্দ হয়েছে। তিনি এরূপ সংজ্ঞা দিয়েছিলেন

  • বড় ডেটা: একটি কম্পিউটারে মেমরি ফিট করতে পারে না:> 1 টিবি
  • মাঝারি তথ্য: একটি সার্ভারে মেমরি ফিট করে: 10 জিবি - 1 টিবি B
  • ছোট ডেটা: একটি ল্যাপটপে মেমরি ফিট করে: <10 জিবি

হ্যাডলি আরও বিশ্বাস করেন যে বেশিরভাগ ডেটা কমপক্ষে পরিচালনাযোগ্য সমস্যা হ্রাস করতে পারে এবং খুব অল্প পরিমাণই সত্যিকারের বড় ডেটা। তিনি এটিকে "বিগ ডেটা মেরাজ" হিসাবে চিহ্নিত করেছেন।

  • উপসেটিং / নমুনা / সংক্ষিপ্তকরণের সাথে 90% একটি ছোট / মাঝারি ডেটা সমস্যায় হ্রাস করা যায়
  • 9% হ্রাস করা যেতে পারে খুব ছোট সংখ্যক ছোট ডেটা সমস্যাতে
  • 1% অপ্রত্যাশিতভাবে বড়

স্লাইডগুলি এখানে পাওয়া যাবে


2
@ গুউমুন্ডুরইনারসন, আমি এটি সম্পাদনা করেছি, পরামর্শের জন্য ধন্যবাদ।
ক্রিস সি

5
যদিও আমি মনে করি না যে পরিষ্কার কাটা সীমা রয়েছে, তবে আমি মনে করি এই পোস্টটি খুব অন্তর্দৃষ্টিযুক্ত। যখন আমি একটি এসডব্লিউ সংস্থায় কাজ করছিলাম তখন আমি বেশ কয়েকটি গ্রাহককে " বিগ-ডেটা সমাধান " সন্ধানের সাথে কথা বললাম; বাস্তবে তারা একটি 16 গিগাবাইট SODIMM মিস করেছে।
usεr11852

2
আজকাল 1 টিবি এসএসডি সহ, অবিচ্ছিন্ন স্টোরেজ গতিতে অস্থির স্টোরেজ থেকে খুব বেশি দূরে নয়। আমার মনে হচ্ছে আমি 1TB এর চেয়ে বড় ডেটা, কমপক্ষে কমপক্ষে 50 টিবি বা অন্য কিছু হতে পারে বলে আশা করি expect
মেহরদাদ

3
আপনার এবং হ্যাডলির প্রতি সমস্ত শ্রদ্ধার সাথে, বিড ডেটা কেবলমাত্র আয়তনের নয়। সাধারণত বিড তথ্য মাধ্যমে সংজ্ঞায়িত করা হয় 3V এবং, অতি সম্প্রতি, 4V মডেল (গার্টনার দ্বারা প্রস্তাবিত) - উত্তর নিচে দেখুন Dawny33 দ্বারা। যাইহোক, কিছু বিশেষজ্ঞ (গার্টনার সহ) আরও একটি বিবেচনা করেন এবং তারা সর্বাধিক গুরুত্বপূর্ণ, ভি ডাইমেনশন নিয়ে তর্ক করেন যেখানে ভি ব্যবসায়ের মূল্য বোঝায় । উদাহরণস্বরূপ, এই পোস্ট এবং এই পোস্টটি দেখুন
আলেকসান্দ্র ব্লেক

2
@ আলেকসান্দ্রব্লেখ আপনার মন্তব্যে বিশেষজ্ঞদের মধ্যে "বিগ ডেটা" এর মানদণ্ডকে ঘিরে বিতর্ক সম্পর্কিত একটি সংক্ষিপ্ত আলোচনা এবং এটি সম্পর্কে আপনার দাবিকে সমর্থন করার জন্য কিছু উল্লেখ রয়েছে both আমি মনে করি আপনার এটিকে উত্তরে রূপান্তর করা উচিত।
সিলভারফিশ

19

কোনও ডেটা সেট / স্ট্রিমকে বলা হয় বিগ ডেটা, যদি এটি চারটি ভি এর সন্তুষ্ট করে

  • আয়তন
  • বেগ
  • সত্যবাদিতা
  • বৈচিত্র্য

যতক্ষণ না এবং এটি সন্তুষ্ট না হওয়া অবধি ডেটা সেটটিকে বিগ ডেটা হিসাবে আখ্যায়িত করা যায় না।

আমার অনুরূপ উত্তর, রেফারেন্সের জন্য।


যা বলেছিলেন, তথ্য বিজ্ঞানী হিসাবে; আমি মানচিত্র-হ্রাস কাঠামোটি দেখতে খুব সুন্দর দেখতে পাই। আপনার ডেটা বিভক্ত করা, এটিকে ম্যাপিং এবং তারপরে ম্যাপার পদক্ষেপের ফলাফলগুলি একক ফলাফলের মধ্যে হ্রাস পাবে। আমি এই কাঠামোটি সত্যই আকর্ষণীয় এবং এটি কীভাবে ডেটা বিশ্বে উপকৃত হয়েছে তা দেখতে পেয়েছি।

এবং এগুলি কয়েকটি উপায় যা আমি আমার কাজের সময় ডেটা সমস্যার সাথে কীভাবে মোকাবিলা করি:

  1. কলামার ডেটাবেসস: এগুলি তথ্য বিজ্ঞানীদের জন্য একটি উত্সাহ। আমিআমার কলামার ডেটা স্টোর হিসাবে আউস রেড শিফট ব্যবহার করি। এটি জটিল এসকিউএল কোয়েরিগুলি কার্যকর করতে সহায়তা করে এবং একটি ব্যথার সাথে কম যোগ দেয়। আমি এটি সত্যিই ভাল বলে মনে করি, বিশেষত যখন আমার বৃদ্ধি দলটি কিছু জটিল প্রশ্ন জিজ্ঞাসা করে এবং আমাকে "হ্যাঁ, একটি জিজ্ঞাসা চালিয়েছিল; আমরা একদিনে এটি পেয়ে যাব!"
  2. স্পার্ক এবং মানচিত্র হ্রাস ফ্রেমওয়ার্ক: কারণগুলি উপরে ব্যাখ্যা করা হয়েছে।

এবং এইভাবে একটি ডেটা পরীক্ষা করা হয়:

  • উত্তর দেওয়া সমস্যা চিহ্নিত করা হয়
  • সম্ভাব্য ডেটা উত্স এখন তালিকাভুক্ত করা হয়েছে।
  • পাইপলাইনগুলি স্থানীয় ডাটাবেসগুলি থেকে রেডশিফটে ডেটা পাওয়ার জন্য ডিজাইন করা হয়েছে। হ্যাঁ, স্পার্ক এখানে আসে। এটি ডিবির -> এস 3 -> রেডশিফ্ট ডেটা চলাচলের সময় সত্যই কার্যকর।
  • তারপরে, প্রশ্নগুলি এবং এসকিউএল বিশ্লেষণগুলি রেডশিফ্টের ডেটাতে করা হয়।

হ্যাঁ, হাইপার লগলগ ইত্যাদির মতো বিগ ডেটা অ্যালগরিদম রয়েছে; তবে আমি সেগুলি ব্যবহারের প্রয়োজন খুঁজে পাইনি।

তাই হ্যাঁ. হাইপোথিসিস তৈরির আগে ডেটা সংগ্রহ করা হয় প্রথমে।


5
আমি এই বিষয়গুলির সাথে একমত, তবে আমি মনে করি বিগ ডেটা শব্দটি ডেটা থেকে কিছু বেশি coversেকে ফেলে। এটি এটি প্রয়োগ করা পদ্ধতিগুলি এবং এটি সম্পর্কে অনুমানগুলি তৈরি করার আগে ডেটা সংগ্রহ করার দৃষ্টান্তও।
গুমেও

1
@ গুউমুন্ডুরইনারসন আমি তাড়াহুড়ো করেছিলাম তাই খুব অল্প সময়ের মধ্যে আপনাকে সেরা উত্তর দিতে চেয়েছিলাম। সুতরাং, আমি এখন এটিকে সম্পাদনা এবং প্রসারিত করেছি কর্মের প্রবাহ এবং শিল্পে বড় ডেটা সহ আমার দৈনন্দিন অভিজ্ঞতা থেকে বোঝার জন্য।
দাওয়ানি 33

1
চারটি বনাম এখানে বড় ডেটার গুরুত্বপূর্ণ উল্লেখযোগ্য বৈশিষ্ট্য হওয়ার চেয়ে বড় ডেটা সংজ্ঞা হিসাবে উল্টানো হচ্ছে। এই 4 টির বেশ কয়েকটি ছাড়া প্রচুর উদাহরণ বড় ডেটা তৈরি করা যেতে পারে এবং কিছু আইবিএম ইনফোগ্রাফিকগুলিতে তালিকাভুক্তও হয়।
জন

@ জন হ্যাঁ, ভি এর প্রকৃতপক্ষে অনেক পরিবর্তন হচ্ছে। একটি নতুন ভি ( মান ) এর জন্য একটি
যুক্তিও রয়েছে

1
আমি বলছি না যে তারা পরিবর্তন করছে, আমি বলছি আপনি কিছু সংখ্যার বর্ণনাকে ভুল সংজ্ঞাতে রূপান্তর করছেন। এটি তাদের মতো যে কুকুর সম্পর্কে তাদের কাছে গুরুত্বপূর্ণ বিষয় বর্ণনা করে যেমন আনুগত্য, হাসি এবং পরাজিত করা এবং অন্য কেউ আসেন এবং বলছেন যে এটি একটি কুকুরের সংজ্ঞা। এটি বলেছিল, আমি মনে করি বিশ্লেষণের দিকটি উল্টো করার বিষয়ে আপনি সঠিক পথে ছিলেন তবে এটি কেবল একটি উপায়ে ডাটা আকারের সাথে সংযুক্ত হওয়া দরকার। আমি মনে করি এটি করার অনেক ভাল উপায় আছে এবং আপনি যদি এটির বিকাশ করেন তবে তা দুর্দান্ত হবে।
জন

14

আমি মনে করি যে বড় ডেটার একমাত্র দরকারী সংজ্ঞা হ'ল ডেটা যা কোনও নির্দিষ্ট ঘটনা সম্পর্কে সমস্ত তথ্য তালিকাভুক্ত করে। আমি এর দ্বারা যা বোঝাতে চাইছি তা হ'ল কিছু স্বার্থের জনসংখ্যা থেকে নমুনা তৈরি করা এবং সেই ইউনিটগুলিতে কিছু পরিমাপ সংগ্রহ করার চেয়ে বড় ডেটা সুদের পুরো জনসংখ্যার উপর পরিমাপ সংগ্রহ করে। মনে করুন আপনি আমাজন ডটকমের গ্রাহকদের প্রতি আগ্রহী অ্যামাজন ডটকমের পক্ষে কেবলমাত্র কিছু ব্যবহারকারীর উপর নজর রাখা বা কিছু লেনদেনের ট্র্যাক না করে তাদের গ্রাহকদের সমস্ত ক্রয়ের তথ্য সংগ্রহ করা পুরোপুরি সম্ভব।

আমার মনে, সংজ্ঞাগুলি যা ডেটা নিজেই মেমরির আকারের উপর নির্ভর করে কিছুটা সীমিত উপযোগী হতে পারে। এই মেট্রিক দ্বারা, একটি বৃহত যথেষ্ট কম্পিউটার দেওয়া, কোন তথ্য আসলে বড় ডেটা হয় না। অসীম বৃহত কম্পিউটারের চূড়ান্ত সময়ে, এই যুক্তিটি হ্রাসজনক বলে মনে হতে পারে তবে আমার গ্রাহক-গ্রেড ল্যাপটপের গুগলের সার্ভারের সাথে তুলনা করার ক্ষেত্রে বিবেচনা করুন। স্পষ্টতই আমার কাছে একটি টেরাবাইট ডেটা অনুসন্ধানের চেষ্টা করার প্রচুর লজিস্টিকাল সমস্যা ছিল, তবে গুগলের কাছে সেই কাজটি বেশ সহজেই পরিচালনা করার সংস্থান রয়েছে। আরও গুরুত্বপূর্ণ, আপনার কম্পিউটারের আকার কোনও উপাত্তের অভ্যন্তরীণ বৈশিষ্ট্য নয় , সুতরাং আপনার হাতে যে প্রযুক্তি রয়েছে তার তথ্যকে বিশুদ্ধভাবে সংজ্ঞায়িত করা আপনার বাহুর দৈর্ঘ্যের দিক থেকে দূরত্ব পরিমাপ করার মতো।

এই যুক্তি কেবল একটি আনুষ্ঠানিকতা নয়। জটিল সমান্তরালীন স্কিমগুলির জন্য প্রয়োজনীয় বিতরণ এবং বিতরণ করা কম্পিউটিং প্ল্যাটফর্মগুলি আপনার কাছে পর্যাপ্ত কম্পিউটিং শক্তি পাওয়ার পরে অদৃশ্য হয়ে যায়। সুতরাং যদি আমরা এই সংজ্ঞাটি মেনে নিই যে র্যামের সাথে ফিট করার জন্য বিগ ডেটা খুব বড় (বা এক্সেল ক্র্যাশ করে, বা যাই হোক না কেন), তবে আমরা আমাদের মেশিনগুলি আপগ্রেড করার পরে, বিগ ডেটা উপস্থিতি বন্ধ হয়ে যায়। এটা নির্বোধ মনে হচ্ছে।

তবে আসুন বড় ডেটা সম্পর্কে কিছু তথ্য দেখি এবং আমি এটিকে "বিগ মেটাডেটা" বলব। এই ব্লগ পোস্টটি একটি গুরুত্বপূর্ণ প্রবণতা পর্যবেক্ষণ করেছে : উপলভ্য র‌্যাম ডেটা মাপের চেয়ে আরও দ্রুত বাড়ছে, এবং উস্কানিমূলকভাবে দাবি করেছে যে "বিগ র্যাম বিগ ডেটা খাচ্ছে" - এটি পর্যাপ্ত অবকাঠামো সহ, আপনার আর একটি বড় ডেটা সমস্যা নেই, আপনি কেবল ডেটা আছে এবং আপনি প্রচলিত বিশ্লেষণ পদ্ধতির ডোমেনে ফিরে আসেন।

তদুপরি, বিভিন্ন উপস্থাপনের পদ্ধতিগুলির বিভিন্ন আকার থাকতে পারে, সুতরাং এটির আকার-মেমরির ক্ষেত্রে "বিগ ডেটা" সংজ্ঞায়িত করার অর্থ কী তা স্পষ্টভাবে পরিষ্কার নয়। যদি আপনার ডেটা এমনভাবে তৈরি করা হয় যাতে প্রচুর রিলান্ডান্ট তথ্য সংরক্ষণ করা হয় (যা আপনি একটি অদক্ষ কোডিং চয়ন করেন) তবে সহজেই আপনার কম্পিউটার যা সহজে পরিচালনা করতে পারে তার প্রান্তিকতা অতিক্রম করতে পারবেন। তবে আপনি কেন এই সম্পত্তিটির সংজ্ঞা চান? আমার মতে, ডেটা সেটটি "বিগ ডেটা" কিনা তা আপনি গবেষণার নকশায় দক্ষ পছন্দ করেছেন কিনা তা জড়িত থাকা উচিত নয়।

একজন চিকিত্সকের দৃষ্টিকোণ থেকে, আমি এটি সংজ্ঞায়িত করার সাথে বড় ডেটা এটির সাথে গণ্য প্রয়োজনীয়তাও বহন করে, তবে এই প্রয়োজনীয়তাগুলি অ্যাপ্লিকেশন-নির্দিষ্ট। পর্যবেক্ষণের জন্য ডাটাবেস ডিজাইন (সফ্টওয়্যার, হার্ডওয়্যার, সংস্থা) মাধ্যমে চিন্তা করা চেয়ে খুব আলাদা10 7104107পর্যবেক্ষণ, এবং এটি পুরোপুরি ঠিক আছে। এটিও বোঝায় যে বড় ডেটা, যেমন আমি এটি সংজ্ঞায়িত করেছি, আমরা ধ্রুপদী পরিসংখ্যানগুলিতে যা বিকাশ করেছি তার চেয়ে বেশি বিশেষায়িত প্রযুক্তির দরকার পড়তে পারে না: যখন আপনাকে এক্সট্রোপোলেটেড করার দরকার হয় তখন নমুনা এবং আত্মবিশ্বাসের ব্যবধানগুলি এখনও পুরোপুরি কার্যকর এবং বৈধ অনন্য সরঞ্জাম are লিনিয়ার মডেলগুলি কিছু প্রশ্নের পুরোপুরি গ্রহণযোগ্য উত্তর সরবরাহ করতে পারে। তবে আমি এটি সংজ্ঞায়িত করে বড় ডেটাগুলিতে অভিনব প্রযুক্তি প্রয়োজন হতে পারে। সম্ভবত আপনাকে এমন পরিস্থিতিতে নতুন ডেটা শ্রেণীবদ্ধ করতে হবে যেখানে প্রশিক্ষণের ডেটার চেয়ে আপনার কাছে আরও বেশি ভবিষ্যদ্বাণী রয়েছে বা আপনার ভবিষ্যদ্বাণীগুলি আপনার ডেটার আকারের সাথে বৃদ্ধি পাবে। এই সমস্যাগুলির জন্য আরও নতুন প্রযুক্তি প্রয়োজন।


একদিকে যেমন, আমি মনে করি এই প্রশ্নটি গুরুত্বপূর্ণ কারণ এটি সংজ্ঞাটি কেন গুরুত্বপূর্ণ তা স্পষ্টভাবে স্পর্শ করে - এটি হ'ল আপনি কার জন্য বিষয়টিকে সংজ্ঞায়িত করছেন। প্রথম-গ্রেডারদের সংযোজনের আলোচনাটি সেট তত্ত্ব দিয়ে শুরু হয় না, এটি দৈহিক বস্তু গণনা প্রসঙ্গে শুরু হয়। আমার অভিজ্ঞতা হয়েছে যে "বিগ ডেটা" শব্দের বেশিরভাগ ব্যবহার জনপ্রিয় সংবাদমাধ্যমে বা পরিসংখ্যান বা মেশিন লার্নিংয়ের বিশেষজ্ঞ নয় এমন ব্যক্তিদের মধ্যে যোগাযোগের ক্ষেত্রে ঘটে (উদাহরণস্বরূপ পেশাদার বিশ্লেষণের জন্য বিপণন উপকরণ), এবং এটি ব্যবহৃত হয় এই ধারণাটি প্রকাশ করুন যে আধুনিক কম্পিউটিং অনুশীলনের অর্থ টুপি রয়েছে এমন উপলভ্য তথ্যের প্রচুর পরিমাণ যা ব্যবহার করা যেতে পারে। এটি প্রায় সর্বদা গ্রাহকদের সম্পর্কে তথ্য প্রকাশের তথ্য প্রসঙ্গে যা সম্ভবত ব্যক্তিগত না হলে অবিলম্বে সুস্পষ্ট নয়।

সুতরাং "বিগ ডেটা" এর সাধারণ ব্যবহারকে ঘিরে রূপক এবং বিশ্লেষণও এ ধারণার সাথে বহন করে যে ডেটাটি কোনও ব্যক্তির জীবনের গোপনীয়তা বা গোপনীয়তা এমনকি ব্যক্তিগত বিবরণ প্রকাশ করতে পারে, পর্যাপ্ত অনুমানমূলক পদ্ধতির প্রয়োগ সরবরাহ করে। মিডিয়া যখন বড় ডেটা সম্পর্কে রিপোর্ট করে, নাম প্রকাশের এই অবনতি সাধারণত তারা কীভাবে চালাচ্ছে - "বড় ডেটা" কী তা সংজ্ঞায়িত করা এই আলোকে কিছুটা পথভ্রষ্ট বলে মনে হয়, কারণ জনপ্রিয় প্রেস এবং ননস্পেশালিস্টদের এলোমেলো যোগ্যতার জন্য কোনও উদ্বেগ নেই। বন এবং সমর্থন ভেক্টর মেশিন এবং আরও অনেক কিছু, না তাদের বিভিন্ন স্কেলের ডেটা বিশ্লেষণের চ্যালেঞ্জগুলির কোনও ধারণা নেই। এবং এই ঠিক আছে।তাদের দৃষ্টিকোণ থেকে উদ্বেগটি তথ্য বয়সের সামাজিক, রাজনৈতিক এবং আইনী পরিণতিগুলিকে কেন্দ্র করে। মিডিয়া বা ননস্পেশালিস্টদের জন্য একটি সুনির্দিষ্ট সংজ্ঞা সত্যই কার্যকর নয় কারণ তাদের বোঝাপড়াটিও সুনির্দিষ্ট নয়। (আমাকে স্মাগ করে ভাবেন না - আমি কেবল পর্যবেক্ষণ করছি যে প্রত্যেকেই সবকিছুতে বিশেষজ্ঞ হতে পারে না))


7
এই. "আমার অভিজ্ঞতা হয়েছে যে 'বিগ ডেটা' শব্দের বেশিরভাগ ব্যবহার জনপ্রিয় সংবাদমাধ্যমে বা পরিসংখ্যান বা মেশিন লার্নিংয়ে বিশেষজ্ঞ নয় এমন লোকদের মধ্যে যোগাযোগের ক্ষেত্রে ঘটে (উদাহরণস্বরূপ পেশাদার বিশ্লেষণের জন্য বিপণন উপকরণ)"
মোমো

2
আমি মনে করি আপনি আপনার শেষ অনুচ্ছেদে মাথায় পেরেকটি আঘাত করেছেন। আমি মনে করি যে জনপ্রিয় প্রেস বোঝার মধ্যে এবং পরিসংখ্যান / এমএল / ডেটা সায়েন্সের লোকেরা বড় ডেটা শব্দটিকে কী বলে মনে করে তার মধ্যে খুব স্পষ্ট ব্যবধান রয়েছে। আমি কেবল অনুভব করি যে এটি আসলে কী তা সম্পর্কে আরও স্পষ্ট conক্যবদ্ধ হওয়া দরকার। এর একটি কারণ এমন একটি রেফারেন্স পাওয়া যায় যে লোকেরা শব্দটি ব্যবহার করতে পারে না বা যখন এটি স্পষ্টত প্রযোজ্য না হয় তখন অপব্যবহার করতে পারে না।
গুমেও

1
আমি মনে করি আমি আরও বেশি করে আপনার সাথে একমত হতে শুরু করি। আমি এখনও অনুভব করি যে সিভির একটি রেফারেন্স প্রশ্ন দরকার, যেখানে আগ্রহী এবং বিষয়টিতে আগ্রহী ব্যক্তিরা বিষয়টি সম্পর্কে তাদের দুটি সেন্ট রেখেছেন। আমি এখানে প্রশ্নগুলি খুঁজছিলাম এবং আমি অনুভব করেছি যে এই আলোচনার অভাব রয়েছে।
গুমেও

1
আমি মনে করি এটি একটি মূল্যবান কথোপকথন, এবং আপনি প্রশ্ন জিজ্ঞাসা করে খুশি! এবং আমি খুশি যে আপনি আমার মন্তব্যগুলি সহায়ক বলে খুঁজে পেয়েছেন।
মনিকা 21

1
আমি একাধিক কারণে এই উত্তরটি ভালবাসি। প্রথমত, আমি মনে করি এটি জোর দেওয়া সত্যিই গুরুত্বপূর্ণ যে এটি বিশ্লেষণ করতে ব্যবহৃত অ্যালগরিদমগুলির সাথে "বিগ ডেটা" এর খুব কম সম্পর্ক রয়েছে। তাদের বেশিরভাগের বয়স 20-30 বছর (এলোমেলো বন, লিনিয়ার রিগ্রেশন ইত্যাদি) এবং তারা ঠিক কাজ করে। শিল্পের কিছু লোক বিশ্বাস করে যে "বিগ ডেটা" অভিনব নতুন অ্যালগরিদমগুলির সাথে একত্রিত হয়, কারণ তারা সম্ভবত জানত না যে মেশিন লার্নিং বহু বছর ধরে রয়েছে। দ্বিতীয়ত, "বিগ ডেটা" আকারের নয়। আপনার যদি 128 গিগাবাইট র‌্যাম সহ একটি সার্ভার উপলব্ধ থাকে এবং মেমরির মধ্যে সমস্ত কিছু ফিট করতে পারেন যা কেবল দুর্দান্ত। (
অবিরত

7

এখানে চিত্র বর্ণনা লিখুন

বিগ ডেটাতে বিশাল সাহিত্য ক্রস করা হচ্ছে, আমি 14 টি "ভি" শর্তাদি সংগ্রহ করেছি, যার মধ্যে প্রায় 11 টি মাত্রা রয়েছে:

  • বৈধতা,
  • মূল্য,
  • পরিবর্তনশীলতা / ভ্যারিয়েন্স,
  • বিভিন্নতা,
  • বেগ,
  • সত্যতা / Veraciousness,
  • কার্যকরতা,
  • বাস্তবিকতা,
  • ভিজুয়ালাইজেশান,
  • উদ্বায়ীতামূলক,
  • ভলিউম।

14 তম শব্দটি শূন্যতা। সাম্প্রতিক একটি উস্কানিমূলক পোস্ট অনুসারে, বিগ ডেটা বিদ্যমান নেই । এর প্রধান বিষয়গুলি হ'ল:

  • "বিগ ডেটা" বড় নয়
  • বেশিরভাগ "বিগ ডেটা" আসলে কার্যকর নয়
  • [আমাদের হওয়া উচিত] ছোট ডেটা সর্বাধিক উপার্জন করা

বিগ ডেটার একটি সঠিক সংজ্ঞা হার্ডওয়্যার, সফ্টওয়্যার, চাহিদা এবং জ্ঞানের সাথে বিকশিত হবে এবং সম্ভবত কোনও নির্দিষ্ট আকারের উপর নির্ভর করবে না। অতএব, বড় তথ্যগুলিতে জব্দযোগ্য স্পেসিফিকেশন : নতুনত্ব, প্রতিযোগিতা এবং উত্পাদনশীলতার জন্য পরবর্তী সীমান্ত , জুন ২০১১:

"বিগ ডেটা" ডেটাসেটগুলিকে বোঝায় যার আকার ক্যাপচার, স্টোর, পরিচালনা এবং বিশ্লেষণের জন্য সাধারণ ডাটাবেস সফ্টওয়্যার সরঞ্জামগুলির সক্ষমতার বাইরে।


1
"শূন্যতা" রেফারেন্স করা নিবন্ধটি ভয়াবহভাবে দুর্বল বলে মনে হচ্ছে। একটি জড়িত রয়েছে যে 30GB ডেটা / দিন বড় নয় (এবং সেই আকারটি সংজ্ঞাটির একমাত্র উপাদান)। আরও, এটি যুক্তিযুক্ত যে কারণ সংস্থাগুলি বলে যে তাদের ডেটা আসলে এটির চেয়ে বড় এটি অর্থ বড় নয়। বড় কোথাও দেওয়া কোন সংজ্ঞা নেই। এবং "বড় নয়" পরামর্শ দেওয়ার জন্য ব্যবহৃত সমস্ত উদাহরণটিতে ভি এর অনেকগুলি তালিকাভুক্ত রয়েছে।
জন

"শূন্যতা" কেবল আকারের ক্ষেত্রে প্রযোজ্য নয়। প্রকৃতপক্ষে, চূড়ান্ত ওয়ান-লাইনারে বিগের সংজ্ঞাটি বোঝানো হয়েছে অনুশীলনের বর্তমান অবস্থার সাথে বিকাশ। অতীতে যা বড় ছিল তা কয়েক বছর পরে ছোট হিসাবে বিবেচনা করা যেতে পারে। এখানে, আমি "বিগ ডেটা" কয়েকটি পদার্থের সাথে ম্যাজিক মন্ত্র হিসাবে ব্যবহৃত হয়, যেখানে উপরের কার্টুনে চিত্রিত হয়েছে সেই ক্ষেত্রে এই শব্দটি ব্যবহার করছিলাম।
লরেন্ট ডুভাল

1
এটি কতটা সম্ভবত সম্ভব যে 14 টি মানদণ্ডগুলি সমস্তই একটি চিঠি দিয়ে শুরু হবে? আমরা এখানে সমস্ত পরিসংখ্যান মনের মানুষ, কমন!
আকসকল

মূলত, আমি একমত, এটি কেবলমাত্র এটি দেখানোর জন্য যে বিগ ডেটার মতো শব্দটি পরিসংখ্যানের চেয়ে বিপণনের ক্ষেত্রের অন্তর্গত। তবে আমি যে শর্তগুলি পড়েছি তার আমার "সংগ্রহ" ভাগ করতে চেয়েছিলাম। এটি 3 ভি, তারপর 5 ভি এবং কখনও কখনও 7 ইত্যাদি দিয়ে শুরু হয়েছে Those এই শব্দটি স্পষ্টভাবে নিজের ডেটাতে থাকা বৈশিষ্ট্যগুলিকে সহায়তা করতে পারে
লরেন্ট ডুভাল

4

মানুষ উপর জমাট বাঁধা বলে মনে হচ্ছে বড় বিগ ডেটা মধ্যে কোয়ালিফায়ার। তবে আকারটি এই শব্দটির (ডোমেন) উপাদানগুলির মধ্যে একটি মাত্র। এটি যথেষ্ট নয় যে আপনার ডেটা সেটটি আপনার সমস্যাটিকে (ডোমেন) একটি বড় ডেটা বলার জন্য বড় ছিল , আপনার বুঝতে এবং বিশ্লেষণ করতে এবং এমনকি প্রক্রিয়া করাও অসুবিধা হতে পারে। কেউ কেউ এই বৈশিষ্ট্যটিকে কাঠামোহীন বলে অভিহিত করেন তবে এটি কেবল কাঠামোই নয় এটি বিভিন্ন টুকরো এবং উপাত্তের উপাদানগুলির মধ্যেও অস্পষ্ট সম্পর্ক।

উচ্চ শক্তি পদার্থবিদরা সিইআরএন এর মতো জায়গায় কাজ করছে এমন ডেটা সেটগুলি বিবেচনা করুন । বিগ ডেটা শব্দটি তৈরির আগে তারা বছরের পর বছর ধরে পেটাবাইট আকারের ডেটা নিয়ে কাজ করছে । তবুও এখন পর্যন্ত তারা এই বড় ডেটাটিকে আমি যতদূর জানি না। কেন? ডেটা বরং নিয়মিত হওয়ার কারণে তারা কী করতে পারে তা জানে। তারা এখনও প্রতিটি পর্যবেক্ষণ ব্যাখ্যা করতে সক্ষম হতে পারে না, তাই তারা নতুন মডেল ইত্যাদিতে কাজ করে etc.

এখন আমরা বিগ ডেটাকে সেই সমস্যাগুলি বলি যেগুলি ডেটা সেটগুলির সাথে মোকাবিলা করে যা মাপের সিআরএন-এর এলএইচসি থেকে কয়েক সেকেন্ডের মধ্যে তৈরি হতে পারে izes কারণটি হ'ল এই ডেটা সেটগুলি সাধারণত বিভিন্ন ফর্ম্যাট সহ উত্সের সংখ্যার উত্স থেকে আসা ডেটা উপাদানগুলির হয়, ডেটা এবং ব্যবসায়ের অনিশ্চিত মানের মধ্যে অস্পষ্ট সম্পর্ক। এটি কেবল 1 টিবি হতে পারে তবে সমস্ত অডিও, ভিডিয়ো, পাঠ্য, বক্তৃতা ইত্যাদির প্রক্রিয়া করা এত কঠিন So আমাদের ডেটা সেটে বোধগম্য দরকারী তথ্য আছে কি না তা আমরা জানি না।

সুতরাং, বিগ ডেটা সমস্যার সমাধানে পার্সিং করা, অজানা মানের ডেটা উপাদানগুলি বের করা, তারপরে একে অপরের সাথে সংযুক্ত করা জড়িত। কোনও চিত্রকে "পার্সিং" করা নিজে থেকে একটি বড় সমস্যা হতে পারে। বলুন, আপনি শহরের রাস্তাগুলি থেকে সিসিটিভি ফুটেজগুলি সন্ধান করছেন যে লোকেরা ক্ষিপ্ত হচ্ছে কিনা এবং পথচারীদের জড়িত সড়ক দুর্ঘটনায় এর প্রভাব পড়ে কিনা তা দেখার চেষ্টা করছেন। এখানে একটি টন ভিডিও রয়েছে, আপনি মুখগুলি খুঁজে পান, তাদের মেজাজটি এক্সপ্রেশন দিয়ে গেজ করার চেষ্টা করুন, তারপরে এটি আবহাওয়ার (প্রাকৃতিকরণ, তাপমাত্রা) এবং ট্র্যাফিক যানজটের জন্য নিয়ন্ত্রণ করার সময় দুর্ঘটনার ডেটা সেটগুলি, পুলিশ রিপোর্টগুলি ইত্যাদির সাথে যুক্ত করুন .. আপনার স্টোরেজ এবং বিশ্লেষণমূলক সরঞ্জামগুলি প্রয়োজন যা বিভিন্ন ধরণের এই বড় ডেটা সেটগুলিকে সমর্থন করে এবং দক্ষতার সাথে একে অপরের সাথে ডেটা লিঙ্ক করতে পারে।

বিগ ডেটা একটি জটিল বিশ্লেষণ সমস্যা যেখানে জটিলতা নিচু আকার এবং এর মধ্যে কাঠামো এবং তথ্যের এনকোডিংয়ের জটিলতা উভয় থেকেই পাওয়া যায়।


ভাল ইনপুট। এলএইচসি এবং সিসিটিভি ডেটা সমস্যার মধ্যে আপনি যে বিপরীতে দেন তা হ'ল লোকেরা প্রায়শই মিস করে।
গুমেও

3

আমি মনে করি যে লোকেরা বিগ ডেটা কী তা নিয়ে বিভ্রান্ত হওয়ার কারণ হ'ল তারা এর সুবিধা দেখতে পায় না। বিগ ডেটা (কৌশল) এর মান কেবলমাত্র আপনি যে পরিমাণ ডেটা সংগ্রহ করতে পারবেন তা নয়, ভবিষ্যদ্বাণীমূলক মডেলিংয়েও অবশেষে আরও গুরুত্বপূর্ণ:

  1. ভবিষ্যদ্বাণীপূর্ণ মডেলিং পুরোপুরি পরিবর্তিত হয়েছে যেভাবে আমরা পরিসংখ্যান এবং ভবিষ্যদ্বাণী করি, এটি আমাদের উপাত্তগুলিতে আরও বৃহত্তর অন্তর্দৃষ্টি দেয় কারণ নতুন মডেল, নতুন কৌশলগুলি আরও ভাল প্রবণতাগুলি সনাক্ত করতে পারে, উপাত্তের শোরগোলগুলি "মাল্টি" -ডাইমেনশনাল ডাটাবেস ক্যাপচার করতে পারে। আমাদের ডাটাবেসে আমাদের আরও বেশি মাত্রা রয়েছে, আমরা আরও ভাল মডেল তৈরি করতে পারি। ভবিষ্যদ্বাণীপূর্ণ মডেলিং হ'ল বিগ ডেটার মান heart
  2. বিগ ডেটা (ডেটা আকারের শর্তে) প্রাথমিক পদক্ষেপ এবং এর দ্বারা ভবিষ্যদ্বাণীপূর্ণ মডেলিং পরিবেশন করার জন্য রয়েছে: ডেটাবেস সমৃদ্ধ করুন: ভবিষ্যদ্বাণীকারীদের সংখ্যা (আরও ভেরিয়েবল), পর্যবেক্ষণের সংখ্যা 2.

আরও ভবিষ্যদ্বাণীকারীরা কারণ আমরা এখন এমন ডেটা ক্যাপচার করতে সক্ষম হয়েছি যা আগে ক্যাপচার করা অসম্ভব ছিল (সীমিত হার্ডওয়্যার পাওয়ার কারণে, অপ্রকাশিত ডেটাতে কাজ করার সীমাবদ্ধ ক্ষমতা)। আরও ভবিষ্যদ্বাণীকারীদের অর্থ ব্যবসায়ের জন্য উল্লেখযোগ্য ভবিষ্যদ্বাণী হওয়ার আরও সম্ভাবনা, অর্থাত্ আরও ভাল মডেল, আরও ভাল ভবিষ্যদ্বাণী, আরও ভাল সিদ্ধান্ত নেওয়া যেতে পারে।

আরও পর্যবেক্ষণগুলি সময়ের সাথে মডেলটিকে কেবল আরও দৃ make় করে তোলে না, বরং মডেলটিকে বাস্তবতার সাথে উপস্থাপিত / উত্পন্ন করা যায় এমন প্রতিটি সম্ভাব্য নিদর্শনগুলি শিখতে / সনাক্ত করতে সহায়তা করে।


3

বিগ ডেটা বনাম বনাম সম্পর্কিত কৌতুকময় জিনিস (সম্ভবত ছোট ডেটা?) এটি একটি ধারাবাহিকতা। লোকেরা স্পেকট্রামের একদিকে চলে গেছে, ছোট ডেটা লোকেরা অন্য দিকে চলে গেছে, তবে বালিতে কোনও স্পষ্ট লাইন নেই যার সাথে সবাই একমত হতে পারে।

আমি উভয়ের মধ্যে আচরণগত পার্থক্য তাকান। ছোট ডেটা পরিস্থিতিতে আপনার কাছে একটি "ছোট" ডেটাসেট থাকে এবং আপনি যতটা সম্ভব আমাদের তথ্য-পয়েন্টের যতটা সম্ভব তথ্য স্যুইজ করতে চান। আরও ডেটা পান, আপনি আরও ফলাফল পেতে পারেন। তবে আরও ডেটা পাওয়া ব্যয়বহুল। একটি সংগ্রহ করা ডেটা প্রায়শই গাণিতিক মডেলগুলির সাথে মানিয়ে নিতে বাধ্য হয় যেমন আকর্ষণীয় আচরণের জন্য স্ক্রিনে টেস্টের আংশিক ফ্যাক্টরিয়াল করা।

বড় ডেটা পরিস্থিতিতে আপনার একটি "বড়" ডেটাসেট থাকে তবে আপনার ডেটাসেটটি তেমন সীমাবদ্ধ নয়। বিশ্লেষণকে আরও সহজ করার জন্য আপনি সাধারণত গ্রাহকদের ল্যাটিন-স্কোয়ারের আসবাব কেনার জন্য বোঝাতে পারেন না। পরিবর্তে আপনার কাছে খারাপ কাঠামোগত ডেটা গবস এবং গবস রয়েছে। এই সমস্যাগুলি সমাধান করার জন্য, লক্ষ্যটি "সর্বোত্তম ডেটা নির্বাচন না করে এবং এটির বাইরে থেকে আপনি যা কিছু করতে পারেন তা নষ্ট করে না" যেমন ঝুঁকির সাথে চেষ্টা করে যদি কোনও ছোট তথ্য ব্যবহার করে তবে নির্লজ্জভাবে চেষ্টা করতে পারে। লক্ষ্যটি আরও বেশি প্রবণতাযুক্ত থাকে "যদি আপনি প্রতিটি একক ডেটাপয়েন্ট থেকে কেবল একটি ক্ষুদ্র স্মিডজেন পেতে পারেন তবে যোগফলটি বিশাল এবং গভীর হবে।"

তাদের মধ্যে ঠিক আছে কাঠামো সহ মাঝারি আকারের ডেটা সেট রয়েছে। এগুলি "সত্যই কঠিন সমস্যা", তাই এখনই আমরা দুটি শিবিরে সংগঠিত করার প্রবণতা রাখি: একটি ছোট তথ্য সহ প্রতিটি শেষ বিট কেটে নিচ্ছে এবং অপরটি বড় ডেটা দিয়ে প্রতিটি ডাটা পয়েন্টকে তার নিজের মতো করে আলোকিত করার চেষ্টা করে ঠিক আছে। আমরা যেমন এগিয়ে যাচ্ছি, আমি আরও ছোট-ডেটা প্রক্রিয়াগুলি বৃহত্তর ডেটা-সেটগুলিতে খাপ খাইয়ে নেওয়ার চেষ্টা করছে এবং আরও বড়-ডেটা প্রক্রিয়াগুলি আরও কাঠামোগত ডেটা লাভের সাথে খাপ খাইয়ে নেওয়ার চেষ্টা করার প্রত্যাশা করি।


আপনার ক্ষুদ্র তথ্যের বৈশিষ্ট্যটি বিশ্লেষণে বেমের বইয়ের মতো মনে হচ্ছে। দয়া করে এর সমালোচনাগুলি দেখুন কারণ এটি ব্যক্তিগত অনুসন্ধানের পরিবর্তে ভবিষ্যতের ডেটা সংগ্রহের ভিত্তিতে ছোট ছোট ডেটাসেটের চিকিত্সা করার অনুপযুক্ত উপায়।
জন

@ জন আমাকে হয়ত সেগুলি দেখতে হবে। সমালোচনা কি যথেষ্ট যে আমি এমনকি ধারাবাহিকতা বর্ণনা করার জন্য বিন্দু হিসাবে চরিত্রায়নটি ব্যবহার করতে পারি না?
কর্ট অ্যামোন

এখানে toুকতে খুব আগ্রহী তবে প্রয়োজনীয় বার্তাটি হ'ল ছোট ডেটা দিয়ে প্রতিটি ডেটাপয়েন্টে আপনি যা কিছু করতে পারেন তা নষ্ট করবেন না । সম্ভবত গুগল জেলম্যান এবং ফোর্কিং পাথস; বা, পরীক্ষার স্বাধীনতার ডিগ্রি। আপনাকে ছোট এবং বড় ডেটা বিশ্লেষণ সম্পর্কে আলাদাভাবে চিন্তা করতে হবে, কেবল একটি ধারাবাহিকের পয়েন্ট হিসাবে নয়।
জন

3

আমি বলব যে তিনটি উপাদান রয়েছে যা বড় ডেটা সংজ্ঞায়িত করার জন্য প্রয়োজনীয়: বিশ্লেষণের দিকনির্দেশনা, জনসংখ্যার প্রতি সম্মানের সাথে উপাত্তের আকার এবং গুণগত সমস্যার ক্ষেত্রে ডেটার আকার।

প্রশ্নটি নিজেই পোস্ট করে যে ডেটা উপস্থিত থাকার পরে অনুমানগুলি তৈরি করা হয়। আমি "সংগৃহীত" ব্যবহার করি না কারণ মনে হয় "সংগৃহীত" শব্দটি একটি উদ্দেশ্যকে বোঝায় এবং ডেটা প্রায়শই অজানা উদ্দেশ্যটির জন্য উপস্থিত থাকে। সংগ্রহের কাজটি প্রায়শই একটি তথ্যের পরিষেবায় বিদ্যমান ডেটা একত্রিত করে বড় ডেটাতে ঘটে।

দ্বিতীয় গুরুত্বপূর্ণ অংশটি হ'ল এটি কেবল কোনও ডেটা নয় যার জন্য এই পোস্ট বিশিষ্ট বিশ্লেষণ, যাকে ছোট ডেটাসেটের সাহায্যে অনুসন্ধানী বিশ্লেষণ বলা হবে এটি উপযুক্ত। এটি পর্যাপ্ত আকারের হওয়া উচিত যে এটি বিশ্বাস করা হয় যে এটি থেকে সংগৃহীত অনুমানগুলি জনসংখ্যার অনুমানের নিকটবর্তী যে অনেক ছোট নমুনা ইস্যু উপেক্ষা করা যেতে পারে। এ কারণে আমি কিছুটা উদ্বিগ্ন যে একযোগে তুলনা সংশোধনের দিকে মাঠে এখনই একটি ধাক্কা আছে। আপনার যদি পুরো জনসংখ্যা থাকে বা আপনার কাছে বিশ্বাস করার উপযুক্ত কারণ রয়েছে এমন একটি আনুমানিকতা বৈধ হয় তবে এই ধরনের সংশোধনগুলি মোটা হওয়া উচিত। যদিও আমি বুঝতে পারি যে এটি ঘটে যায় যে কখনও কখনও এমন সমস্যা তৈরি হয় যা "বিগ ডেটা" কে একটি ছোট নমুনায় পরিণত করে (যেমন বড় লজিস্টিক রিগ্রেশন), এটি একটি নির্দিষ্ট প্রশ্নের জন্য একটি বড় নমুনা কী তা বোঝার জন্য নেমে আসে। একাধিক তুলনামূলক প্রশ্নগুলির পরিবর্তে এফেক্ট আকারের প্রশ্নগুলিতে পরিণত করা উচিত। এবং অবশ্যই, আপনি আলফা = 0.05 এর সাথে পরীক্ষাগুলি ব্যবহার করবেন এমন পুরো ধারণাটি যেমন এখনও অনেকগুলি বড় ডেটা দিয়ে থাকে কেবল অবাস্তব।

এবং পরিশেষে, ছোট জনগোষ্ঠী যোগ্যতা অর্জন করে না। কিছু ক্ষেত্রে খুব কম জনসংখ্যা রয়েছে এবং এটি খুব সহজেই পরীক্ষা করে দেখার জন্য প্রয়োজনীয় সমস্ত ডেটা সংগ্রহ করতে পারে এবং প্রথম দুটি মানদণ্ড পূরণ করার অনুমতি দেয়। ডেটা পর্যাপ্ত পরিমাণের হওয়া দরকার যা এটি একটি গণনামূলক সমস্যা হয়ে ওঠে। এইরূপে, কিছু উপায়ে আমাদের অবশ্যই স্বীকার করতে হবে যে "বিগ ডেটা" একটি ক্ষণস্থায়ী গুঞ্জন শব্দ এবং সম্ভবত কঠোর সংজ্ঞা অনুসন্ধানের জন্য একটি ঘটনা হতে পারে। "বিগ ডেটা" কে এখন বড় করে তোলার কিছু জিনিস কয়েক অল্প বছরে অদৃশ্য হয়ে যাবে এবং কম্পিউটারের ক্ষমতার উপর ভিত্তি করে হ্যাডলির মতো সংজ্ঞাটি উদ্বেগজনক বলে মনে হবে। তবে অন্য স্তরের গণ্য সমস্যাগুলি এমন প্রশ্নগুলি যা কম্পিউটারের ক্ষমতা বা সম্ভবত কম্পিউটারের ক্ষমতা সম্পর্কে নয় যা কখনই সমাধান করা যায় না। আমি মনে করি যে সেই অর্থে সংজ্ঞায়নের সমস্যাগুলি "

একটি নোট করতে পারে যে আমি এই ডোমেনটির জন্য একটি হার্ড গণনাগত সমস্যাটি এর উদাহরণ বা দৃ definition় সংজ্ঞা প্রদান করিনি (সাধারণভাবে কমপ সায়েন্সে প্রচুর উদাহরণ রয়েছে এবং কিছু প্রয়োগযোগ্য, যা আমি প্রবেশ করব না)। আমি কোনও বানাতে চাই না কারণ আমি মনে করি এটি কিছুটা উন্মুক্ত থাকতে হবে। সময়ের সাথে সাথে অনেক লোকের সংগৃহীত কাজগুলি এই সময়ে হার্ডওয়ারের চেয়ে সফ্টওয়্যার বিকাশের মাধ্যমে এ জাতীয় জিনিসগুলি সহজ করে তুলতে একত্রিত হয়। সম্ভবত এই শেষ প্রয়োজনটিকে আরও দৃ bound়ভাবে আবদ্ধ করার জন্য ক্ষেত্রটি আরও পুরোপুরি পরিপক্ক হতে হবে তবে কিনারা সবসময় অস্পষ্ট থাকবে।


আপনার ইনপুট জন্য ধন্যবাদ! আমি মনে করি আপনি এই থ্রেডের জন্য মূল্যবান অন্তর্দৃষ্টি সরবরাহ করেছেন। আমি মনে করি যে জনসংখ্যা আঁকাগুলির আকারটি এখানে কিছুটা উপেক্ষা করা হয়েছে।
গুমেও

1

উইকিপিডিয়া বেশ স্পষ্ট সংজ্ঞা প্রদান করে

বিগ ডেটা এত বড় বা জটিল ডেটা সেট করার জন্য একটি বিস্তৃত শব্দ যা প্রচলিত ডেটা প্রসেসিং অ্যাপ্লিকেশনগুলি অপর্যাপ্ত quate (উত্স https://en.wikedia.org/wiki/Big_data )

অন্যান্য সহজ সংজ্ঞা আমি জানি

ডেটা যা কম্পিউটারের স্মৃতিতে ফিট করে না।

দুর্ভাগ্যক্রমে আমি এর জন্য রেফারেন্স মনে করি না। এই সংজ্ঞাগুলি থেকে অন্য সমস্ত কিছুই উদ্ভূত হয় - আপনাকে কোনও পরিমাণে বড় পরিমাণে ডেটা নিয়ে ডিল করতে হয়।


0

আমি যুক্ত করব যে বিগ ডেটা হয় হয় বড় ডেটা-সেট (মিলিয়ন এবং / অথবা কোটি কোটি সারি) নিয়ে কাজ করার বা আপনি যে কোনও জায়গায় এখন সংগ্রহ করতে পারেন এমন বিস্তৃত ডেটা রিসোর্সের তথ্য / নিদর্শনগুলি খুঁজে পাওয়ার চেষ্টা করে।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.