একটি "ডেটা সেট" বলতে আসলে কী বোঝায়?


10

এটি কি কেবল ডাটা পয়েন্টের সমষ্টি? অথবা এটি বিভিন্ন ভেরিয়েবলের মানগুলির সাথে সজ্জিত একটি সারণী বিন্যাসে বিভিন্ন উপাদানগুলির জন্য ডেটা পয়েন্টগুলির উপস্থাপনা? এটি কাঁচা ডেটা থেকে কীভাবে আলাদা?


"ডেটা পয়েন্ট" বলতে কী বোঝায়, আপনি কি এটি কমপক্ষে 2 ডি হওয়ার আশা করেন? একটি টাইম-সিরিজ বা পরীক্ষার স্কোরগুলির একটি সেট একটি ডেটা সেট হতে পারে; সর্বনিম্ন এগুলি কেবলমাত্র একটি ভেরিয়েবলের সিরিজ হতে পারে, সম্ভবত সারি লেবেল ছাড়াই। @ ফ্র্যাঙ্কডারননকোর্টের উত্তর অনুসারে
স্মি

1
আমি সত্যিই কেবল এটি ডেটা সংগ্রহ মনে করি। আমি অবশ্যই এই শব্দটি ব্যবহার করি। আমি মনে করি না এর খুব বেশি কিছু আছে। ডেটা "কাঁচা" বা প্রাক প্রসেসসড বা পরিষ্কার করা ইত্যাদি ইত্যাদি অরথোগোনাল।
গুং - মনিকা পুনরায়

উত্তর:


9

আমার অভিজ্ঞতায়, "ডেটাসেট" (বা "ডেটা সেট") একটি অনানুষ্ঠানিক শব্দ যা ডেটা সংগ্রহকে বোঝায়। সাধারণত একটি ডেটাসেটে একাধিক ভেরিয়েবল থাকে এবং একক বিষয় নিয়ে উদ্বেগ প্রকাশ করে; এটি সম্ভবত একটি একক নমুনা উদ্বেগ।

একটি ক্রস আমি প্রায়শই দেখি যে ক্রস বৈধীকৃত প্রশ্নগুলি লেখকরা "ডেটাসেট" কে "পরিবর্তনশীল" বা "ভেক্টর" এর প্রতিশব্দ হিসাবে ব্যবহার করেন।


3
ডেটাसेट বনাম ভেরিয়েবল বা ভেক্টরের সাথে সম্মত। "আমার কাছে একটি ডেটা রয়েছে" তেমন "আমাকে একটি ডেটা" দিয়ে শুরু করবেন না। বিপরীতভাবে, "আমার কাছে একটি ডেটাসেট আছে" কোনওভাবেই জ্বালা না করার এক দুর্দান্ত উপায়, যাঁরা জোর দিয়ে থাকেন যে ডেটাটি বহুবচনের বিষয় বা যারা এই জেদটিকে পেডেন্টিক হিসাবে বিবেচনা করে তাদের বিরক্ত করছেন, তারা যদি এ সম্পর্কে কিছু চিন্তা করেন তবে।
নিক কক্স

3
@ নিককক্স "ডেটা" নিয়ে ব্যাকরণ যুদ্ধে আমি সবচেয়ে কম জনপ্রিয় দলের মধ্যে রয়েছি, যা দাবি করে যে "ডেটা" একটি গণ্য বিশেষ্য।
কোডিওলজিস্ট

3
আমি সন্দেহ করি যে এটি এখন সংখ্যাগরিষ্ঠ এবং আরও দৃ strongly়ভাবে মনে হয় এটি জনপ্রিয়তা অর্জন করছে।
নিক কক্স

8

আমি মনে করি যে উইকিপিডিয়া এটি সংজ্ঞায়িত করার জন্য একটি উপযুক্ত কাজ করে:

সর্বাধিক সাধারণভাবে একটি ডেটা সেট একক ডাটাবেস টেবিলের বিষয়বস্তু বা একটি একক পরিসংখ্যানের ডেটা ম্যাট্রিক্সের সাথে মিলে যায়, যেখানে সারণির প্রতিটি কলাম একটি নির্দিষ্ট ভেরিয়েবলকে উপস্থাপন করে এবং প্রতিটি সারি প্রশ্নযুক্ত ডেটার সেট প্রদত্ত সদস্যের সাথে মিলে যায়। ডেটা সেট প্রতিটি ভেরিয়েবলের জন্য মানগুলির তালিকা করে, যেমন কোনও সামগ্রীর উচ্চতা এবং ওজন, ডেটা সেটের প্রতিটি সদস্যের জন্য। প্রতিটি মান একটি ডেটাম হিসাবে পরিচিত। ডেটা সেটটিতে এক বা একাধিক সদস্যের জন্য, সারিগুলির সংখ্যার সাথে সম্পর্কিত ডেটা থাকতে পারে।

নির্দিষ্ট ডেটা সেট শব্দটি আরও looseিলে .ালাভাবে ব্যবহার করা যেতে পারে, নির্দিষ্ট পরীক্ষা বা ঘটনার সাথে সম্পর্কিত, ঘনিষ্ঠভাবে সম্পর্কিত টেবিলগুলির সংকলনের ডেটা উল্লেখ করতে। এই ধরণের একটি উদাহরণ স্পেস এজেন্সি দ্বারা সংগ্রহ করা ডেটা সেট যা মহাকাশ তদন্তকারী জাহাজগুলির সাথে পরীক্ষাগুলি সম্পাদন করে।

উন্মুক্ত ডেটা শৃঙ্খলে, ডেটাসেট হ'ল একক যা পাবলিক ওপেন ডেটা সংগ্রহস্থলে প্রকাশিত তথ্য পরিমাপ করে। ইউরোপীয় ওপেন ডেটা পোর্টালটি অর্ধ মিলিয়নেরও বেশি ডেটাসেটকে একত্রিত করে। এই ক্ষেত্রে অন্যান্য সংজ্ঞা প্রস্তাব করা হয়েছে কিন্তু বর্তমানে একটি সরকারী একটি নেই। কিছু অন্যান্য ইস্যু (রিয়েল-টাইম ডেটা উত্স, অ-সম্পর্কযুক্ত ডেটাসেটস ইত্যাদি) এ সম্পর্কে conকমত্যে পৌঁছতে অসুবিধা বাড়িয়ে তোলে।

আপনি দেখতে পাচ্ছেন, শব্দটি কিছুটা অস্পষ্ট।


এবং কম্পিউটার ভিশন সেটিংয়ে, একটি ডেটা সেট কেবল প্রাকৃতিক চিত্র এবং তাদের লেবেল বা টীকাগুলির সংকলন হতে পারে।
সাইকোরাক্স মনিকা

"ডাটাবেস *" বলতে কী বোঝায়
অঙ্কিত

ঐতিহ্যগত সি এস অর্থ @ankit en.wikipedia.org/wiki/Database
ফ্রাঙ্ক Dernoncourt

@ সাইকোরাক্স হ্যাঁ, আমি অনুমান করি যে আমরা একটি চিত্র (বা অন্য কোনও সংকেত) ডাটাবেসে একটি ব্লব ড্যাটুম হিসাবে বিবেচনা করতে পারি।
ফ্রাঙ্ক ডারননকোর্ট

7

আমি মনে করি আপনি ডেটা সেটটি সংজ্ঞায়িত করার আগে আপনাকে ডেটা পয়েন্টটি সংজ্ঞায়িত করার দরকার হতে পারে : কেন একটি আদিম এবং সংজ্ঞা প্রয়োজন হয় না, তবে বিপরীত নয়?

কমপক্ষে দুটি সংজ্ঞা আমার কাছে অর্থবোধ করে:

  1. এক বা একাধিক ভেরিয়েবল (ক্ষেত্র। কলাম) এর জন্য এক বা একাধিক পর্যবেক্ষণ (কেস, রেকর্ডস, সারি)।

  2. পছন্দের প্রোগ্রাম দ্বারা পঠনযোগ্য কোনও ফাইলের মধ্যে যা কিছু ডেটা হিসাবে সংরক্ষণ করা হয়।

সারণী বিন্যাসটি সাধারণ তবে আমার মনে হয় না এটি কোনও সংজ্ঞার অংশ; কীভাবে ডেটা সংরক্ষণ করা হয় তা প্রাকৃতিকভাবে গুরুত্বপূর্ণ হতে পারে।

পিএস "ফর্ম্যাট" শব্দটি এতটাই বোঝা হয়ে গেছে যে আমার কাছে এটি সবচেয়ে ভালভাবে এড়ানো সম্ভব যদি না নির্বিঘ্নভাবে নির্দিষ্ট না করা হয়। আমি এটি ব্যবহার করে দেখেছি

  1. সাধারণ বা নির্দিষ্ট পাঠ্য বা বাইনারি ফাইল ফর্ম্যাট

  2. ডেটা স্ট্রাকচার, যেমন টেবুলার বা অন্যান্য

  3. ডেটা স্টোরেজ বা পরিবর্তনশীল ধরণের, যেমন বিট, পূর্ণসংখ্যা, বাস্তব, অক্ষর

  4. প্রদর্শন বিন্যাস নিয়ন্ত্রণ উপস্থাপনা, যেমন দশমিক স্থান সংখ্যার বিশদ; দশমিক, হেক্সাডেসিমাল বা বাইনারি প্রদর্শন।


6

ইতিমধ্যেই কিছু ভাল এখানে উত্তর এবং আমি মনে করি না আমি কোন নিক কক্সবাজার বা ফ্রাঙ্ক Dernoncourt কিনা "ডেটা সেটটি" বোঝায় ইস্যু চেয়ে গভীর পশা পারেন না ধারণাগত সংগ্রহ সংক্রান্ত ডেটা, অথবা বিশেষ ব্যবস্থা মধ্যে যারা তথ্য যেমন এর একটি টেবিল / ম্যাট্রিক্স বা কম্পিউটার-পঠনযোগ্য ফাইল। ফ্রাঙ্কের নিষ্কর্ষে ধারাবাহিকভাবে সংগৃহীত ডেটা বা কয়েকটি টেবিল জুড়ে ছড়িয়ে পড়া ডেটার মতো প্রান্তের মামলাগুলির উল্লেখ রয়েছে, যা যদি আপনি ধরে নেন যে একটি সাধারণ সংজ্ঞা হতে চলেছে। (সমস্ত পরিসংখ্যান সফ্টওয়্যার এটিকে পরিচালনা করতে পারে না, তবে একাধিক টেবিলের সাথে সম্পর্কিত একটি ডাটাবেসে ডেটা সংরক্ষণ করা হয় এমন কোনও ক্ষেত্রে কল্পনা করা খুব সহজ the পুরো ডাটাবেসটি কি একক "ডেটাসেট"?)

তবে আমি একটি জিনিস যোগ করব যে ডেটাসেটগুলি সাধারণত সেটগুলি হয় না, গাণিতিক দিক থেকে! সেনসু স্ট্রিকো হয় একটি সেটে কোনও অবজেক্ট থাকে বা এটিতে থাকে না, তবে সেই বস্তুর একাধিক অনুলিপি থাকতে পারে না। যদি আমি আটবার ডাই রোল করি এবং 1, 4, 3, 5, 5, 4, 6, 4 স্কোর করি তবে স্কোরগুলির সেট সেটটি কেবল {1, 3, 4, 5, 6} হয়} নোট করুন যে উপাদানগুলি যে কোনও ক্রমে হতে পারে, আমি কেবল তাদেরকে মূল্যের উপরে আরোহণে লিখেছি তবে সেটটি {5, 4, 1, 6, 3 mathe গাণিতিকভাবে এর সমান, উদাহরণস্বরূপ। যদিও আমরা সাধারণত কোনও ডেটাসেট বলতে বোঝাতে পারি না এটি!

এক্স¯=1এনΣআমি=1এনএক্সআমিএক্স1এক্স2

তবে ভেক্টর কেবল একটি ভেরিয়েবল রেকর্ডিংয়ের জন্য - বেশ কয়েকটি ক্ষেত্রে, অর্ডার সংরক্ষিত টেবুলেটে ম্যাট্রিক্স ব্যবহার করা আরও সুবিধাজনক হতে পারে। সময়ের সাথে সাথে ভক্সেলের ত্রিমাত্রিক গ্রিডের সম্পত্তি পরিমাপ করার মতো আরও পরিশীলিত পরিস্থিতির জন্য, আপনি এমনকি কোনও সেন্সরে ডেটা সাজানোর ক্ষেত্রেও এগিয়ে যেতে পারেন (উদাহরণস্বরূপ এই প্রশ্নটি দেখুন )।

তবে মনে রাখবেন যে ধারণাগতভাবে কোনও মাল্টিসিট বেশিরভাগ সহজ পরিস্থিতিতে যথেষ্ট হতে পারে, এমনকি এটি ব্যবহারিক উদ্দেশ্যে অসুবিধে না হলেও। যদি আমি ডাই রোলিংয়ের সাথে একই সাথে একটি মুদ্রা ছুঁড়ে ফেলেছিলাম এবং দুটি ফলাফল একসাথে রেকর্ড করতে চাইতাম তবে আমি mult (1, এইচ), (3, টি), (4, এইচ), (4, এইচ) এর মতো একটি মাল্টিসেট ব্যবহার করতে পারি ), (4, টি), (5, এইচ), (5, টি), (6, টি) a ম্যাট্রিক্সের পরিবর্তে। একটি সাধারণ সেট যথেষ্ট হবে না, কারণ এটি উদাহরণস্বরূপ (4, এইচ) এর গুণমান গণনা করবে না।


1
আমি এই ধারণাটি কিনতে পারি যে কোনও ডেটাসেটটি কেবল রিঙ্কেলের সাথে পর্যবেক্ষণের একটি সেট যা এটি আলাদা করার জন্য তাদের সনাক্তকারীদের প্রয়োজন হতে পারে। তবে আপনি ঠিক বলেছেন যে এখানে অর্থটি সেট থিয়োরি থেকে কিছুটা দূরে। আপনি এখানে ইঙ্গিত হিসাবে আন্ডারলাইন, যে পর্যবেক্ষণ ক্রম প্রায়শই গুরুত্বপূর্ণ এবং প্রায়শই হবে, কিন্তু সর্বদা নয়, সময় বা অন্য ক্রম পরিবর্তনশীল (গুলি) দ্বারা দেওয়া হবে।
নিক কক্স

@ নিককক্স (+1) প্রকৃতপক্ষে যা প্রকাশ করার জন্য আমি সময় বা ততোধিক উপায় খুঁজে পাইনি তা হ'ল পর্যবেক্ষণগুলি প্রায়শই সনাক্তকারী - কখনও কখনও অস্থায়ী, কখনও কখনও অবস্থান ভিত্তিক, কখনও কখনও উভয়ের সাথে আসে। যখন আমরা কোনও ভেক্টর, ম্যাট্রিক্স বা টেনসরে ডেটা এনকোড করি, যা প্রায়শই সরাসরি আমাদের পছন্দ মতো কাঠামো সরবরাহ করে এবং একটি স্পষ্টত সনাক্তকারী (একটি হার্ড-কোডেড সূচকের মতো) অযৌক্তিকভাবে রেন্ডার করা যেতে পারে, বিশেষত যদি এটি কেবল অর্ডার বা আপেক্ষিক অবস্থানের জন্য গুরুত্বপূর্ণ। এই সমস্ত জন্য একটি সঠিক পরিভাষা আছে সন্দেহ নেই।
সিলভারফিশ

আমার কোনও সমস্যা নেই ডাব্লু / বলছে যে আদেশের কোনও ব্যাপার নেই। এটি ডাব্লু / আইএ একক চলক নয়। যখন আপনার এক্স-মানগুলি জোড় /, বলুন, পরিমাপের সময় থাকে তখন অর্ডারগুলি বিষয়গুলি অর্ডার করে। তবে তারপরে, আমরা সত্যিই পয়েন্টগুলি বহুমাত্রিক বলে ভাবতে পারি, এবং বহুমাত্রিক তথ্য সংকলনের ক্রমটি আবার কিছু যায় আসে না। আমারও ডাব্লু / ভেবে সমস্যা নেই যে বাস্তবে আছে, বা একটি অন্তর্নিহিত, শনাক্তকারী যা দুটি 5 এর অনন্য করে তোলে।
গুং - মনিকা পুনরায়

@ গুং আমি ডেটাসেটের কথা ভাবছিলাম যেখানে সময় বা ক্রমিক আদেশটি অন্তর্ভুক্ত। আমি বলব এটি অনুশীলন ছিল, এবং এখন অপ্রয়োজনীয়, একটি স্পষ্ট অর্ডারিং ভেরিয়েবল না রাখলে, তবে এই জাতীয় অর্ডার ভেরিয়েবলের অভাবে একটি ডেটাসেট হতে অযোগ্য ঘোষণা করে না। প্রকৃতপক্ষে ১৯s০ এর দশকে আমি নিয়মিতভাবে অন্তর্নিহিত শনাক্তকারী সহ স্থানিক সিরিজ প্রক্রিয়া করবো কারণ আমার নিজের ফোর্টরান প্রোগ্রামগুলি একটি অপ্রয়োজনীয় প্রবেশের (তুচ্ছ নয়) শ্রমকে তৈরি করেছিল।
নিক কক্স

এটি আমার কাছে ভাল লাগছে, @ নিককক্স। আমি বলব অর্ডার ভেরিয়েবল অন্তর্নিহিত, সে ক্ষেত্রে তবে একটি অর্থে এখনও আছে।
গুং - মনিকা পুনরায়
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.