এটি কি কেবল ডাটা পয়েন্টের সমষ্টি? অথবা এটি বিভিন্ন ভেরিয়েবলের মানগুলির সাথে সজ্জিত একটি সারণী বিন্যাসে বিভিন্ন উপাদানগুলির জন্য ডেটা পয়েন্টগুলির উপস্থাপনা? এটি কাঁচা ডেটা থেকে কীভাবে আলাদা?
এটি কি কেবল ডাটা পয়েন্টের সমষ্টি? অথবা এটি বিভিন্ন ভেরিয়েবলের মানগুলির সাথে সজ্জিত একটি সারণী বিন্যাসে বিভিন্ন উপাদানগুলির জন্য ডেটা পয়েন্টগুলির উপস্থাপনা? এটি কাঁচা ডেটা থেকে কীভাবে আলাদা?
উত্তর:
আমার অভিজ্ঞতায়, "ডেটাসেট" (বা "ডেটা সেট") একটি অনানুষ্ঠানিক শব্দ যা ডেটা সংগ্রহকে বোঝায়। সাধারণত একটি ডেটাসেটে একাধিক ভেরিয়েবল থাকে এবং একক বিষয় নিয়ে উদ্বেগ প্রকাশ করে; এটি সম্ভবত একটি একক নমুনা উদ্বেগ।
একটি ক্রস আমি প্রায়শই দেখি যে ক্রস বৈধীকৃত প্রশ্নগুলি লেখকরা "ডেটাসেট" কে "পরিবর্তনশীল" বা "ভেক্টর" এর প্রতিশব্দ হিসাবে ব্যবহার করেন।
আমি মনে করি যে উইকিপিডিয়া এটি সংজ্ঞায়িত করার জন্য একটি উপযুক্ত কাজ করে:
সর্বাধিক সাধারণভাবে একটি ডেটা সেট একক ডাটাবেস টেবিলের বিষয়বস্তু বা একটি একক পরিসংখ্যানের ডেটা ম্যাট্রিক্সের সাথে মিলে যায়, যেখানে সারণির প্রতিটি কলাম একটি নির্দিষ্ট ভেরিয়েবলকে উপস্থাপন করে এবং প্রতিটি সারি প্রশ্নযুক্ত ডেটার সেট প্রদত্ত সদস্যের সাথে মিলে যায়। ডেটা সেট প্রতিটি ভেরিয়েবলের জন্য মানগুলির তালিকা করে, যেমন কোনও সামগ্রীর উচ্চতা এবং ওজন, ডেটা সেটের প্রতিটি সদস্যের জন্য। প্রতিটি মান একটি ডেটাম হিসাবে পরিচিত। ডেটা সেটটিতে এক বা একাধিক সদস্যের জন্য, সারিগুলির সংখ্যার সাথে সম্পর্কিত ডেটা থাকতে পারে।
নির্দিষ্ট ডেটা সেট শব্দটি আরও looseিলে .ালাভাবে ব্যবহার করা যেতে পারে, নির্দিষ্ট পরীক্ষা বা ঘটনার সাথে সম্পর্কিত, ঘনিষ্ঠভাবে সম্পর্কিত টেবিলগুলির সংকলনের ডেটা উল্লেখ করতে। এই ধরণের একটি উদাহরণ স্পেস এজেন্সি দ্বারা সংগ্রহ করা ডেটা সেট যা মহাকাশ তদন্তকারী জাহাজগুলির সাথে পরীক্ষাগুলি সম্পাদন করে।
উন্মুক্ত ডেটা শৃঙ্খলে, ডেটাসেট হ'ল একক যা পাবলিক ওপেন ডেটা সংগ্রহস্থলে প্রকাশিত তথ্য পরিমাপ করে। ইউরোপীয় ওপেন ডেটা পোর্টালটি অর্ধ মিলিয়নেরও বেশি ডেটাসেটকে একত্রিত করে। এই ক্ষেত্রে অন্যান্য সংজ্ঞা প্রস্তাব করা হয়েছে কিন্তু বর্তমানে একটি সরকারী একটি নেই। কিছু অন্যান্য ইস্যু (রিয়েল-টাইম ডেটা উত্স, অ-সম্পর্কযুক্ত ডেটাসেটস ইত্যাদি) এ সম্পর্কে conকমত্যে পৌঁছতে অসুবিধা বাড়িয়ে তোলে।
আপনি দেখতে পাচ্ছেন, শব্দটি কিছুটা অস্পষ্ট।
আমি মনে করি আপনি ডেটা সেটটি সংজ্ঞায়িত করার আগে আপনাকে ডেটা পয়েন্টটি সংজ্ঞায়িত করার দরকার হতে পারে : কেন একটি আদিম এবং সংজ্ঞা প্রয়োজন হয় না, তবে বিপরীত নয়?
কমপক্ষে দুটি সংজ্ঞা আমার কাছে অর্থবোধ করে:
এক বা একাধিক ভেরিয়েবল (ক্ষেত্র। কলাম) এর জন্য এক বা একাধিক পর্যবেক্ষণ (কেস, রেকর্ডস, সারি)।
পছন্দের প্রোগ্রাম দ্বারা পঠনযোগ্য কোনও ফাইলের মধ্যে যা কিছু ডেটা হিসাবে সংরক্ষণ করা হয়।
সারণী বিন্যাসটি সাধারণ তবে আমার মনে হয় না এটি কোনও সংজ্ঞার অংশ; কীভাবে ডেটা সংরক্ষণ করা হয় তা প্রাকৃতিকভাবে গুরুত্বপূর্ণ হতে পারে।
পিএস "ফর্ম্যাট" শব্দটি এতটাই বোঝা হয়ে গেছে যে আমার কাছে এটি সবচেয়ে ভালভাবে এড়ানো সম্ভব যদি না নির্বিঘ্নভাবে নির্দিষ্ট না করা হয়। আমি এটি ব্যবহার করে দেখেছি
সাধারণ বা নির্দিষ্ট পাঠ্য বা বাইনারি ফাইল ফর্ম্যাট
ডেটা স্ট্রাকচার, যেমন টেবুলার বা অন্যান্য
ডেটা স্টোরেজ বা পরিবর্তনশীল ধরণের, যেমন বিট, পূর্ণসংখ্যা, বাস্তব, অক্ষর
প্রদর্শন বিন্যাস নিয়ন্ত্রণ উপস্থাপনা, যেমন দশমিক স্থান সংখ্যার বিশদ; দশমিক, হেক্সাডেসিমাল বা বাইনারি প্রদর্শন।
ইতিমধ্যেই কিছু ভাল এখানে উত্তর এবং আমি মনে করি না আমি কোন নিক কক্সবাজার বা ফ্রাঙ্ক Dernoncourt কিনা "ডেটা সেটটি" বোঝায় ইস্যু চেয়ে গভীর পশা পারেন না ধারণাগত সংগ্রহ সংক্রান্ত ডেটা, অথবা বিশেষ ব্যবস্থা মধ্যে যারা তথ্য যেমন এর একটি টেবিল / ম্যাট্রিক্স বা কম্পিউটার-পঠনযোগ্য ফাইল। ফ্রাঙ্কের নিষ্কর্ষে ধারাবাহিকভাবে সংগৃহীত ডেটা বা কয়েকটি টেবিল জুড়ে ছড়িয়ে পড়া ডেটার মতো প্রান্তের মামলাগুলির উল্লেখ রয়েছে, যা যদি আপনি ধরে নেন যে একটি সাধারণ সংজ্ঞা হতে চলেছে। (সমস্ত পরিসংখ্যান সফ্টওয়্যার এটিকে পরিচালনা করতে পারে না, তবে একাধিক টেবিলের সাথে সম্পর্কিত একটি ডাটাবেসে ডেটা সংরক্ষণ করা হয় এমন কোনও ক্ষেত্রে কল্পনা করা খুব সহজ the পুরো ডাটাবেসটি কি একক "ডেটাসেট"?)
তবে আমি একটি জিনিস যোগ করব যে ডেটাসেটগুলি সাধারণত সেটগুলি হয় না, গাণিতিক দিক থেকে! সেনসু স্ট্রিকো হয় একটি সেটে কোনও অবজেক্ট থাকে বা এটিতে থাকে না, তবে সেই বস্তুর একাধিক অনুলিপি থাকতে পারে না। যদি আমি আটবার ডাই রোল করি এবং 1, 4, 3, 5, 5, 4, 6, 4 স্কোর করি তবে স্কোরগুলির সেট সেটটি কেবল {1, 3, 4, 5, 6} হয়} নোট করুন যে উপাদানগুলি যে কোনও ক্রমে হতে পারে, আমি কেবল তাদেরকে মূল্যের উপরে আরোহণে লিখেছি তবে সেটটি {5, 4, 1, 6, 3 mathe গাণিতিকভাবে এর সমান, উদাহরণস্বরূপ। যদিও আমরা সাধারণত কোনও ডেটাসেট বলতে বোঝাতে পারি না এটি!
তবে ভেক্টর কেবল একটি ভেরিয়েবল রেকর্ডিংয়ের জন্য - বেশ কয়েকটি ক্ষেত্রে, অর্ডার সংরক্ষিত টেবুলেটে ম্যাট্রিক্স ব্যবহার করা আরও সুবিধাজনক হতে পারে। সময়ের সাথে সাথে ভক্সেলের ত্রিমাত্রিক গ্রিডের সম্পত্তি পরিমাপ করার মতো আরও পরিশীলিত পরিস্থিতির জন্য, আপনি এমনকি কোনও সেন্সরে ডেটা সাজানোর ক্ষেত্রেও এগিয়ে যেতে পারেন (উদাহরণস্বরূপ এই প্রশ্নটি দেখুন )।
তবে মনে রাখবেন যে ধারণাগতভাবে কোনও মাল্টিসিট বেশিরভাগ সহজ পরিস্থিতিতে যথেষ্ট হতে পারে, এমনকি এটি ব্যবহারিক উদ্দেশ্যে অসুবিধে না হলেও। যদি আমি ডাই রোলিংয়ের সাথে একই সাথে একটি মুদ্রা ছুঁড়ে ফেলেছিলাম এবং দুটি ফলাফল একসাথে রেকর্ড করতে চাইতাম তবে আমি mult (1, এইচ), (3, টি), (4, এইচ), (4, এইচ) এর মতো একটি মাল্টিসেট ব্যবহার করতে পারি ), (4, টি), (5, এইচ), (5, টি), (6, টি) a ম্যাট্রিক্সের পরিবর্তে। একটি সাধারণ সেট যথেষ্ট হবে না, কারণ এটি উদাহরণস্বরূপ (4, এইচ) এর গুণমান গণনা করবে না।