'পরিশ্রমী ডেটা' তৈরির জন্য সেরা অভ্যাস


12

হ্যাডলি উইকহাম বিশ্লেষণ করার জন্য জেএসএসে "পরিশ্রমী ডেটা" ( লিংক ) নামে একটি স্টার্লার আর্টিকেল লিখেছিলেন বিশ্লেষণ করার জন্য ডেটা ম্যানিপুলেশন এবং ডেটাটিকে "অনুকূল" অবস্থাতে নিয়ে আসার বিষয়ে। যাইহোক, আমি ভাবছিলাম যে কোনও কাজের সেটিংয়ে টবুলার ডেটা উপস্থাপনের ক্ষেত্রে সর্বোত্তম অভ্যাসগুলি কী ছিল? ধরা যাক আপনার সহকর্মী আপনাকে তাকে কিছু ডেটা সরবরাহ করতে বলে। তথ্যটি কাঠামোগত করার সময় আপনি কিছু সাধারণ নিয়ম কী ব্যবহার করেন? যেখানে আপনি অ-ডেটা পেশাদারদের সাথে ডেটা ভাগ করছেন এমন পরিস্থিতিতে "পরিপাটি ডেটা" তে থাকা নির্দেশিকা কি ঠিক একইভাবে প্রযোজ্য? স্পষ্টতই, এটি খুব প্রাসঙ্গিক-নির্দিষ্ট তবে আমি উচ্চ স্তরের 'সেরা অনুশীলনগুলি' সম্পর্কে জিজ্ঞাসা করছি।


এই কাগজটি পরিসংখ্যান সংক্রান্ত সফ্টওয়্যার জার্নালে প্রকাশিত হয়নি (এখনও)।
নিক কক্স

3
আর ট্যাগটি এখানে অপ্রয়োজনীয় বলে মনে হচ্ছে। প্রশ্নটি নির্দিষ্ট সফ্টওয়্যার পছন্দকে ছাড়িয়ে যায়।
নিক কক্স

উত্তর:


10

হ্যাডলির কাছ থেকে যেমন প্রত্যাশা করা যায়, তার নিবন্ধটি পরিপাটি তথ্যের একটি ভাল সংজ্ঞা রয়েছে এবং আমি তার নিবন্ধের প্রায় সবকিছুর সাথে একমত এবং বিশ্বাস করি এটি কেবল "ডেটা পেশাদারদের" পক্ষে বৈধ নয়। তবে, তিনি কিছু পয়েন্টগুলি তুলনামূলকভাবে সহজ করতে পারেন (যেমন, তিনি রচিত প্যাকেজ সহ) যদি আরও কিছু মৌলিক সমস্যা এড়ানো হয়। এই সমস্যাগুলির বেশিরভাগটি এক্সেলের বিস্তৃত ব্যবহারের ফলাফল। এক্সেল একটি মূল্যবান সরঞ্জাম এবং এর গুণাগুণ রয়েছে তবে এর কিছু সুবিধার ফলে ডেটা বিশ্লেষকরা সমস্যা তৈরি করে।

কিছু বিষয় (আমার অভিজ্ঞতা থেকে):

  1. কিছু লোক রঙিন স্প্রেডশিট পছন্দ করে এবং বিন্যাস বিকল্পগুলির প্রচুর ব্যবহার করে। যদি এটি তাদের ডেটাগুলি সংগঠিত করতে এবং উপস্থাপনের জন্য সারণী প্রস্তুত করতে সহায়তা করে তবে এটি সমস্ত ঠিক আছে। যাইহোক, এটি কোনও বিপজ্জনক যদি কোনও সেল রঙ প্রকৃতপক্ষে ডেটা এনকোড করে। এই ডেটাটি হারাতে সহজ এবং পরিসংখ্যান সংক্রান্ত সফ্টওয়্যারগুলিতে এই জাতীয় ডেটা আমদানি করা খুব কঠিন (উদাহরণস্বরূপ, স্ট্যাক ওভারফ্লোতে এই প্রশ্নটি দেখুন )।
  2. কখনও কখনও আমি কিছু সুন্দর বিন্যাসিত ডেটা পাই (আমি লোকেরা এটি কীভাবে প্রস্তুত করতে হয় তা বলার পরে), তবে তাদের কাছে কোনও মূল্যবান কলামে কোনও মন্তব্য করার সিদ্ধান্ত নেওয়ার বিষয়ে মন্তব্য করার জন্য একটি উত্সর্গীকৃত কলাম বা পৃথক ফাইল ব্যবহার করতে বলার পরেও। ডেটা আমদানি করার সময় আমাকে কেবল এই কলামটিই একটি বিশেষ উপায়ে মোকাবেলা করার দরকার নেই, তবে মূল সমস্যাটি হ'ল এই জাতীয় মন্তব্যগুলি দেখার জন্য আমাকে সমস্ত টেবিলের মাধ্যমে স্ক্রোল করতে হবে (যা আমি সাধারণত করতাম না)। যদি তারা এক্সেলের মন্তব্য করার সুবিধা ব্যবহার করে তবে এটি আরও খারাপ হয়।
  3. এগুলির কয়েকটি সারণী সহ স্প্রেডশিট, একাধিক শিরোনাম লাইন বা সংযুক্ত কক্ষগুলির পরিসংখ্যান সংক্রান্ত সফ্টওয়্যার আমদানির জন্য তাদের প্রস্তুত করার জন্য ম্যানুয়াল কাজ করে। ভাল ডেটা বিশ্লেষকরা সাধারণত এই ধরণের ম্যানুয়াল কাজ উপভোগ করেন না।
  4. কখনই নয়, কখনই এক্সেলে কলামগুলি গোপন করুন। যদি তাদের প্রয়োজন না হয় তবে সেগুলি মুছুন। যদি তাদের প্রয়োজন হয়, তাদের দেখান।
  5. xls এবং এর বংশধররা অন্যের সাথে ডেটা বিনিময় বা সংরক্ষণাগার জন্য উপযুক্ত ফাইল ফর্ম্যাট নয়। ফাইলটি খোলার সময় সূত্রগুলি আপডেট হয় এবং বিভিন্ন এক্সেল সংস্করণগুলি ফাইলগুলি আলাদাভাবে পরিচালনা করতে পারে। আমি পরিবর্তে একটি সাধারণ সিএসভি ফাইলের প্রস্তাব দিচ্ছি, যেহেতু প্রায় সমস্ত ডেটা-সম্পর্কিত সফ্টওয়্যার এটি (এমনকি এক্সেল) আমদানি করতে পারে এবং আশা করা যায় যে শীঘ্রই এটি পরিবর্তন হবে না। তবে, সচেতন থাকুন যে কোনও সিএসভিতে সাশ্রয় করার সময় এক্সেল দৃশ্যমান অঙ্কগুলিতে ঘোরাফেরা করে (এরপরে নির্ভুলতা ছাড়ছে)।
  6. আপনি যদি অন্যের জন্য জীবন সহজ করতে চান তবে হ্যাডলির নিবন্ধে প্রদত্ত নীতিগুলি মেনে চলুন। প্রতিটি ভেরিয়েবল এবং স্তরের সংজ্ঞা নির্ধারণকারী ফ্যাক্টর কলামগুলির জন্য একটি মান কলাম রয়েছে।

সম্ভবত বেশ কয়েকটি অতিরিক্ত পয়েন্ট রয়েছে যা আমার মনে আসে নি।


1
"কখনই নয়, কখনই এক্সেলে কলামগুলি গোপন করুন they যদি তাদের প্রয়োজন না হয় তবে সেগুলি মুছুন they তাদের যদি প্রয়োজন হয় তবে তাদের দেখান।" আমি এই সাথে অসম্মতি আছে। লুকানো তথ্য / ক্ষেত্রগুলি একটি সমস্যা। তবে ডেটা কলামগুলি মুছে ফেলা স্প্রেডশিটগুলির সাথে একটি অপরিবর্তনীয় প্রক্রিয়া হতে পারে। অ্যাপ্লিকেশন মেমরিটি বিশাল উদ্বেগ না হলে আমি কলামগুলি রাখার পরামর্শ দিচ্ছি কারণ তাদের বিরুদ্ধে লুকানো / ফিল্টারিং করা অত্যন্ত সহজ। বিশেষ করে বিলোপ মোছার সাথে তুলনা করা।
ড্যান এনগুইন

7

প্রথমত, আমি সাধারণত সেই ব্যক্তি যিনি ডেটা পান। সুতরাং এটি আমার ইচ্ছা তালিকা হিসাবে পড়তে পারে।

  • আমার সবচেয়ে গুরুত্বপূর্ণ বিষয়টি হ'ল: যিনি ডেটা বিশ্লেষণ করতে যাচ্ছেন তার সাথে কথা বলুন।

  • আমার কাগজে একটি ঝলক ছিল: হ্যাডলি যা লিখেছেন তার অনেকগুলি সংক্ষিপ্তসার হতে পারে 'আপনার রিলেশনাল ডেটা বেসকে সাধারণকরণ' দ্বারা।

  • তবে তিনি আরও উল্লেখ করেছেন যে আসলে যা চলছে তার উপর নির্ভর করে দীর্ঘ বা প্রশস্ত আকারে একই পরিবর্তনশীল হওয়া বুদ্ধিমান হতে পারে।

    এখানে একটি উদাহরণ রয়েছে: আমি বর্ণালী নিয়ে কাজ করি। একটি দেখুন শারীরিক / spectroscopical বিন্দু থেকে, বর্ণালী একটি তীব্রতা যেমন হয় তরঙ্গদৈর্ঘ্য এর ফাংশন হিসাবে : আমি = F (λ)। শারীরিক কারণে, এই ফাংশনটি অবিচ্ছিন্ন (এবং ধারাবাহিকভাবে পার্থক্যযোগ্য)। নির্দিষ্ট এর ক্ষেত্রে একটি বিচক্ষণতা কেবল ব্যবহারিক কারণে (যেমন ডিজিটাল কম্পিউটার, পরিমাপের সরঞ্জাম) জন্য ঘটে। এটি স্পষ্টভাবে একটি দীর্ঘ ফর্ম নির্দেশ করবে। তবে, আমার উপকরণটি বিভিন্ন চ্যানেলে (একটি সিসিডি / ডিটেক্টর লাইন বা অ্যারের) বিভিন্ন পরিমাপ করে । ডেটা বিশ্লেষণ প্রতিটি কে হিসাবে বিবেচনা করে । এটি প্রশস্ত ফর্মের পক্ষে হবে।Iλλiλiλi

  • তবে, অ-স্বাভাবিকীকরণের প্রদর্শন / ডেটা বিতরণের কিছু ব্যবহারিক সুবিধা রয়েছে:

    • ডেটা সম্পূর্ণ কিনা তা যাচাই করা আরও সহজ হতে পারে ।

    • কোনও সংযুক্ত টেবিলগুলি যেমন কোনও সাধারণীকরণের সম্পর্কিত ডেটা বেস হয় ঠিক আছে যদি তথ্যটি কোনও ডেটা বেসে থাকে (সফ্টওয়্যার অর্থে)। সেখানে, আপনি বাধা রাখতে পারেন যা সম্পূর্ণতা নিশ্চিত করে। যদি ডেটাগুলি বেশ কয়েকটি টেবিলের আকারে বিনিময় করা হয়, তবে বাস্তবে লিঙ্কগুলি একটি গোলমাল হবে।

    • ডেটা বেইজ নরমালাইজেশন অপ্রয়োজনীয়তা সরিয়ে দেয়। বাস্তব পরীক্ষাগার জীবনে, পুনরুক্তিগুলি ডাবল সততা পরীক্ষা করতে ব্যবহৃত হয়।
      সুতরাং অপ্রয়োজনীয় তথ্য খুব তাড়াতাড়ি সরানো উচিত নয়।

    • আজকাল মেমরি / ডিস্কের আকার কম মনে হচ্ছে। তবে আমাদের যন্ত্রগুলি যে পরিমাণ ডেটা উত্পাদন করে তা বৃদ্ধি পায়।

      আমি এমন একটি উপকরণ নিয়ে কাজ করছি যা কয়েক ঘন্টার মধ্যে সহজেই 250 গিগাবাইট উচ্চ মানের ডেটা তৈরি করতে পারে। সেই 250 গিগাবাইট একটি অ্যারে ফর্ম্যাটে। এটিকে দীর্ঘ আকারে প্রসারণ করা কমপক্ষে 4 এর একটি ফ্যাক্টর দ্বারা এটিকে ফুটিয়ে তুলবে: অ্যারের মাত্রার প্রত্যেকটি (পার্শ্বীয় x এবং y এবং তরঙ্গদৈর্ঘ্য λ) তীব্রতার জন্য একটি কলাম এবং প্লাস একটি কলামে পরিণত হবে)। তদ্ব্যতীত, ডেটা বিশ্লেষণের সময় আমার প্রথম পদক্ষেপটি সাধারণত লম্বা ফর্মের ডেটাগুলিকে আবার বর্ণালি আকারে ফেলা হয় cast

    • সাধারণত, ডেটা বিশ্লেষণের জন্য একটি নির্দিষ্ট ফর্মের প্রয়োজন হবে। এই কারণেই আমি যিনি ডেটা বিশ্লেষণ করবেন তার সাথে কথা বলার পরামর্শ দিই।
  • এই সাধারণীকরণ পয়েন্টগুলি দ্বারা সম্বোধন করা যে পরিপাটি কাজটি ক্লান্তিকর এবং কোনও দুর্দান্ত কাজ নয়। তবে, অনুশীলনে আমি সাধারণত পরিশ্রমের অন্যান্য দিকগুলিতে অনেক বেশি সময় ব্যয় করি

    • অনুশীলনে ডেটাটির অখণ্ডতা এবং সম্পূর্ণতা নিশ্চিত করা আমার পরিশ্রমী ডেটা কাজের একটি বড় অংশ।

    • ডেটা সহজেই পঠনযোগ্য বিন্যাসে নেই / কিছুটা আলাদা ফর্ম্যাটের মধ্যে স্যুইচিং:

      আমি অনেকগুলি ফাইলের আকারে প্রচুর ডেটা পাই এবং সাধারণত কিছু তথ্য ফাইলের নাম এবং / অথবা পথে সঞ্চিত থাকে: উপকরণ সফ্টওয়্যার এবং / অথবা উত্পাদিত ফাইল ফর্ম্যাটগুলি ধারাবাহিকভাবে তথ্য যোগ করার অনুমতি দেয় না, তাই আমরা হয় একটি অতিরিক্ত টেবিল রয়েছে (যেমন কোনও রিলেশনাল ডেটা বেসের মতো) যা কোনও মেটা তথ্য কোনও ফাইলের নামের সাথে যুক্ত করে অথবা ফাইলের নাম গুরুত্বপূর্ণ তথ্য এনকোড করে।

      ফাইলের নামগুলির ধরণে টাইপস বা সামান্য পরিবর্তনগুলি এখানে প্রচুর সমস্যা তৈরি করে।

    • পরিমাপের দৃষ্টিকোণ থেকে সতর্ক হওয়া: মিথ্যা পরিমাপ থেকে মুক্তি (সাধারণত পরিচিত শারীরিক প্রক্রিয়াগুলির কারণে ঘটে যা ঘটনাক্রমে কেউ আলোর উপর চাপ দেয়, মহাজাগতিক রশ্মি ডিটেক্টরটিকে আঘাত করে, ক্যামেরার ফ্রেম শিফট করে ...)।

2
আপনার প্রথম পয়েন্টের জন্য +1। এটি কেবল ডেটা রেকর্ডিং এবং স্থানান্তর করার জন্য ভাল পরামর্শ নয়, তবে আদর্শিকভাবে পরীক্ষামূলক নকশা বা পর্যবেক্ষণ সম্পর্কিত প্রতিক্রিয়া দেখা উচিত।
রোল্যান্ড
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.