সেরা অনুশীলনগুলি বোঝার ডেটাসেট


13

আমি ডেটা মাইনিংয়ের সিএস মাস্টার ছাত্র student আমার তত্ত্বাবধায়ক একবার আমাকে বলেছিলেন যে আমি কোনও শ্রেণিবদ্ধ চালানোর আগে বা কোনও ডেটাसेट দিয়ে কিছু করার আগে অবশ্যই আমাকে ডেটা পুরোপুরি বুঝতে হবে এবং নিশ্চিত হওয়া উচিত যে ডেটাটি পরিষ্কার এবং সঠিক।

আমার প্রশ্নগুলো:

  • কোন ডেটাসেট (সংখ্যাসূচক এবং নামমাত্র গুণাবলী সহ উচ্চ মাত্রিক) বোঝার জন্য সর্বোত্তম অনুশীলনগুলি কী কী?

  • ডাটাসেটটি পরিষ্কার কিনা তা নিশ্চিত করার জন্য অনুশীলনগুলি?

  • ডেটাসেটের ভুল মান বা নেই তা নিশ্চিত করার জন্য অনুশীলনগুলি?

উত্তর:


8

যে কোনও ডেটা সেট করে আপনি করতে পারেন এমন বেসিক জিনিস রয়েছে:

  1. মানগুলি বৈধ করুন (স্ট্রিং দৈর্ঘ্যের সহনশীলতা, ডাটা টাইপ, ফর্ম্যাটিং মাস্কস, প্রয়োজনীয় ক্ষেত্রের উপস্থিতি ইত্যাদি))
  2. ব্যাপ্তি শুদ্ধতা (মানগুলির প্রত্যাশিত ব্যাপ্তির মধ্যে এটি কি আপাতদৃষ্টিতে সঠিক তথ্য দেয়)
  3. প্রাথমিক প্রক্রিয়াজাতকরণ (যদি আমি এই ডেটাটি বিশ্লেষণ করার চেষ্টা করি তবে আমি কি ত্রুটিগুলি না নিয়েই বেসিকগুলি সম্পাদন করতে পারি)
  4. প্রাথমিক প্রতিবেদন (একটি ডেটা সেটের বিরুদ্ধে একটি প্রতিবেদন চালান এবং নিশ্চিত করুন যে এটি একটি বিড়ম্বনা পরীক্ষায় পাস করেছে)
  5. নাল বনাম খালি বনাম শূন্য বনাম কোনও ডেটা দেওয়া কলামের জন্য মিথ্যা সংজ্ঞা দেওয়া হচ্ছে
  6. স্থানের বাইরে থাকা ডেটা সনাক্তকরণ (একটি ডেটা সেটের অন্যান্য মানগুলির তুলনায় সাংখ্যিক মানগুলি নাটকীয়ভাবে পৃথক, স্ট্রিং মানগুলি দেখতে মনে হচ্ছে যে তারা ভুল বানানযুক্ত হতে পারে ইত্যাদি))
  7. স্পষ্টত ভ্রান্ত তথ্য মুছে ফেলা বা সংশোধন করা

ত্রুটিগুলি সনাক্ত করতে ডেটা বোঝা সম্পূর্ণ ভিন্ন বলের খেলা এবং এটি খুব গুরুত্বপূর্ণ।

উদাহরণস্বরূপ, আপনার একটি নিয়ম থাকতে পারে যা বলে যে একটি ক্রমিক নম্বর অবশ্যই একটি প্রদত্ত ডেটা সেটে উপস্থিত থাকতে হবে এবং সেই ক্রমিক সংখ্যাটি অবশ্যই 255 দৈর্ঘ্যের এবং সর্বনিম্ন স্ট্রিং দৈর্ঘ্যের 5 দ্বারা দৈর্ঘ্যযুক্ত হতে হবে।

ডেটা দেখে আপনি একটি নির্দিষ্ট ক্রমিক সংখ্যার মান পড়তে পারেন "PLEASE ENTER SERIAL" এটি পুরোপুরি বৈধ, তবে ভুল।

এটি প্রকৃতির এক প্রকারের, তবে বলুন যে আপনি স্টক ডেটা প্রক্রিয়াকরণ করছেন এবং আপনার এক হাজার ডলারের অধীনে থাকা 1000 স্টকের দামের সীমা ছিল। অনেক লোক জানেন না যে এত কম শেয়ারের মূল্য নির্দিষ্ট এক্সচেঞ্জগুলিতে অবৈধ এবং অন্যের জন্য পুরোপুরি বৈধ। আপনি যা দেখছেন তা সমস্যাযুক্ত কিনা তা বোঝার জন্য আপনার ডেটা সম্পর্কে আপনার জ্ঞান প্রয়োজন।

বাস্তব বিশ্বে আপনার কাছে সবসময় আপনার ডেটা অন্তরঙ্গভাবে বোঝার বিলাসিতা থাকে না।

আমি যেভাবে সমস্যাগুলি এড়াচ্ছি তা হল আমার চারপাশের লোকদের উপকার করা। ছোট ডেটা সেটগুলির জন্য, আমি কাউকে সম্পূর্ণরূপে ডেটা পর্যালোচনা করতে বলতে পারি। বড়দের জন্য, এলোমেলো নমুনার একটি সেট টানতে এবং ডেটাতে স্যানিটি পরীক্ষা করার জন্য কাউকে জিজ্ঞাসা করা আরও উপযুক্ত।

তদ্ব্যতীত, তথ্যের উত্সটি এবং সেই ডেটা উত্সটি কতটা বিশ্বাসযোগ্য হতে পারে তা প্রশ্ন করা জরুরি। আমার কাছে প্রায়শই ডেটার একাধিক বিরোধী উত্স থাকে এবং আমরা "সত্যের উত্স" নির্ধারণের জন্য বিধি তৈরি করি। কখনও কখনও একটি ডেটা সেটে প্রদত্ত দিকটিতে দুর্দান্ত ডেটা থাকে তবে অন্যান্য ডেটা সেট অন্যান্য ক্ষেত্রে আরও শক্তিশালী।

ম্যানুয়ালি প্রবেশ করা ডেটা হ'ল সাধারণত আমি যা সম্পর্কে সন্দিহান, তবে কিছু ক্ষেত্রে এটি অটোমেশনের মাধ্যমে অর্জন করা যায় এমন কোনও কিছুর চেয়ে শক্তিশালী।


5

আমি ক্যালেস্ট্যাডের উত্তরটি খুব পছন্দ করি তবে আমি একটি মেটা-পদক্ষেপ যুক্ত করতে চাই: নিশ্চিত হয়ে নিন যে আপনি কীভাবে ডেটা সংগ্রহ করেছেন এবং কী কী ধরনের বাধা রয়েছে তা আপনি বুঝতে পেরেছেন। আমি মনে করি এটি খুব সাধারণ যে এই তথ্যটি সংগ্রহ করার সময় কোনও অ-সুস্পষ্ট পদক্ষেপ নেই, তবে এটি এমনটি হয় না: বেশিরভাগ সময়, কোনও প্রক্রিয়া বা আধ্যাত্মিক ডেটা দিয়ে কিছুটা ভাবনা তৈরি করেছিল এবং এই পদক্ষেপগুলি পারে এবং তা করতে পারে তথ্য আকার প্রভাবিত।

দুটি উদাহরণ: আমি সম্প্রতি একটি গবেষণা করেছি যেখানে বিশ্বব্যাপী বিভিন্ন কন ট্র্যাক্টর দ্বারা সংগ্রহ করা তথ্য। আমি ব্রিফিংয়ে ছিলাম না, তাই এটি আমার কাছে অস্বচ্ছ ছিল। দুর্ভাগ্যক্রমে, পরিমাপ যেখানে ফ্রান্সের কিছু অংশের জন্য বন্ধ ছিল: লোকে সবাই বরফের ক্র্যাম পছন্দ করেছিল তবে আমরা এলোমেলো বিতরণ আশা করেছি। এই অভিন্নতার কোনও সুস্পষ্ট কারণ নেই, তাই আমি ত্রুটিগুলি শিকার করতে শুরু করি। আমি যখন ঠিকাদারদের জিজ্ঞাসা করেছি, তখন কেউ ব্রিফিংয়ের বিষয়টি ভুল বুঝেছিল এবং তার ডাটাবেস থেকে কেবল আইসক্রিম প্রেমীদেরই বেছে নিয়েছিল।

দ্বিতীয় ত্রুটিটি আরও চ্যালেঞ্জিং ছিল: কিছু ভৌগলিক বিশ্লেষণ করার সময়, আমি দেখতে পেলাম যে প্রচুর লোকের চলাচলের প্রচুর পরিমাণ ছিল, যা তাদের অনেক লোক মিউনিখ থেকে হামবুর্গে কয়েক মিনিটের মধ্যে ভ্রমণ করেছিল। আমি যখন প্রবাহমানদের সাথে উজানের সাথে কথা বললাম, তারা তাদের ডেটা একীকরণ সফ্টওয়্যারটিতে একটি সূক্ষ্ম বাগ খুঁজে পেয়েছিল, যা আগে নজরে ছিল না।

উপসংহার:

  • ধরে নিবেন না যে আপনার ডেটা নিখুঁত প্রক্রিয়া / মানব দ্বারা সংগ্রহ করা হয়েছিল।
  • আপনার ডেটা সরবরাহকারীদের সীমাটি বোঝার চেষ্টা করবেন না।
  • স্বতন্ত্র নিদর্শন / মানগুলি দেখুন এবং সেগুলি লজিকাল কিনা তা নির্ধারণ করার চেষ্টা করুন (চলাচল / ভৌগলিক ডেটার পক্ষে সহজ)

4

আমি সাধারণত দ্বি-পদক্ষেপ গ্রহণ করি

  1. প্রতিটি ভেরিয়েবলের জন্য গড়, পরিসীমা, বৈকল্পিক, নিখোঁজ হওয়ার সংখ্যা, কার্ডিনালিটি ইত্যাদি সংক্ষিপ্ত পরিসংখ্যানগুলি গণনা অবিভাজনীয় (পরিবর্তনশীল দ্বারা পরিবর্তনশীল) এবং অদ্ভুততার জন্য সন্ধান করুন (যেমন ভেরিয়েবলটির অর্থ প্রদেয় পরিমাপযোগ্য নয়)। এই বিজোড় ভেরিয়েবলের জন্য প্লট হিস্টোগ্রাম।

  2. ডেটা পরিচালনাযোগ্য উপগ্রহে বিভক্ত করুন (একটি অর্থবহ পরিবর্তনশীল চয়ন করুন এবং এটি অনুসারে ডেটা বিভক্ত করুন উদাহরণস্বরূপ সমস্ত ধনাত্মক উদাহরণ এবং সমস্ত নেতিবাচক) এবং তাদের দৃষ্টিভঙ্গি অন্বেষণ করুন (যেমন ggobi সহ )। ভেরিয়েবলগুলি কীভাবে একত্রে লিঙ্কযুক্ত তা বোঝার জন্য বিশেষত ব্রাশিং এবং স্ক্যাটার প্লটগুলির মতো সরঞ্জামগুলি ব্যবহার করুন।

এবং যখন আপনি মডেলগুলি তৈরি করা শুরু করেন, তখন আউটশিয়ারের কারণে হতে পারে এমন চরম ত্রুটিগুলি অনুসন্ধান করে বা অবশিষ্ট কনফারেন্স ম্যাট্রিক্সের দিকে তাকান এবং নিশ্চিত হন যে এটি ভারসাম্যযুক্ত। আপনার মডেলগুলি অনুকূল করে তুলতে কে-ফোল্ড ক্রস বৈধকরণ ব্যবহার করুন এবং প্রতিটি ভাঁজটির জন্য প্রশিক্ষণের ত্রুটির বৈচিত্রটি দেখুন, যদি একটি ভাঁজ অন্যের তুলনায় আরও খারাপ কাজ করে তবে এতে বহিরাগতদের থাকতে পারে।


4

নীচে আপনি ডেটা সায়েন্স স্ট্যাক এক্সচেঞ্জ ( https: //datasज्ञान.stackexchange.com/a/722/2452 ) এ সম্পর্কিত, সম্পর্কিত সম্পর্কিত আমার উত্তরটির একটি অনুলিপি এখানে পেতে পারেন তবে তার সম্পূর্ণরূপে সরবরাহ করা হয়েছে পাঠকদের সুবিধা। আমি বিশ্বাস করি যে এটি আপনার প্রশ্নের আংশিক উত্তরও দেয় এবং আশা করি এটি সহায়ক। উত্তরটি Rবাস্তুতন্ত্রের দিকে মনোনিবেশ করার সময় , অন্যান্য ডেটা বিশ্লেষণ পরিবেশের জন্য অনুরূপ প্যাকেজগুলি এবং / অথবা লাইব্রেরিগুলি পাওয়া যায় । তাছাড়া, যখন দুই উদাহৃত কাগজপত্র ডেটা প্রস্তুতি এছাড়াও দ উদাহরণ রয়েছে, সেই সব কাগজপত্র উপস্থাপন সাধারণ কর্মপ্রবাহ (ফ্রেমওয়ার্ক) এবং সর্বোত্তম কার্যাভ্যাস যে প্রযোজ্য কোনো তথ্য বিশ্লেষণ পরিবেশ।

আর কিছু রয়েছে মান ডেটা ম্যানিপুলেশন জন্য ফাংশন, কোন ডেটা পরিচ্ছন্নতার জন্য ব্যবহার করা যেতে পারে, তার মধ্যে বেস প্যাকেজ ( gsub, transformযেমন, ইত্যাদি), সেইসাথে বিভিন্ন তৃতীয় পক্ষের প্যাকেজ, stringr , পুনর্নির্মাণ , reshape2 এবং plyr । উদাহরণ এবং এই প্যাকেজের জন্য ব্যবহারের সর্বোত্তম কার্যাভ্যাস এবং তাদের কার্যাবলী নিম্নলিখিত কাগজে বর্ণনা করা হয়েছে: http://vita.had.co.nz/papers/tidy-data.pdf

উপরন্তু, আর অফার কিছু প্যাকেজ বিশেষভাবে দৃষ্টি নিবদ্ধ করা ডেটা পরিষ্কার এবং রূপান্তর করুন:

আর- তে ডেটা পরিষ্কারের জন্য একটি বিস্তৃত এবং সুসংগত পদ্ধতির উদাহরণ এবং সম্পাদনা এবং ডিডুকরেক্ট প্যাকেজগুলির উদাহরণ এবং ব্যবহারের পাশাপাশি আর-তে ডেটা পরিষ্কারের ওয়ার্কফ্লো ( কাঠামো ) বর্ণনা সহ নিম্নলিখিত কাগজে উপস্থাপন করা হয়েছে, যা আমি অত্যন্ত সুপারিশ করছি: http : //cran.r-project.org/doc/contrib/de_Jonge+van_der_Loo- ভূমিকা_ থেকে_ডাটা_চলাচল_ও_আর.পিডিএফ


3

লোকেরা এখানে দুর্দান্ত পদক্ষেপগুলি বলেছিল, তবে আমি মনে করি যে টুইটগুলির মাধ্যমে বলা একটি নতুন ডেটা সেট পেলে আমি কী করব নিম্নলিখিত লিঙ্কে দুর্দান্ত তথ্য রয়েছে , এতে লোকেরা @ @ হ্যামসন প্রশ্নের উত্তরে উত্তর দিয়ে যে পদক্ষেপগুলি তুলে ধরেছিল তা সমাপ্ত করে তুলেছে "ডেটা লোকেরা: আপনি যখন কোনও নতুন ডেটা সেটটিতে হাত পেয়েছেন তখন আপনি প্রথম কাজটি কী করবেন? "

আশা করি এটি কার্যকর হবে।


1

আমি একটি জিনিস যুক্ত করব - যদি সম্ভব হয় তবে অন্য কোনও উত্সের সাথে ডেটা তুলনা করে যুক্তিসঙ্গততা যাচাই করবো। দেখে মনে হচ্ছে আমি যখনই এটি করতে ব্যর্থ হই তখন আমি জ্বলে উঠি :(

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.