ডেটা প্রিপ্রোসেসিং এবং আউটলেট সনাক্তকরণ কৌশলগুলি কভার করে ভাল বই


11

শিরোনামটি যেমন চলে যায়, কেউ কি কোনও ভাল, আপ টু ডেট বই সম্পর্কে জানেন যা সাধারণ এবং বিশেষত আউটিলার সনাক্তকরণ কৌশলগুলিতে ডেটা প্রিপ্রোসেসিংয়ের তথ্য কভার করে?

বইটিতে একচেটিয়াভাবে ফোকাস করার দরকার নেই, তবে এটি পূর্বোক্ত বিষয়গুলিকে নিখুঁতভাবে মোকাবেলা করতে হবে - আমি এমন কোনও বিষয় নিয়ে খুশি হতে পারব না যা একটি প্রারম্ভিক বিষয় এবং কাগজের একটি তালিকা উদ্ধৃত করে, বিভিন্ন কৌশলগুলির ব্যাখ্যা অবশ্যই উপস্থিত হতে হবে বই নিজেই।

হারানো ডেটা ব্যবহারের জন্য কৌশলগুলি পছন্দনীয় তবে প্রয়োজনীয় নয় ...


আপনি কী ধরণের ডেটা (বৈজ্ঞানিক ক্ষেত্র বা পরিমাপ কৌশল) আপনি দেখছেন তা বলতে পারেন?
এসবিএক্স

ওয়েব ব্যবহারকারীদের কাছ থেকে সংগৃহীত ডেটা (আরও নির্দিষ্ট হতে পারে না)। অন্তর্ভুক্ত টাইমস্ট্যাম্পগুলি (যদিও ডেটা কঠোরভাবে সময় সম্পর্কিত নয়, অন্তত স্বজ্ঞাতভাবে), শ্রেণিবদ্ধ বৈশিষ্ট্য এবং ক্রমাগত বৈশিষ্ট্যগুলি অন্তর্ভুক্ত। আউটলিয়ারগুলি অগণিত কারণে হতে পারে, সহ। ওয়েব রোবট, দূষিত ব্যবহারকারী এবং আরও অনেক উত্স।
ডেটাটিও

আমার জন্য এটি যথেষ্ট নির্দিষ্ট: রাসায়নিক বা বর্ণালী সংক্রান্ত ডেটা সেটগুলির জন্য আপনাকে
প্রিপ্রোসেসিংয়ের

উত্তর:


3

যদিও স্টাটা নির্দিষ্ট, তবে আমি স্কট লং-এর বইটি স্টাটা ব্যবহার করে ডেটা অ্যানালাইসিসের ওয়ার্কফ্লো পেয়েছি , যা ডেটা ম্যানেজমেন্ট এবং প্রস্তুতির ক্ষেত্রে অমূল্য। লেখক ডেটা ম্যানেজমেন্টের ভাল অনুশীলন যেমন ডেটা সাফ করা এবং সংরক্ষণাগারভুক্ত করা, আউটলিয়ারদের জন্য চেক করা এবং নিখোঁজ ডেটা নিয়ে ডিল করার বিষয়ে প্রচুর সহায়ক পরামর্শ দিয়েছেন।


2
আমি এই বইটিও খুব পছন্দ করি, তবে ডেটা ম্যানেজমেন্টের দিক থেকে আমি উল স্টাটা ব্যবহারকারী হিসাবে রঞ্জিত। যদিও আমি একমত নই, এই তালিকার অন্যরা যুক্তি দেখিয়েছেন যে এটি ব্যবহারের জন্য স্টাটা অত্যন্ত নির্দিষ্ট, সুতরাং ক্যাভেট এমপোটার / প্রভাষক।
দিমিত্রি ভি। মাস্টারভ

আমি যা সংগ্রহ করি তা থেকে খুব স্ট্যাটাস-ইশ এবং আমি না কোনও স্টাটার সাথে পরিচিত এবং না আমি যদি এই প্রকল্পের জন্য সাহায্য করি তবে (ডেটা অনেক বড়, বিভিন্ন প্রযুক্তি ব্যবহার করে)
em70

বইটি আসলেই খুব মায়াময়ী। নির্দিষ্ট ডেটা (এবং বিশেষত মেটা-ডেটা) হ্যান্ডলিং কৌশলগুলি স্টাটা-নির্দিষ্ট, তবে সাধারণ ধারণা প্ল্যাটফর্মগুলির মধ্যে স্থানান্তরযোগ্য। আমি অবাক হয়েছি যে বাজারে প্রায় 20 টি স্টাটা বই / 100 আর বইয়ের অনুপাতের সাথে আর-তে ওয়ার্কফ্লো সংগঠিত করার তুলনায় কোনও তুলনামূলক বই নেই - পরবর্তীটি কি অসম্ভব? আমি স্পষ্টতই স্মৃতিটিকে স্মরণ করিয়ে দিয়েছি যে স্ট্যাটাকে বরাদ্দ করা হয়েছিল 64৪ জিবি মেশিনে 48 জিবি। এটি আকারের ক্ষেত্রে গুরুত্বপূর্ণ। আপনার যদি বন্যপ্রাণে বিভিন্ন কাঠামোর জিনিসগুলি চালনার দরকার হয় তবে আপনি স্টাটাতে নয়, আর-তে এটি করতে চান।
স্টাসকে

0

এসএএসের জন্য, এসএএস সফ্টওয়্যার ব্যবহার করে রন কোডির ডেটা সাফ করার কৌশল রয়েছে । এসএএস-এল সম্পর্কে একটি বক্তব্য রয়েছে: "আপনি রন কোডির কোনও বইতে কখনও ভুল হতে পারবেন না"


আমি ভয় করি যে এসএএস আমার সেটিংসে পছন্দের হাতিয়ার নয় বা এর সাথে আমার পরিচিতিও নেই। তদুপরি, আমি কোনও কুকবুকের চেয়ে কিছু উপায় খুঁজছি। ধরা যাক আমি এমন কিছু পরেছি যা গাণিতিক এবং মডেলিংয়ের দিক থেকে আরও বেশি।
em70

0

আপনার যদি মূল বিষয়গুলি (বহির্মুখী ব্যক্তিদের সনাক্তকরণ, মূল্যবোধগুলি, ভারসামগ্রীকরণ, কোডিং) থাকে তবে এই বিষয়ের উপর নির্ভর করে সরল একাডেমিক সাহিত্যের আরও অনেক সন্ধান পাওয়া যায়। উদাহরণস্বরূপ জরিপ গবেষণায় (এটি এমন একটি বিষয় যেখানে অনেক কিছুই ভুল হতে পারে, এবং পক্ষপাতের অনেক উত্স প্রবণ) সেখানে প্রচুর ভাল নিবন্ধ পাওয়া যাবে।

নিয়মিত ক্রসেকশনাল রিগ্রেশনের জন্য প্রস্তুত করার সময়, জিনিসগুলি কম জটিল হতে পারে। সেখানে সমস্যা যেমন উদাহরণস্বরূপ যে আপনি অনেক বেশি 'আউটলিয়ার' অপসারণ করেছেন এবং এইভাবে কৃত্রিমভাবে আপনার মডেলটিকে ভালভাবে ফিট করে।

আমি এইভাবে আপনাকে ভাল কৌশলগুলি শেখার পাশাপাশি সাধারণ জ্ঞানের বিষয়টিও মনে রাখার পরামর্শ দিচ্ছি। নিশ্চিত হয়ে নিন যে আপনি কৌশলগুলি সঠিকভাবে প্রয়োগ করেছেন এবং অন্ধভাবে নয়। অন্যান্য উত্তর সফ্টওয়্যার আলোচনার জন্য। আমি মনে করি যে ডেটা প্রস্তুতির জন্য এসপিএসএস খারাপ নয় (এসএএস সম্পর্কে ভাল জিনিসও শুনেছি) আপনার ডেটাসেটের আকারের উপর নির্ভর করে। ড্রপ ডাউন মেনুগুলি খুব স্বজ্ঞাত।

তবে আপনার প্রশ্নের প্রত্যক্ষ উত্তর হিসাবে, একাডেমিক সাহিত্য বিষয় এবং বিশ্লেষণের উপর নির্ভর করে আপনার ডেটা প্রস্তুতির জন্য খুব ভাল উত্স হতে পারে বা নাও হতে পারে।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.