স্বয়ংক্রিয় ডেটা সাফ করা


10

একটি সাধারণ সমস্যা হ'ল এমএল হ'ল ডেটাগুলির নিম্নমান: বৈশিষ্ট্যর মানগুলিতে ত্রুটি, ভুল শৃঙ্খলাবদ্ধকরণ ইত্যাদি etc.

এই সমস্যার সমাধানের একটি উপায় হ'ল ম্যানুয়ালি ডেটা দিয়ে গিয়ে পরীক্ষা করে দেখা, তবে কি অন্য কৌশল আছে? (আমি বাজি রেখেছি!)

কোনটি ভাল এবং কেন?


গুগল পরিমার্জন এক নজরে মূল্য হতে পারে।
দিমিত্রি ভি। মাস্টারভ

উত্তর:


6

পিসিএর মতো কোনও কিছুর মাধ্যমে মাত্রা হ্রাস হ্রাস আপনার ডেটা উপস্থাপনের জন্য সমালোচনামূলক মাত্রাগুলির সংখ্যা সম্পর্কে ধারণা পেতে সহায়ক হবে।

ভুল শ্রেণিবদ্ধ উদাহরণগুলির জন্য পরীক্ষা করতে, আপনি আপনার কাঁচা ডেটা আপনার প্রস্তাবিত বিভাগগুলিতে কতটা ভাল ফিট করতে পারবেন তার ধারণা পেতে আপনি আপনার ডেটা ক্লুডিং করার জন্য একটি মূল রৌদ্রবিদ্যার কাজ করতে পারেন। স্বয়ংক্রিয় না হলেও, এই পর্যায়ে ভিজ্যুয়ালাইজিং সহায়ক হবে, কারণ আপনার ভিজ্যুয়াল মস্তিষ্ক নিজের মধ্যে একটি শক্তিশালী শ্রেণিবদ্ধী।

একেবারে অনুপস্থিত তথ্যের পরিপ্রেক্ষিতে পরিসংখ্যানগুলির মধ্যে ইতিমধ্যে সেই পরিস্থিতিটি মোকাবেলা করার জন্য অনেকগুলি কৌশল রয়েছে, যার মধ্যে ফাঁস পূরণ করার জন্য বিদ্যমান সেট বা অন্য কোনও সেট থেকে ডেটা নেওয়া including


3
তথ্য ষড়যন্ত্র হয় একটি ম্যানুয়াল চেক।
andreister

@ অ্যান্ড্রিস্টার আমি স্প্রেডশীটে পয়েন্ট পয়েন্ট চেক করে ম্যানুয়াল চেক হিসাবে বিবেচনা করি তবে ঠিক আছে, আমি দেখছি আপনি কী পাচ্ছেন।
জোনস্কা

5

আপনি প্রকৃতপক্ষে কোনও জ্ঞানী ব্যক্তিকে লুপ থেকে সরাতে পারবেন না এবং যুক্তিসঙ্গত ফলাফলের আশা করতে পারবেন না। এর অর্থ এই নয় যে সেই ব্যক্তিকে প্রতিটি একক আইটেম স্বতন্ত্রভাবে দেখতে হবে, তবে শেষ পর্যন্ত ডেটার সংক্ষিপ্তসার / গ্রাফগুলি যুক্তিসঙ্গত কিনা তা জানতে কিছু প্রকৃত জ্ঞান লাগে। (উদাহরণস্বরূপ: ভেরিয়েবল এ কি নেতিবাচক হতে পারে, ভেরিয়েবল বি ভেরিয়েবল এ এর ​​চেয়ে বড় হতে পারে, বা শ্রেণীবদ্ধ ভেরিয়েবল সি এর জন্য 4 বা 5 টি পছন্দ আছে?)

একবার আপনি ডেটাটির উপর জ্ঞানহীন মানবের চেহারা পেয়ে গেলে আপনি সম্ভবত একাধিক নিয়ম তৈরি করতে পারেন যা আপনি স্বয়ংক্রিয়ভাবে ডেটা পরীক্ষা করতে ব্যবহার করতে পারেন। সমস্যাটি হ'ল, অন্যান্য ত্রুটিগুলি দেখা দিতে পারে যা আপনি ভাবেননি। (উদাহরণস্বরূপ, ডেটা সংগ্রহের প্রক্রিয়াতে একটি প্রোগ্রামিং ত্রুটি যা ভেরিয়েবল এ-কে ভেরিয়েবল সিতে নকল করে)


দুর্দান্ত উত্তর। আমি কেবল তা নিশ্চিত করেই যোগ করব যে ভেরিয়েবলগুলি পরিষ্কার করার জন্য ব্যবহৃত সিনট্যাক্স ডকুমেন্টেশনে বজায় রাখা হয়েছে, কেন মন্তব্যগুলি পরিবর্তিত হয়েছিল সে সম্পর্কে বর্ণনামূলক প্যাসেজ না থাকলে comments :)
মিশেল

1

যদি আপনি জানেন যে আপনার ডেটাটি বেশ ভাল নয়, তবে সর্বদা বিদেশীদের জন্যও পরীক্ষা করা ভাল। বেশিরভাগ সময়ই অসঙ্গতি হয়।

আপনার যদি অনেকগুলি বৈশিষ্ট্য থাকে তবে মাত্রিক মাত্রা হ্রাস করা আবশ্যক। পিসিএ তার জন্য বেশ দক্ষ।

আপনার যদি ডেটা না পাওয়া যায় তবে আপনি অনুপ্রবেশ বা ইন্টারপোলেশন ব্যবহার করতে পারেন, তবে আপনার প্রয়োজনীয়তা যদি এটির অনুমতি দেয় তবে বিজয়ী ক্ষেত্রে সহযোগী ফিল্টারিং ব্যবহার করা উচিত।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.