মেশিন লার্নিং অ্যালগরিদমে ডেটা এবং গা data় ডেটার মধ্যে পার্থক্য


20

স্পার ডেটা এবং অনুপস্থিত ডেটার মধ্যে প্রধান পার্থক্য কী? এবং এটি কীভাবে মেশিন লার্নিংকে প্রভাবিত করে? আরও সুনির্দিষ্টভাবে বলা যায়, শ্রেণিবিন্যাস অ্যালগরিদম এবং রিগ্রেশন (সংখ্যাগুলির পূর্বাভাস) ধরণের অ্যালগরিদমের উপর স্পার্স ডেটা এবং অনুপস্থিত ডেটাগুলির কী প্রভাব রয়েছে। আমি এমন একটি পরিস্থিতির কথা বলছি, যেখানে হারানো ডেটার শতাংশ শতাংশ তাৎপর্যপূর্ণ এবং আমরা নিখোঁজ থাকা ডেটাযুক্ত সারিগুলি ফেলে দিতে পারি না।


4
স্পার্স ডেটা মানে অনেকগুলি মান শূন্য তবে আপনি জানেন যে সেগুলি শূন্য। হারিয়ে যাওয়া ডেটার অর্থ হল কিছু বা অনেকগুলি মান কী তা আপনি জানেন না
আনা এসডিটিসি

ধন্যবাদ। এটাই আমি ভেবেছিলাম, তবে তা নিশ্চিত করতে চেয়েছি। এছাড়াও, যেমন প্রশ্নে উল্লিখিত হয়েছে, সাধারণভাবে, এই ধরণের ডেটাসেটগুলি কীভাবে মেশিন লার্নিংয়ের সমস্যায় পরিচালিত হয় তা জানতে চাইবেন
ক্লান্ত এবং বিরক্ত হয়ে ডেভ

1
আমি মনে করি আপনার প্রশ্নটি কিছুটা অস্পষ্ট। "মেশিন লার্নিং" এর মধ্যে বিস্তৃত পদ্ধতি এবং সরঞ্জাম অন্তর্ভুক্ত রয়েছে, সুতরাং উত্তরটি আপনার কাছে বা আপনি কী করতে চান তার উপর নির্ভর করে। এখানে তারা নিখোঁজ ডেটা হ্যান্ডল করার কয়েকটি পদ্ধতি নিয়ে আলোচনা করেছেন: stats.stackexchange.com/questions/103500/…
আন্না এসডিটিসি

ধন্যবাদ। আমি বিভিন্ন বিস্তৃত সরঞ্জাম এবং এমএল অ্যালগরিদমের ধরণ সম্পর্কে সচেতন। তবে জানতে চেয়েছিলেন কোন সাধারণ পন্থা আছে কিনা।
ক্লান্ত এবং বিরক্ত ডেভ

উত্তর:


16

বোঝার স্বাচ্ছন্দ্যের জন্য, আমি এটি উদাহরণ ব্যবহার করে বর্ণনা করব। ধরা যাক যে আপনি এমন কোনও ডিভাইস থেকে ডেটা সংগ্রহ করছেন যাতে 12 টি সেন্সর রয়েছে। এবং আপনি 10 দিনের জন্য ডেটা সংগ্রহ করেছেন।

আপনি যে তথ্য সংগ্রহ করেছেন তা নিম্নরূপ: এখানে চিত্র বর্ণনা লিখুন

এটিকে স্পার্স ডেটা বলা হয় কারণ বেশিরভাগ সেন্সরের আউটপুট শূন্য থাকে। যার অর্থ those সেন্সরগুলি সঠিকভাবে কাজ করছে তবে আসল পড়া শূন্য। যদিও এই ম্যাট্রিক্সে উচ্চ মাত্রিক ডেটা রয়েছে (12 টি অক্ষ) এটি বলা যেতে পারে যে এতে কম তথ্য রয়েছে contains

ধরা যাক আপনার ডিভাইসের 2 টি সেন্সর ত্রুটিযুক্ত।
তারপরে আপনার ডেটা এমন হবে:এখানে চিত্র বর্ণনা লিখুন

এই ক্ষেত্রে, আপনি সেন্সর 1 এবং সেন্সর 6 এর ডেটা ব্যবহার করতে পারবেন না তা দেখতে পাবেন। হয় আপনাকে ফলাফলগুলিকে প্রভাবিত না করে ম্যানুয়ালি ডেটা পূরণ করতে হবে অথবা আপনাকে পরীক্ষাটি আবার করতে হবে।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.