হারিয়ে যাওয়া ডেটা পরিচালনা করতে মেশিন লার্নিং অ্যালগরিদম ms


25

আমি পরীক্ষাগারের মানগুলি সহ উচ্চ-মাত্রিক ক্লিনিকাল ডেটা ব্যবহার করে একটি ভবিষ্যদ্বাণীমূলক মডেল বিকাশের চেষ্টা করছি। 5 কে স্যাম্পল এবং 200 ভেরিয়েবলের সাথে ডেটা স্পেস বিচ্ছিন্ন। বৈশিষ্ট্য নির্বাচন পদ্ধতি (আইজি, আরএফ ইত্যাদি) ব্যবহার করে ভেরিয়েবলগুলি র‌্যাঙ্ক করা এবং ভবিষ্যদ্বাণীমূলক মডেল বিকাশের জন্য শীর্ষস্থানীয় বৈশিষ্ট্যগুলি ব্যবহার করার ধারণাটি The

বৈশিষ্ট্য নির্বাচন যখন নাভেভে বেয়েস পদ্ধতির সাথে ভাল চলছে, আমি এখন আমার পরিবর্তনশীল জায়গাতে ডেটা (এনএ) হারিয়ে যাওয়ার কারণে ভবিষ্যদ্বাণীমূলক মডেলটি বাস্তবায়নের ক্ষেত্রে একটি বিষয়কে আঘাত করছি। এমন কোনও মেশিন লার্নিং অ্যালগরিদম আছে যা সাবধানে নিখোঁজ হওয়া ডেটা সহ নমুনাগুলি পরিচালনা করতে পারে?


1
উর্ধ্বমুখী উত্তরের অস্তিত্ব আমাকে বোঝায় যে এই প্রশ্নটি জবাবদিহি করার পক্ষে খুব বেশি বিস্তৃত নয়। আমি খোলা ছেড়ে ভোট দিচ্ছি
gung - পুনর্বহাল মনিকা

উত্তর:


15

এটি আপনার ব্যবহৃত মডেলের উপর নির্ভর করে। আপনি যদি কিছু জেনারেটরি মডেল ব্যবহার করেন তবে অনুপস্থিত মানগুলি () ব্যবহার করার জন্য একটি নীতিগত উপায় রয়েছে। উদাহরণস্বরূপ, নেভ বেইস বা গাউসিয়ান প্রসেসের মতো মডেলগুলিতে আপনি অনুপস্থিত ভেরিয়েবলগুলি একীভূত করতে পারবেন এবং অবশিষ্ট ভেরিয়েবলগুলির সাথে সেরা বিকল্পটি বেছে নেবেন।

বৈষম্যমূলক মডেলগুলির জন্য এটি আরও বিস্তৃত, যেহেতু এটি সম্ভব নয়। অনেকগুলি পন্থা রয়েছে। ঘড়ামণি এবং জর্ডান একটি নীতিগত পদ্ধতির বর্ণনা দেয়, যেখানে অনুপস্থিত মানগুলি গোপন ভেরিয়েবলগুলির মতো বিবেচনা করা হয় এবং EM অ্যালগরিদমের একটি বৈকল্পিক তাদের অনুমানের জন্য ব্যবহৃত হয়। অনুরূপ ফ্যাশনে, স্মোলা এট আল। এসভিএম অ্যালগরিদমের এমন একটি রূপ বর্ণনা করুন যা স্পষ্টতই সমস্যার মোকাবেলা করে।

নোট করুন যে প্রায়শই ভেরিয়েবলের গড় মানের দ্বারা অনুপস্থিত মানগুলি প্রতিস্থাপন করার পরামর্শ দেওয়া হয়। এটি প্রথম সমস্যা হিসাবে সমস্যাযুক্ত। কখনও কখনও, আমি কাগজপত্রগুলি পেরিয়ে এসেছি যা অনুপস্থিত মানগুলি অনুমান করার জন্য ভেরিয়েবলগুলিতে রিগ্রেশন করে, তবে এটি আপনার ক্ষেত্রে প্রযোজ্য কিনা তা আমি বলতে পারি না।


2
এটি প্রায়শই ভেরিয়েবলের গড় মানের দ্বারা অনুপস্থিত মানগুলি পরিবর্তনের জন্য সুপারিশ করা হয় । আপনি কি উত্সটি নির্দেশ করতে পারেন?
সের্গে বুশমানভ

1
@ জুমাপা আপনি কেন দাবি করেন যে বৈষম্যমূলক মডেলগুলিতে হারিয়ে যাওয়া পরিবর্তনগুলি একীভূত করা সম্ভব নয়? আমরা লজিস্টিক রিগ্রেশন এর জন্য সর্বদা এটি করি। আসলে, এটি একাধিক অনুমানের সমান দেখানো যেতে পারে।
অ্যাডমো

1
@ সের্গে বুশমানভ এখানে আপনার বিভ্রান্তিতে আমি আপনার সাথে আছি। এটি প্রায়শই (একক) অর্থ অনুচ্ছেদের ব্যবহার করার পরামর্শ দেওয়া হয় না কারণ এটি কিছু ক্ষেত্রে পক্ষপাত এবং অন্যান্য ক্ষেত্রে অ্যান্টিকনজারভেটিভ বৈধতা মেট্রিকগুলিতে বাড়ে।
অ্যাডমো

7

আর-প্যাকেজ র‌্যান্ডমফোরেস্ট এসআরসি, যা ব্রেইমের এলোমেলো বন প্রয়োগ করে, বিস্তৃত শ্রেণীর বিশ্লেষণের জন্য নিখোঁজ ডেটা পরিচালনা করে (রিগ্রেশন, শ্রেণিবিন্যাস, বেঁচে থাকা, প্রতিযোগিতামূলক ঝুঁকি, নিরীক্ষণযোগ্য, বহুভুক্ত)।

নিম্নলিখিত পোস্টটি দেখুন:

কেন র্যান্ডম ফরেস্ট ভবিষ্যদ্বাণীগুলির অনুপস্থিত মানগুলি পরিচালনা করে না?


2

অনুপস্থিত ডেটা থেকে মুক্তি পেতে নিকটতম প্রতিবেশীদের ব্যবহার করে অনুশাসন চেষ্টা করুন।

অতিরিক্তভাবে, ক্যারেট প্যাকেজের বিভিন্ন অ্যালগরিদমের ইন্টারফেস রয়েছে এবং সেগুলি আর-এ পূর্বাভাস পদ্ধতি নিয়ে আসে যা উপন্যাসের ডেটা পূর্বাভাস দেওয়ার জন্য ব্যবহার করা যেতে পারে। পারফরম্যান্স মেট্রিকগুলি একই প্যাকেজটি ব্যবহার করে কে-ফোল্ড ক্রস বৈধকরণ ব্যবহার করেও অনুমান করা যায়।


2

শ্রেণিবিন্যাস এবং রিগ্রেশন গাছের মতো ভবিষ্যদ্বাণীমূলক মডেল তৈরি করার সময় অ্যালগরিদমগুলিও অনুপস্থিত মানটিকে একটি অনন্য এবং ভিন্ন মান হিসাবে ব্যবহার করতে পারে। যেমন এক্সজিবিস্ট


আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.