আমার প্রশ্নটি ক্লাসিফায়ার / মডেল প্রশিক্ষণ / ফিটিংয়ের সময় অসম্পূর্ণ ডেটা নিয়ে কাজ করার কৌশলগুলিতে পরিচালিত ।
উদাহরণস্বরূপ, একটি ডেটাসেটে ডাব্লু / কয়েক শ সারি, প্রতিটি সারিতে শেষ আইটেম হিসাবে পাঁচটি মাত্রা এবং একটি শ্রেণির লেবেল বলা উচিত, বেশিরভাগ ডেটা পয়েন্টগুলি এর মতো দেখাবে:
[0.74, 0.39, 0.14, 0.33, 0.34, 0]
কিছু কিছু এর মতো দেখতে পারে:
[0.21, 0.68,?, 0.82, 0.58, 1]
সুতরাং এটি এই ধরণের ডেটা পয়েন্ট যা এই প্রশ্নের কেন্দ্রবিন্দু।
এই প্রশ্ন জিজ্ঞাসা করার জন্য আমার প্রাথমিক কারণটি আমার সামনে সরাসরি একটি সমস্যা ছিল; তবে, আমার প্রশ্ন পোস্ট করার আগে, আমি ভেবেছিলাম এটি আরও কার্যকর হতে পারে যদি আমি এটিকে পুনরায় বানানো করি যাতে উত্তরগুলি সম্প্রদায়ের বৃহত্তর অংশে কার্যকর হয়।
একটি সাধারণ তাত্ত্বিক হিসাবে, আসুন প্রক্রিয়া প্রবাহ চলাকালীন কখন তারা নিযুক্ত করা হয় তার উপর ভিত্তি করে এই ডেটা হ্যান্ডলিং কৌশলগুলিকে ভাগ করে নিন - শ্রেণিবদ্ধে ইনপুট দেওয়ার আগে বা সময়কালে (অর্থাত্ কৌশলটি শ্রেণিবদ্ধের অভ্যন্তরে থাকে)।
দ্বিতীয়টির জন্য আমি যে সর্বোত্তম উদাহরণটি ভাবতে পারি তা হ'ল সিদ্ধান্ত গাছগুলিতে ব্যবহৃত চালাক 'ত্রি-মুখী ব্রাঞ্চিং' কৌশল।
সন্দেহ নেই, পূর্বের বিভাগটি আরও বড়। যে কৌশলগুলি সম্পর্কে আমি অবগত রয়েছি সেগুলি নীচের একটি দলের মধ্যে পড়ে।
সম্প্রতি "অনুপস্থিত ডেটা হ্যান্ডলিং" সম্পর্কে আমার ব্যক্তিগত নোটগুলি পর্যালোচনা করার সময় আমি লক্ষ্য করেছি যে আমার কাছে কৌশলগুলির একটি চিত্তাকর্ষক তালিকা ছিল। আমি কেবলমাত্র মানসিক শান্তির জন্য এই নোটগুলি বজায় রাখি এবং যদি কোনও জুনিয়র সহকর্মী আমাকে কীভাবে নিখোঁজ হওয়া ডেটাগুলি মোকাবেলা করতে চায় সে সম্পর্কে জিজ্ঞাসা করেন। প্রকৃত অনুশীলনে, আমি শেষের ব্যতীত আসলে এগুলির কোনও ব্যবহার করি না।
অনুমান : কৌশলগুলির একটি সংকলনের জন্য একটি বিস্তৃত রুব্রিক যা সাধারণ ডিনমিনেটর (আমার বিশ্বাস) হ'ল অনুপস্থিত তথ্যটি একই ডেটা সেট দ্বারা সরবরাহ করা হয় - অনুমান / পূর্বাভাসের পরিবর্তে প্রতিস্থাপন।
পুনর্গঠন : অটো-এসোসিয়েটিভ নেটওয়ার্ক ব্যবহার করে অনুপস্থিত ডাটা পয়েন্টগুলি অনুমান করুন (কেবলমাত্র একটি নিউরাল নেটওয়ার্ক যাতে ইনপুট এবং আউটপুট স্তরগুলির আকারগুলি সমান - অন্য কথায়, আউটপুটটির ইনপুটটির একই মাত্রা থাকে); এখানে ধারণাটি হ'ল এই নেটওয়ার্কটিকে সম্পূর্ণ ডেটাতে প্রশিক্ষণ দেওয়া, তারপরে এটি অসম্পূর্ণ নিদর্শনগুলি খাওয়ানো এবং আউটপুট নোডগুলি থেকে হারিয়ে যাওয়া মানগুলি পড়া।
বুটস্ট্র্যাপিং : (পরিসংখ্যান বিশ্লেষণে এটি অন্য কোথাও ব্যবহারের ভিত্তিতে আমার কোনও সংক্ষিপ্তসার ভাবার দরকার নেই)।
অস্বীকৃতি : আপনার প্রশিক্ষণ সেট থেকে নিখোঁজ / দুর্নীতিগ্রস্থ উপাদানগুলির সাথে ডেটা পয়েন্টগুলি নিঃশব্দে সরান এবং ভান করে যে সেগুলি কখনও নেই।
modern
কৌশলগুলি বর্ণনা করে কিছু কাগজে আমাকে ইঙ্গিত করার জন্য এত দয়াবান হবেন ? ধন্যবাদ
mice
: jstatsoft.org/article/view/v045i03 । (আপনি আর ব্যবহার না করা সত্ত্বেও আপনার পরিচিতিটি দরকারী খুঁজে পাওয়া উচিত) এবং আর প্যাকেজের প্যাকেজের Amelia
সাথে অন্তর্ভুক্ত একটি দুর্দান্ত ভিগনেট রয়েছে। এই দুটি প্যাকেজ তাদের বিবরণে পৃথক, তবে উভয়ই একাধিক অনুচ্ছেদ ব্যবহার করে।