আংশিকভাবে "অজানা" ডেটা সহ শ্রেণিবদ্ধকরণ


11

মনে করুন আমি এমন একটি শ্রেণিবদ্ধ শিখতে চাই যা সংখ্যার ভেক্টরকে ইনপুট হিসাবে গ্রহণ করে এবং আউটপুট হিসাবে একটি শ্রেণিবদ্ধ লেবেল দেয়। আমার প্রশিক্ষণের ডেটাতে প্রচুর সংখ্যক ইনপুট-আউটপুট জোড়া থাকে।

যাইহোক, যখন আমি কিছু নতুন ডেটা পরীক্ষা করতে আসি, তখন এই ডেটাটি সাধারণত আংশিকভাবে সম্পূর্ণ হয়। উদাহরণস্বরূপ যদি ইনপুট ভেক্টরটি দৈর্ঘ্যের 100 হয় তবে কেবলমাত্র 30 টি উপাদানকে মান দেওয়া যেতে পারে এবং বাকীগুলি "অজানা"।

এর উদাহরণ হিসাবে চিত্রের স্বীকৃতি বিবেচনা করুন যেখানে এটি জানা যায় যে চিত্রটির অংশটি অন্তর্ভুক্ত রয়েছে। বা শ্রেণিবিন্যাসকে সাধারণ অর্থে বিবেচনা করুন যেখানে এটি পরিচিত যে তথ্যের অংশটি দূষিত। সমস্ত ক্ষেত্রে, আমি ঠিক জানি ডেটা ভেক্টরের কোন উপাদানগুলি অজানা অংশ।

আমি ভাবছি যে আমি কীভাবে এমন শ্রেণিবদ্ধ শিখতে পারি যা এই ধরণের ডেটার জন্য কাজ করবে? আমি কেবল "অজানা" উপাদানগুলিকে একটি এলোমেলো সংখ্যায় সেট করতে পেরেছিলাম, তবে জানা যায় যে পরিচিতদের তুলনায় প্রায়শই অজানা উপাদান রয়েছে, এটি ভাল সমাধানের মতো শোনাচ্ছে না। অথবা, আমি এলোমেলোভাবে প্রশিক্ষণ ডেটাতে উপাদানগুলিকে "অজানা" হিসাবে পরিবর্তন করতে এবং সম্পূর্ণ ডেটার পরিবর্তে এগুলি দিয়ে প্রশিক্ষণ দিতে পারি, তবে এর জন্য জানা এবং অজানা উপাদানগুলির সমস্ত সংমিশ্রণের বিস্তৃত নমুনার প্রয়োজন হতে পারে।

বিশেষত আমি নিউরাল নেটওয়ার্কগুলি সম্পর্কে ভাবছি, তবে আমি অন্য শ্রেণিবদ্ধদের জন্য উন্মুক্ত।

কোন ধারনা? ধন্যবাদ!


en.m.wikedia.org/wiki/ মিসিং_ডেটা শুরু করার জায়গা হতে পারে।
হাটসেপসুট

আমি মনে করি যে অর্ধ-তত্ত্বাবধানে পড়াশোনাটি এমন ক্ষেত্রে বেশি হয় যেখানে প্রশিক্ষণের ডেটা পুরোপুরি লেবেল না থাকে। আমার ক্ষেত্রে, আমার সমস্ত প্রশিক্ষণের ডেটা লেবেলযুক্ত তবে পরীক্ষার তথ্যের স্বতন্ত্র অংশগুলি "অজানা"।
কর্নিবাউরাস

মই নেটওয়ার্কগুলির সাথে আধা-তত্ত্বাবধানে শিক্ষণ: github.com/
করিয়াস

উত্তর:


2

আমি মনে করি এটি নিউরাল নেটওয়ার্কগুলির সাথে কাজ করার একটি যুক্তিসঙ্গত উপায় রয়েছে।

অজানা জন্য আপনার মান 0 হতে দিন। এখন প্রশিক্ষণে আপনি একটি ইনপুট বাছুন এবং এলোমেলোভাবে এর মানগুলি 0 টিতে সম্ভাব্যতা দিয়ে রেখেছেন , যেখানে পরীক্ষার সময় পি আপনার অনুপস্থিত ইনপুটগুলির প্রত্যাশিত ভগ্নাংশ। নোট করুন যে বিভিন্ন পুনরাবৃত্তিতে একই ইনপুটটির বিভিন্ন পজিশনে 0 গুলি থাকবে।p

আমি এটি আগে করে দেখিনি তবে এটি লুকানো নিউরনের পরিবর্তে আপনার ইনপুট নিউরনে ড্রপআউট (নিউরাল নেটওয়ার্কগুলির একটি পরিচিত নিয়মিতকরণ পদ্ধতি) করার মতোই হবে very আমি সাধারণভাবে এটি করা ভাল ধারণা বলে মনে করি না, তবে আপনি যদি (আপনার ক্ষেত্রে যেমন) বাধ্য হন তবে কমপক্ষে এটি তাত্ত্বিকভাবে এমন কোনও কাজের কাছে পরিচিত যা যথেষ্ট পরিচিত।


1

আমি মনে করি কিছু পছন্দ আছে যা কোনও শ্রেণিবদ্ধের সাথে কাজ করে:

  • প্রশিক্ষণ সেট থেকে গড় বা মধ্যমা বা ইনপুটটির পর্যবেক্ষণকৃত অংশগুলি থেকে পূর্বাভাসিত কিছু মানের মতো অনুপস্থিত মানগুলিকে একক মান দিয়ে অঙ্ক করুন বা একটি এলোমেলো সংখ্যা বা একটি ধ্রুবক ব্যবহার করুন।
  • অজানাগুলির জন্য কয়েকটি পৃথক মান ব্যবহার করুন এবং ফলাফলগুলিকে একত্র করুন, উদাহরণস্বরূপ এগুলি গড় করুন

এগুলি ছাড়াও আপনি গাছ ভিত্তিক শ্রেণিবদ্ধকারী (উদাহরণস্বরূপ এলোমেলো বন) ব্যবহার করতে পারেন এবং যদি গাছে গায়েবিযুক্ত বৈশিষ্ট্যের কোনও বিভাজনের মূল্যায়ন করতে হয় তবে এটি কেবলমাত্র শিশু নোডের কাছে ডেটা পাঠিয়ে দিতে পারে।

তৃতীয় বিকল্পটি হ'ল একটি জেনারেটরি ক্লাসিফায়ার ব্যবহার করুন যা সম্পূর্ণ যৌথ বিতরণ মডেল করে যেখানে আপনার ইনপুট এবং শ্রেণিবদ্ধকরণ লেবেল। যে সঙ্গে, আপনি আদর্শভাবে অজানা অংশের উপর একঘরে করবে , অর্থাত্ আপনি চেষ্টা করবে কোন অজানা অংশের জন্য মান ও ফলাফলের যে নিন্দা সম্ভাবনা দ্বারা পরিমেয় গড়। এটি কোনও শ্রেণিবদ্ধের জন্য বদ্ধ আকারে বিশ্লেষণাত্মকভাবে করা যেতে পারে, যেমন লিনিয়ার বৈষম্যমূলক বিশ্লেষণ মডেল, বা প্রায় অজানাদের নমুনা দেওয়ার মাধ্যমে, যেমন একটি সীমাবদ্ধ বল্টজম্যান মেশিন বা এর গভীরতম রূপগুলির জন্য (যা ফিড ফরোয়ার্ড নিউরাল নেটওয়ার্কগুলির সাথে সম্পর্কিত)।p(x,y)xyxx


আমি মনে করি না এটি কাজ করবে। কম্পিউটার দর্শন থেকে একটি আদর্শ উদাহরণ ব্যবহার করুন, একটি চিত্রের প্রতিটি পিক্সেল কোনও অবজেক্টের বিভিন্ন অংশের সাথে যুক্ত হতে পারে। উদাহরণস্বরূপ, চিত্র 1 এর পিক্সেল (50,50) একটি বিড়ালের চোখ, তবে বিড়ালটিকে চিত্র 2 তে কিছুটা স্থানান্তরিত করা হয়েছে, সুতরাং (50, 50) ব্যাকগ্রাউন্ডের কেবল একটি পিক্সেল। যদি এনএ এর অবস্থান, অর্থাৎ। এলোমেলো ঘটনা, পর্যবেক্ষণ অনুসারে পরিবর্তিত হয়, আপনার অনুমান কাজ করবে না
horaceT
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.