মতলব মধ্যে পারস্পরিক তথ্য ব্যবহার করে বৈশিষ্ট্য নির্বাচন


10

আমি এই বক্তৃতা নোটগুলিতে বর্ণিত (5 পৃষ্ঠায়) বৈশিষ্ট্য নির্বাচনের ক্ষেত্রে পারস্পরিক তথ্যের ধারণাটি প্রয়োগ করার চেষ্টা করছি ।

আমার প্ল্যাটফর্মটি মতলব। অনুপ্রেরণামূলক তথ্য থেকে পারস্পরিক তথ্য গণনা করার সময় একটি সমস্যা আমি দেখতে পাই যে সংখ্যাটি সর্বদা উপরের দিকে পক্ষপাতদুষ্ট থাকে। মতলব সেন্ট্রিয়ায় এমআই গণনা করতে আমি প্রায় 3 ~ 4 টি আলাদা ফাইল পেয়েছি এবং যখন আমি স্বাধীন র্যান্ডম ভেরিয়েবলগুলিতে ফিড করি তখন এগুলি সমস্ত বড় সংখ্যক (যেমন> 0.4) দেয়।

আমি কোনও বিশেষজ্ঞ নই, তবে সমস্যাটি মনে হচ্ছে আপনি এমআই গণনা করার জন্য যদি আপনি কেবল যৌথ এবং প্রান্তিক ঘনত্ব ব্যবহার করেন, তবে প্রক্রিয়াতে পক্ষপাতটি প্রবর্তন করা হয় কারণ এমআই সংজ্ঞা দ্বারা ইতিবাচক হয়। পারস্পরিক তথ্যকে সঠিকভাবে কীভাবে অনুমান করা যায় সে সম্পর্কে কারও কাছে ব্যবহারিক পরামর্শ রয়েছে?

একটি সম্পর্কিত প্রশ্ন, বাস্তবে, লোকেরা কীভাবে বৈশিষ্ট্যগুলি নির্বাচন করতে এমআই ব্যবহার করে? এমআই তত্ত্বীয়ভাবে আনবাউন্ডেড না হওয়ায় কীভাবে একটি থ্রেশহোল্ড মান নিয়ে আসবেন তা আমার কাছে স্পষ্ট নয়। অথবা লোকেরা কেবল এমআই দ্বারা বৈশিষ্ট্যগুলি র‌্যাঙ্ক করে এবং শীর্ষস্থানীয় কে বৈশিষ্ট্য গ্রহণ করে?


কেউ কি এই বিষয়ে আগ্রহী নয়?

আপনার কি এখনও এই সম্পর্কে একটি উত্তর আছে?
এন্ট্রপি

দুর্ভাগ্যক্রমে না. আপনারও কি একই সমস্যা হচ্ছে?

উত্তর:


3

এটি সীমাবদ্ধ নমুনা পক্ষপাতিত্বের সমস্যা ।

ঘনত্বগুলির ক্ষুদ্রতর নমুনার অনুমানগুলি হৈচৈ হয় এবং এই প্রকরণটি ভেরিয়েবলগুলির মধ্যে উত্সাহী পারস্পরিক সম্পর্ককে প্ররোচিত করে যা অনুমানিত তথ্যের মান বাড়ায়।

(আর-1)(এস-1)/2এনLn22এনLn(2)আমিχ2(আর-1)(এস-1)

মতলবতে এই কৌশলগুলি বাস্তবায়নকারী কিছু প্যাকেজের মধ্যে রয়েছে ইনফোটুলবক্স এবং স্পাইক ট্রেন অ্যানালাইসিস টুলকিট

অবিচ্ছিন্ন ক্ষেত্রে, নিকটতম প্রতিবেশী দূরত্বের উপর ভিত্তি করে অনুমানকারীরা সমস্যাটি হ্রাস করে।


1

আমি কেএল-ডাইভারজেন্স ব্যবহার করেছি এবং উপযুক্ত নমুনা আকারের সাথে লোকির জন্য 0 এর মান পাই যেখানে বিতরণগুলির সমান সম্ভাবনা থাকে।

আমি আপনাকে কেএমএল-ডাইভার্জেন্সের শর্তাবলী আপনার এমআই পুনর্বিবেচনা করার পরামর্শ দিচ্ছি।


1

ইনপুট ভেরিয়েবল (বৈশিষ্ট্য) নির্বাচনের জন্য আপনার আংশিক মিউচুয়াল ইনফরমেশন অ্যালগরিদম ব্যবহার করা উচিত। এটি এমআই ধারণা এবং সম্ভাব্যতা ঘনত্ব অনুমানের উপর ভিত্তি করে। উদাহরণস্বরূপ:

  1. কার্নেল ভিত্তিক পিএমআই : (+) এর একটি থামার মানদণ্ড রয়েছে (আকাইকে তথ্য মানদণ্ড) (-) উচ্চতর জটিলতা
  2. কেএনএন ভিত্তিক পিএমআই : (-) এর থামার মানদণ্ড নেই (+) নিম্ন জটিলতা

আমি পিএমআই ব্যবহার করেছি নিউরাল নেটওয়ার্ক ইনপুটগুলির সংখ্যা হ্রাস করতে কারণ তারা জটিলতা বাড়ায় এবং অন্যান্য সমস্যাগুলি প্রবর্তন করে। আপনি কৃত্রিম নিউরাল নেটওয়ার্ক পেপারের ইনপুট ভেরিয়েবল সিলেকশন পদ্ধতিগুলির পর্যালোচনাতে ইনপুট ভেরিয়েবল সিলেকশন (আইভিএস) অ্যালগরিদমগুলির একটি সম্পূর্ণ ওভারভিউ খুঁজে পেতে পারেন । আপনি এসভিএম এবং অন্যান্যগুলির জন্য আইভিএস ব্যবহার করতে পারেন। জিনিসগুলি সংক্ষিপ্ত করতে, পিএমআই ব্যবহার করুন।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.