শ্রেণিবদ্ধকরণের জন্য বৈশিষ্ট্য নির্বাচন কেন গুরুত্বপূর্ণ?


11

আমি বৈশিষ্ট্য নির্বাচন সম্পর্কে শিখছি। মডেল তৈরির জন্য কেন এটি গুরুত্বপূর্ণ এবং দরকারী হবে তা আমি দেখতে পাচ্ছি। তবে আসুন তদারকি করা শেখার (শ্রেণিবিন্যাস) কার্যগুলিতে ফোকাস করি। শ্রেণিবদ্ধকরণের জন্য বৈশিষ্ট্য নির্বাচন কেন গুরুত্বপূর্ণ?

আমি বৈশিষ্ট্য নির্বাচন এবং তত্ত্বাবধানে শেখার জন্য এর ব্যবহার সম্পর্কে প্রচুর সাহিত্যের লেখা দেখি, তবে এটি আমার ধাঁধা দেয়। বৈশিষ্ট্য নির্বাচনটি কোন বৈশিষ্ট্যগুলি ফেলে দিতে হবে তা চিহ্নিত করার বিষয়ে। স্বজ্ঞাতভাবে, কিছু বৈশিষ্ট্য ফেলে দেওয়া নিজেকে পরাজিত বলে মনে হচ্ছে: এটি তথ্য ফেলে দিচ্ছে। দেখে মনে হচ্ছে তথ্য ছুঁড়ে ফেলা যাতে সহায়তা করা উচিত নয়।

এমনকি কিছু বৈশিষ্ট্য অপসারণ করা যদি আমাদের উপকার করে, এমনকি যদি আমরা কিছু বৈশিষ্ট্যগুলি ফেলে দিই এবং বাকীগুলিকে তত্ত্বাবধানে শেখার অ্যালগরিদমগুলিতে খাওয়াতাম তবে তদারকির শিখার অ্যালগরিদমকে পরিচালনা করার পরিবর্তে আমাদের কেন তা করা দরকার? কিছু বৈশিষ্ট্য যদি সহায়ক না হয়, তবে কোনও নিরীক্ষিত তত্ত্বাবধানে শেখার অ্যালগরিদমটি কি স্পষ্টভাবে আবিষ্কার করতে এবং সেই বৈশিষ্ট্যটি ব্যবহার করে না এমন একটি মডেল শিখতে হবে না?

এত স্বজ্ঞাতভাবে আমি আশা করতাম যে বৈশিষ্ট্য নির্বাচনটি অর্থহীন অনুশীলন হবে যা কখনও সাহায্য করে না এবং কখনও কখনও আঘাত করতে পারে না। তবে এটি এত ব্যাপকভাবে ব্যবহৃত এবং এর সম্পর্কে লিখিত বিষয়টি আমাকে সন্দেহ করে যে আমার অন্তর্নিহিতটি ত্রুটিযুক্ত। তত্ত্বাবধানে পড়াশোনা করার সময়, বৈশিষ্ট্য নির্বাচন কেন দরকারী এবং গুরুত্বপূর্ণ সে বিষয়ে কোনও অন্তর্দৃষ্টি দিতে পারেন? কেন এটি মেশিন লার্নিংয়ের কর্মক্ষমতা উন্নত করে? এটি আমি কোন শ্রেণিবদ্ধ ব্যবহার করি তার উপর নির্ভর করে?

উত্তর:


10

আপনার অন্তর্দৃষ্টি বেশ সঠিক। বেশিরভাগ পরিস্থিতিতে, বৈশিষ্ট্য নির্বাচনটি সরল ব্যাখ্যার আকাঙ্ক্ষাকে প্রতিনিধিত্ব করে যা তিনটি ভুল বোঝাবুঝির ফলস্বরূপ:

  1. বিশ্লেষক বুঝতে পারেন না যে "নির্বাচিত" বৈশিষ্ট্যগুলির সেটটি বেশ অস্থির, অর্থাত্, শক্তিশালী নয়, এবং অন্য কোনও ডেটাসেটে করা হলে নির্বাচনের প্রক্রিয়াটি বৈশিষ্ট্যগুলির একটি সম্পূর্ণ ভিন্ন সংকলনের ফলস্বরূপ। "ডান" বৈশিষ্ট্যগুলি নির্বাচন করার জন্য ডেটা প্রায়শই প্রয়োজনীয় তথ্য সামগ্রী ধারণ করে না। সহ-লাইনারি উপস্থিত থাকলে এই সমস্যা আরও খারাপ হয় gets
  2. নিয়ন্ত্রণ ব্যবস্থা ও প্রক্রিয়াগুলি অনিয়ন্ত্রিত পরীক্ষাগুলিতে জটিল; মানুষের আচরণ এবং প্রকৃতি জটিল এবং পার্সিমোনাস নয়।
  3. গুরুত্বপূর্ণ বৈশিষ্ট্যগুলি কী এবং "গুরুত্বপূর্ণ " সাথে সাথে কী সম্পর্ক রয়েছে তা উভয়কেই আপনাকে জিজ্ঞাসা করতে ডেটা জিজ্ঞাসা করে ভবিষ্যদ্বাণীমূলক নির্ভুলতার ক্ষতি হয় । কিছু ভেরিয়েবল ব্যবহার করার চেয়ে "প্রতিটি ভেরিয়েবলের সামান্য বিট ব্যবহার করা ভাল" এবং অন্যের জন্য কিছুই নয় (যেমন, সঙ্কুচিত / পেনালাইজেশন ব্যবহার করা)।Y

এটি অধ্যয়নের কিছু উপায়:

  1. লাসো , ইলাস্টিক নেট এবং একটি স্ট্যান্ডার্ড চতুর্ভুজ জরিমানার (রিজ রিগ্রেশন) মধ্যে ভবিষ্যদ্বাণীমূলক নির্ভুলতার তুলনা করুন
  2. বুটস্ট্র্যাপ পরিবর্তনশীল গুরুত্বটিকে এলোমেলো বন থেকে নেওয়া এবং তাদের স্থায়িত্ব পরীক্ষা করে
  3. সংখ্যার সম্ভাব্য বৈশিষ্ট্যগুলির উপর, যেমন, আংশিক পরীক্ষার (বা বা মতো কিছু) পরীক্ষাগুলির উপর ভিত্তি করে গণনা বুটস্ট্র্যাপের আত্মবিশ্বাসের ব্যবস্থাগুলি এবং দেখুন যে এই আত্মবিশ্বাসের অত্যন্ত প্রশস্ত , আপনাকে কার্যের অসুবিধা সম্পর্কে সরাসরি অবহিত করা। Http://biostat.mc.vanderbilt.edu/rms থেকে লিঙ্ক করা আমার কোর্সের নোটগুলিতে ওএলএস ব্যবহার করে ভবিষ্যদ্বাণীকারীদের বুটস্ট্র্যাপিং র‌্যাঙ্ক ক্রমের উদাহরণ রয়েছে।χ2ρDxy

এগুলি সবই শ্রেণিবদ্ধকরণ এবং ভবিষ্যদ্বাণীটির আরও সাধারণ এবং দরকারী ধারণা উভয় ক্ষেত্রেই প্রযোজ্য।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.