বাইনারি শ্রেণিবদ্ধকরণের জন্য পরিবর্তনশীল নির্বাচন পদ্ধতি


29

কি কি পরিবর্তনশীল / বৈশিষ্ট্য নির্বাচন যে আপনার পছন্দ করা লার্নিং সেটে পর্যবেক্ষণ চেয়ে আছে যখন আরো অনেক ভেরিয়েবল বাইনারি শ্রেণীবিভাগ জন্য / বৈশিষ্ট্য? এখানে উদ্দেশ্যটি হল বৈশিষ্ট্য নির্বাচন পদ্ধতি যা সর্বোত্তম শ্রেণিবিন্যাস ত্রুটি হ্রাস করে তা নিয়ে আলোচনা করা।

আমরা পারি স্বরলিপি ঠিক করুন: দৃঢ়তা জন্য যাক গ্রুপ থেকে হতে পর্যবেক্ষণ শেখার সেট । সুতরাং হল লার্নিং সেটের আকার। আমরা বৈশিষ্ট্য সংখ্যা (যেমন বৈশিষ্ট্য স্পেস এর মাত্রা) হতে সেট। কে of এর -th স্থানাঙ্ক বোঝাতে দিন ।{ x i 1 , , x i n i } i n 0 + n 1 = n p x [ i ] i x R pi{0,1}{x1i,,xnii}in0+n1=npx[i]ixRp

আপনি বিশদটি দিতে না পারলে সম্পূর্ণ রেফারেন্স দিন।

সম্পাদনা (ধারাবাহিকভাবে আপডেট): নীচের উত্তরগুলিতে প্রস্তাবিত পদ্ধতিগুলি

এটি সম্প্রদায় উইকি হিসাবে আরও আলোচনা এবং আপডেট হতে পারে

আমার একটি মন্তব্য আছে: একটি নির্দিষ্ট অর্থে, আপনারা সবাই এমন একটি পদ্ধতি দেন যা ভেরিয়েবলের অর্ডারের অনুমতি দেয় তবে পরিবর্তনশীল নির্বাচন নয় (বৈশিষ্ট্যের সংখ্যাটি কীভাবে নির্বাচন করা যায় সে সম্পর্কে আপনি যথেষ্ট উদ্বেগজনক, আমি অনুমান করি যে আপনি সমস্ত ক্রস বৈধতা ব্যবহার করছেন?) আপনি কি উন্নতি করতে পারবেন? এই দিক থেকে উত্তর? (এটি কমিউনিটি উইকি হিসাবে আপনার কীভাবে ভেরিয়েবলের সংখ্যা নির্বাচন করবেন সে সম্পর্কে একটি তথ্য যুক্ত করার জন্য উত্তর লিটারের প্রয়োজন হবে না? আমি এই দিকটিতে এখানে একটি প্রশ্ন খুলেছি খুব উচ্চ মাত্রায় ক্রস বৈধকরণের সংখ্যা নির্বাচন করতে) খুব উচ্চ মাত্রিক শ্রেণিবিন্যাসে ব্যবহৃত ভেরিয়েবল) )


এটা কোন প্রশ্ন বা পুল? যদি দ্বিতীয়টি হয় তবে এটি সম্প্রদায়ের উইকি হওয়া উচিত। প্রথমটি হলে আপনি কী অর্জন করতে চান সে সম্পর্কে আরও বিশদ দিন? উদাহরণস্বরূপ, এটি কি সমস্ত প্রাসঙ্গিক বা বরং সর্বনিম্ন-অনুকূল নির্বাচন? কয়টি? শ্রেণিবিন্যাস সমস্যা কতটা কঠিন?

পুল ... এর অর্থ 1000 বৈশিষ্ট্য বা আরও বেশি এবং 100 টিরও বেশি পর্যবেক্ষণ।
রবিন গিরার্ড

উত্তর:


18

একটি খুব জনপ্রিয় পদ্ধতির দণ্ডিত লজিস্টিক রিগ্রেশন, যার মধ্যে একটি লগ-সম্ভাবনার যোগফল এবং L1- আদর্শ ("লাসো"), এল 2-নর্ম ("রিজ") সমন্বিত একটি দন্ডের মেয়াদকে সর্বাধিক করে তোলে ("স্থিতিস্থাপক"), বা ভেরিয়েবলের গোষ্ঠীগুলির সাথে সম্পর্কিত একটি জরিমানা ("গ্রুপ লাসো")। এই পদ্ধতির বিভিন্ন সুবিধা রয়েছে:

  1. এর শক্তিশালী তাত্ত্বিক বৈশিষ্ট্য রয়েছে, উদাহরণস্বরূপ, মোমবাতি এবং পরিকল্পনা দ্বারা এই কাগজটি দেখুন এবং সংকোচিত সংবেদনের নিকটবর্তী সংযোগ;
  2. এর অ্যাক্সেসযোগ্য বিবরণ রয়েছে, যেমন, ফ্রেডম্যান-হাস্টি-তিবশিরানী (অনলাইনে উপলব্ধ) দ্বারা পরিসংখ্যানগত শিক্ষার উপাদানসমূহে ;
  3. এটি মডেল ফিট করতে সহজেই উপলব্ধ সফ্টওয়্যার আছে। আর এর গ্ল্যামনেট প্যাকেজ রয়েছে যা খুব দ্রুত এবং বেশ বড় ডেটাসেটের সাথে ভালভাবে কাজ করে। পাইথনের সাইকিট-লার্ন রয়েছে, যার মধ্যে এল 1- এবং এল 2-পেনালাইজড লজিস্টিক রিগ্রেশন রয়েছে;
  4. ইমেজ স্বীকৃতি, সিগন্যাল প্রসেসিং, বায়োমেট্রিক্স এবং ফিনান্সে অনেক অ্যাপ্লিকেশন পেপারগুলিতে যেমন প্রদর্শিত হয়েছে তেমন এটি অনুশীলনে খুব ভালভাবে কাজ করে।

10

লিও ব্রেইম্যান এবং অ্যাডেল কটলিয়ার বিভিন্ন কারণে আমার কাছে এলোমেলো বনগুলির জন্য সামান্য পছন্দ রয়েছে :

  • এটি শ্রেণিবদ্ধ এবং অবিচ্ছিন্ন ভবিষ্যদ্বাণীগুলির পাশাপাশি ভারসাম্যহীন শ্রেণির নমুনা আকারের সাথে মানিয়ে নিতে সহায়তা করে;
  • একটি এনামেবল / এম্বেড পদ্ধতি হিসাবে ক্রস-বৈধতা এম্বেড করা হয় এবং একটি সাধারণীকরণ ত্রুটি অনুমান করতে দেয়;
  • এটি এর সুরকরণের পরামিতিগুলির তুলনায় তুলনামূলকভাবে সংবেদনশীল নয় (একটি গাছ বাড়ানোর জন্য নির্বাচিত ভেরিয়েবলের%, নির্মিত # গাছের সংখ্যা);
  • এটি ভেরিয়েবল গুরুত্বের একটি মূল পরিমাপ সরবরাহ করে এবং ভেরিয়েবলের মধ্যে জটিল মিথস্ক্রিয়াটি উদঘাটন করতে সক্ষম হয় (যদিও এটি ফলাফলগুলি পড়তে শক্ত হতে পারে)।

কিছু লেখক যুক্তি দেখিয়েছিলেন যে এটি এসভিএম বা গ্রেডিয়েন্ট বুস্টিং মেশিনগুলির পাশাপাশি দণ্ডিত হয়েছে (দেখুন উদাহরণস্বরূপ, কাটারার এট আল।, ২০০৯, পরবর্তী পয়েন্টের জন্য)।

এর অ্যাপ্লিকেশন বা সুবিধাগুলির একটি সম্পূর্ণ কভারেজ বিষয়বস্তু থেকে দূরে থাকতে পারে, সুতরাং আমি হস্টি এট আল থেকে স্ট্যাটাসটিকাল লার্নিংয়ের উপাদানগুলির পরামর্শ দিই । (অধ্যায় 15) এবং সয়েস এট আল। (2007) আরও পড়ার জন্য।

সর্বশেষে তবে সর্বনিম্ন নয়, এটিকে র্যান্ডমফোরস্ট প্যাকেজ সহ একটি দুর্দান্ত বাস্তবায়ন রয়েছে । অন্যান্য আর প্যাকেজগুলিও এটি প্রসারিত বা ব্যবহার করে, যেমন পার্টি এবং ক্যারেট

তথ্যসূত্র:

ক্যাটলার, এ।, ক্যাটলার, ডিআর এবং স্টিভেন্স, জেআর (২০০৯)। ক্যান্সার গবেষণায় হাই-ডাইমেনশনাল ডেটা অ্যানালাইসিসে ট্রি-ভিত্তিক পদ্ধতিগুলি, লি, এক্স এবং এক্স, আর (অ্যাড।), পিপি। 83-101, স্প্রঞ্জার।

সিয়েস, ওয়াই।, ইনজা, আই। এবং ল্যারাগাগা, পি। (2007)। বায়োইনফরম্যাটিক্সে বৈশিষ্ট্য নির্বাচন কৌশলগুলির একটি পর্যালোচনা। বায়োইনফরম্যাটিকস , 23 (19) : 2507-2517।


7

মহানগর স্ক্যানিং / এমসিএমসি

  • শুরুর জন্য এলোমেলোভাবে কয়েকটি বৈশিষ্ট্য নির্বাচন করুন, কেবল তাদের উপর শ্রেণিবদ্ধ প্রশিক্ষণ দিন এবং ত্রুটিটি পান obtain
  • এই কার্যকারী সেটটিতে কিছু এলোমেলো পরিবর্তন করুন - হয় একটি বৈশিষ্ট্য অপসারণ করুন, এলোমেলোভাবে অন্য একটি যুক্ত করুন বা বর্তমানে ব্যবহৃত হচ্ছে না এমন কিছু বৈশিষ্ট্য প্রতিস্থাপন করুন।
  • নতুন শ্রেণিবদ্ধ প্রশিক্ষণ দিন এবং এর ত্রুটি পান; সংরক্ষণ dEনতুন সেট বিয়োগ পূর্ববর্তী সেটে ত্রুটি ত্রুটি পার্থক্য।
  • সম্ভাবনা সহ min(1;exp(-beta*dE))এই পরিবর্তনটি স্বীকার করুন, অন্যথায় এটি প্রত্যাখ্যান করুন এবং অন্য এলোমেলো পরিবর্তনের চেষ্টা করুন।
  • এটি দীর্ঘ সময়ের জন্য পুনরাবৃত্তি করুন এবং অবশেষে বিশ্বব্যাপী ক্ষুদ্রতম ত্রুটি অর্জন করেছে এমন কার্যকরী সেটটি ফিরিয়ে দিন।

আপনি এটি betaপ্যারামিটারের আরও বুদ্ধিমান নিয়ন্ত্রণের সাথে বাড়িয়ে দিতে পারেন । সহজ উপায় হ'ল betaসময়কালে আপনি ওঠানামা কমাতে এবং অ্যালগরিদমকে সর্বনিম্নের দিকে চালিত করার জন্য সিমুলেটেড অ্যানিলিং ব্যবহার করা । কঠিন প্রতিলিপি এক্সচেঞ্জ ব্যবহার করা হয় ।


5

আপনি যদি কেবল সাধারণীকরণের পারফরম্যান্সে আগ্রহী হন তবে আপনি সম্ভবত কোনও বৈশিষ্ট্য নির্বাচন না করা এবং তার পরিবর্তে নিয়মিতকরণ (উদাহরণস্বরূপ রিজ রিগ্রেশন) ব্যবহার না করাই ভাল। বৈশিষ্ট্য নির্বাচনের বিষয়ে মেশিন লার্নিং সম্প্রদায়টিতে বেশ কয়েকটি উন্মুক্ত চ্যালেঞ্জ রয়েছে এবং বৈশিষ্ট্য নির্বাচনের চেয়ে নিয়মিতকরণের উপর নির্ভর করে এমন পদ্ধতিগুলি আরও ভাল না হলে সাধারণত কমপক্ষে পাশাপাশি সম্পাদন করে।


3

লোভী ফরোয়ার্ড নির্বাচন।

এই পদ্ধতির জন্য পদক্ষেপগুলি হ'ল:

  • আপনার ট্রেন এবং বৈধতা সেট আছে তা নিশ্চিত করুন
  • নিম্নলিখিত পুনরাবৃত্তি
    • পৃথক প্রতিটি একক বৈশিষ্ট্য সহ একটি শ্রেণিবদ্ধ প্রশিক্ষণ দিন যা এখনও নির্বাচিত হয়নি এবং পূর্ববর্তী সমস্ত নির্বাচিত বৈশিষ্ট্য সহ
    • ফলাফলের উন্নতি হলে সর্বোত্তম পারফর্মিং বৈশিষ্ট্য যুক্ত করুন, অন্যথায় প্রক্রিয়া বন্ধ করুন

আপনি কীভাবে আপনার শ্রেণিবদ্ধকে "প্রশিক্ষণ" দেন? সম্ভবত প্রশিক্ষণ সেট এ সম্পন্ন করা হয়। যদি এটি একটি সমর্থন ভেক্টর মেশিন (এসভিএম) হয় তবে প্রশিক্ষণের সময় চেষ্টা করার জন্য বেশ কয়েকটি পরামিতি রয়েছে। প্রতিটি পরীক্ষার বৈধতা (পরীক্ষা) সেট বিরুদ্ধে? অথবা আপনি কে-ফোল্ড ক্রস বৈধতা ব্যবহার করছেন? আপনার কার্যকারিতা পরীক্ষা করতে আপনি কতবার বৈধতা (পরীক্ষা) সেট ব্যবহার করছেন - সম্ভবত এটি যথার্থতা। পেডেন্টিক হওয়ার জন্য দুঃখিত, তবে এটি একটি স্বল্প সংজ্ঞাযুক্ত উত্তর এবং অতিরিক্ত ফিটনেসের ঝুঁকি।
থাইলাকোলিও

@ থাইলাকোলিও এটি একটি খুব অশোধিত মৌলিক এবং লোভী পদ্ধতি। প্রায়শই আপনি নিজের বৈধতা একই ওভার রান সেট করে রাখেন, তবে আপনার যা পছন্দ তা ঠিক আছে।
পিটার স্মিথ

2

পশ্চাদপদ নির্মূল।

সম্পূর্ণ সেট দিয়ে শুরু করুন, তারপরে পুনরাবৃত্তভাবে বাকী বৈশিষ্ট্যগুলিতে শ্রেণিবদ্ধকে প্রশিক্ষণ দিন এবং বৈশিষ্ট্যটিকে ক্ষুদ্রতম গুরুত্ব সহকারে সরান, যখন শ্রেণিবদ্ধ ত্রুটি দ্রুত বৃদ্ধি / অগ্রহণযোগ্য উচ্চ হয়ে যায় তখন থামুন।

এমনকি প্রতিটি বৈশিষ্ট্য পুনরাবৃত্তভাবে মুছে ফেলা এবং ত্রুটি বৃদ্ধি বা শ্রেণিবদ্ধ থেকে এটি অভিযোজিত যদি এটি উত্পাদন করে (যেমন র্যান্ডম ফরেস্টের ক্ষেত্রে) তা খতিয়ে দেখেও গুরুত্ব অর্জন করা যেতে পারে।


2
তবে প্রশ্ন বলছে পর্যবেক্ষণের চেয়ে আরও বেশি পরিবর্তনশীল রয়েছে। সুতরাং পুরো সেট দিয়ে শুরু করা সম্ভব নয়।
রব হ্যান্ডম্যান

সমস্যা কি?

2
আপনি এমন কোনও মডেল ফিট করতে পারবেন না যা পর্যবেক্ষণের চেয়ে বেশি ভেরিয়েবল রয়েছে। প্যারামিটার অনুমানের জন্য স্বাধীনতার পর্যাপ্ত পরিমাণ নেই।
রব হ্যান্ডম্যান

1
ফিশার এর ফাঃ হিসাব, আপনি যেমন এফ গনা (n - k - p) / (k - 1) * ...সঙ্গে nপর্যবেক্ষণ নম্বর, kক্লাস (2 এখানে) সংখ্যা এবং pভেরিয়েবল সংখ্যা। n - 2 - p < 0কখন n < p + 2(যা এখানে মামলা) যা বাড়ে F < 0। সমস্যা হবে না?
ম্যাথিউউ

3
নিয়মিত বা সম্পূর্ণ বায়েশিয়ান রিগ্রেশন অনন্য সমাধানের পূর্বে ভবিষ্যদ্বাণীকারীদের সম্পূর্ণ সেটটি দিয়ে শুরু করার অনুমতি দেবে - সন্দেহভাজন যে একইভাবে অন্য কিছু এমএল কৌশলগুলির ক্ষেত্রেও ঘটে।
স্কর্চচি - মনিকা পুনরায় ইনস্টল করুন
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.