কোন বৈশিষ্ট্যগুলি বেশি গুরুত্বপূর্ণ তা অনুমান করার জন্য কোন মেশিন লার্নিং অ্যালগরিদমগুলি ভাল?


12

আমার কাছে ন্যূনতম সংখ্যক বৈশিষ্ট্য রয়েছে যা পরিবর্তিত হয় না এবং কয়েকটি অতিরিক্ত বৈশিষ্ট্য যা পরিবর্তন করতে পারে এবং ফলাফলের উপর তার বড় প্রভাব ফেলতে পারে। আমার ডেটা-সেটটি দেখতে এমন দেখাচ্ছে:

বৈশিষ্ট্যগুলি হ'ল এ, বি, সি (সর্বদা উপস্থিত) এবং ডি, ই, এফ, জি, এইচ (কখনও কখনও উপস্থিত)

A = 10, B = 10, C = 10                  outcome = 10
A = 8,  B = 7,  C = 8                   outcome = 8.5
A = 10, B = 5,  C = 11, D = 15          outcome = 178
A = 10, B = 10, C = 10, E = 10, G = 18  outcome = 19
A = 10, B = 8,  C = 9,  E = 8,  F = 4   outcome = 250
A = 10, B = 11, C = 13, E = 8,  F = 4   outcome = 320
...

আমি ফলাফলের মানটি পূর্বাভাস দিতে চাই এবং ফলাফল নির্ধারণের জন্য অতিরিক্ত পরামিতিগুলির সংমিশ্রণ খুব গুরুত্বপূর্ণ। এই উদাহরণে, E এবং F এর উপস্থিতি একটি বড় ফলাফলের দিকে পরিচালিত করে, যেখানে E এবং G এর উপস্থিতি নেই। কোন মেশিন লার্নিং অ্যালগরিদম বা কৌশলগুলি এই ঘটনাটি ক্যাপচার করতে ভাল?


"কখনও কখনও উপস্থিত" দ্বারা, আপনি কি বোঝাতে চেয়েছেন যে কিছু সময় আপনি কেবল তাদের মান জানেন? বা যে তারা বেশিরভাগ ক্ষেত্রে ভূমিকা পালন করে না বলে পরিচিত? বা সম্ভবত অন্য কিছু?
ডেভিড জে হ্যারিস

@ ডেভিডজে.হরিস "কখনও কখনও উপস্থিত" দ্বারা, আমি বোঝাতে চাইছি যে বিশেষ প্রশিক্ষণের উদাহরণটিতে সম্পত্তিটি নেই। এটি শূন্যের সমান হলে এটির মতো। আমার সমস্যায়, আমার সমস্ত বৈশিষ্ট্য নির্দিষ্ট প্রদত্ত পরিসরে ধনাত্মক সংখ্যা হবে (উদাহরণস্বরূপ, 5 থেকে 15 বা 100 থেকে 1000 পর্যন্ত)।
বেনজামিন ক্রাউজিয়ার

1
এই লিঙ্কটি দেখতে ভালই
লাগবে

উত্তর:


14

এটি মেশিন লার্নিংয়ের গবেষণার অন্যতম প্রধান ক্ষেত্র এবং এটি বৈশিষ্ট্য নির্বাচন হিসাবে পরিচিত ।

সাধারণভাবে, বৈশিষ্ট্যগুলির সর্বোত্তম উপসেটটি কী তা বলার একমাত্র উপায় (এমন কিছু ভবিষ্যদ্বাণীপূর্ণ মডেলকে ইনপুট করার জন্য যা সেগুলি একত্রিত করতে পারে), সমস্ত সম্ভাব্য সাবসেটগুলি চেষ্টা করা। এটি সাধারণত অসম্ভব, তাই লোকেরা বিভিন্ন হিউরিস্টিক্স দ্বারা বৈশিষ্ট্য উপগ্রহের স্থানের নমুনা নেওয়ার চেষ্টা করে (কিছু সাধারণ পদ্ধতির জন্য নিবন্ধটি দেখুন)।


3

আমার উপলব্ধি থেকে, আপনি পরিবর্তনশীল গুরুত্বের একটি পরিমাপ খুঁজছেন for এগুলি বিভিন্ন বিভিন্ন তাত্ত্বিক পদ্ধতির উপর ভিত্তি করে একাধিক স্বাদে আসে তবে আপনি যে অ্যালগরিদমকে অপছন্দ করে কথা বলছেন তা অপ্টিমাইজ করার জন্য ব্যবহৃত পদ্ধতির সাথে সমস্তগুলির দৃ strong় লিঙ্ক রয়েছে। সাধারণত, প্রতিটি মেশিন লার্নিং অ্যালগরিদম একটি ক্যানোনিকাল অপ্টিমাইজেশন পদ্ধতি থাকবে; নিউরাল নেটওয়ার্কগুলির পিছনে প্রচার, এসভিএমগুলির জন্য ক্রমীয় ন্যূনতম অপ্টিমাইজেশন, বিভিন্ন তথ্য মাপদণ্ড এবং চি স্কোয়ার তাত্পর্য বা গিনি অপরিষ্কার সহ সিদ্ধান্তের গাছগুলির পরিসংখ্যানগত তাত্পর্য পরীক্ষা। অবশ্যই, অন্যান্য অন্যান্য উপন্যাস অপ্টিমাইজেশন পদ্ধতিগুলি প্রায়শই প্রতিটি অ্যালগরিদমের জন্য প্রস্তাবিত হয়।

প্রতিটি অ্যালগরিদমের জন্য এই অপ্টিমাইজেশন পদ্ধতিগুলি প্রয়োজনীয়ভাবে হাতে থাকা মডেলের জন্য পরিবর্তনশীল গুরুত্ব নির্ধারণ করে। মূলত, আপনি অ্যালগরিদম যে অপ্টিমাইজেশন পদক্ষেপ গ্রহণ করছেন তার ফলাফলগুলির একটি আনুমানিক বা ব্যাখ্যাযোগ্য উপস্থাপনা খুঁজছেন। তবে এটি বেশ কয়েকটি কারণে সমস্যাযুক্ত।

  1. মডেল ফর্ম নির্বাচনের উপর প্রদত্ত ভেরিয়েবলের প্রভাব নির্ধারণের অসুবিধা, প্রদত্ত যে নির্বাচনটি প্রায়শই একটি স্টোকাস্টিক প্রক্রিয়া থাকে vari ভেরিয়েবলগুলি মডেল নির্বাচনকে কিছুটা ডিগ্রীতে প্রভাবিত করে, যাতে কোনও পরিবর্তনশীল কোনও মডেলের চূড়ান্ত পূর্বাভাসের জন্য গুরুত্বপূর্ণ না হলেও এটি সম্ভবত মডেল ফর্মটিকে গুরুতর আকার ধারণ করেছে। প্রদত্ত যে মডেলটির প্রজন্ম নিজেই প্রায়শই স্টোকাস্টিক থাকে (কণা ঝাঁক অপটিমাইজেশন বা ব্যাগিং পদ্ধতি ইত্যাদি ব্যবহার করে অনুকূলিত হয়), প্রদত্ত ভেরিয়েবলটি কীভাবে তার রূপটি তৈরি করতে পারে তা ঠিক বোঝা শক্ত।

  2. একক ভেরিয়েবলের গুরুত্ব আহরণের অসুবিধা প্রদত্ত যে এটি কেবল অন্য ভেরিয়েবলের সাথে সংযোগ বা মিথস্ক্রিয়াতে গুরুত্বপূর্ণ হতে পারে।

  3. কিছু পরিবর্তনশীল কেবল কিছু পর্যবেক্ষণের জন্য গুরুত্বপূর্ণ হতে পারে। অন্যান্য পর্যবেক্ষণগুলিতে গুরুত্বের অভাব প্রকৃত পার্থক্য গড়ার মাধ্যমে সামগ্রিক গুরুত্বের পরিমাপকে বিভ্রান্ত করতে পারে।

মডেল দ্বারা সংজ্ঞায়িত ঠিক তত্ক্ষণাত্ব গুরুত্বের জন্য তাত্ক্ষণিকভাবে ব্যাখ্যামূলক মেট্রিক পাওয়া শক্ত , কারণ এটি কোনও একক সংখ্যা তৈরি করতে পারে না (বিশেষত ব্যাগিংয়ের ক্ষেত্রে)। পরিবর্তে, এই ক্ষেত্রে প্রতিটি ভেরিয়েবলের জন্য গুরুত্বের বন্টন রয়েছে।

এই সমস্যাগুলি কাটিয়ে ওঠার একটি উপায় হ'ল পার্টলিউটিকেশন ব্যবহার করা হতে পারে। আপনার ভেরিয়েবলগুলিতে এলোমেলো আওয়াজ যুক্ত করে আপনার চূড়ান্ত মডেলটি বিশ্লেষণ করার এই উপায় এবং তারপরে এটি কীভাবে ফলাফলগুলিকে প্রভাবিত করে তা পরীক্ষা করে। সুবিধাটি হ'ল এটি আপনাকে সিমুলেশনের মাধ্যমে কোন ভেরিয়েবল সর্বাধিক গুরুত্বপূর্ণ বলে সন্ধান করতে দেয় - কোন ভেরিয়েবলগুলি মুছে ফেলা হলে ভবিষ্যদ্বাণীটিকে সবচেয়ে বেশি নষ্ট করে দেবে এই প্রশ্নের উত্তর দেওয়া। অসুবিধাটি হ'ল এখানে একটি ভাল সম্ভাবনা রয়েছে যে ভেরিয়েবলগুলি অপসারণ / বিভ্রান্ত করা হলেও, মডেলটি (যদি পুনরায় প্রশিক্ষণপ্রাপ্ত) অন্য পরিবর্তনশীলগুলি তাদের প্রভাব পুনর্গঠন করতে পারে, যার অর্থ "পরিবর্তনশীল গুরুত্ব" পরিমাপ আপনি এখনও সত্যই প্রাপ্ত করেছেন আপনার প্রশিক্ষিত মডেলটির গুরুত্ব নির্দেশ করে তবে সমস্ত সম্ভাব্য মডেলগুলিতে সামগ্রিক গুরুত্ব দেয় না।


3

@ বিটওয়াইসের উল্লেখ অনুসারে, বৈশিষ্ট্য নির্বাচন বা বৈশিষ্ট্য নিষ্কাশন নিজেই গবেষণার একটি বিশাল ক্ষেত্র এবং এটি করার অসংখ্য উপায় রয়েছে।

অন্যান্য উত্তরগুলি আমার মতে সমস্ত বৈধ, তবে শেষ পর্যন্ত, আপনি সম্ভবত বেশিরভাগের মতোই করতে পারবেন এবং আপনার পক্ষে সবচেয়ে স্বজ্ঞাত যে পদ্ধতিটি বেছে নিন এবং তা আপনি সবচেয়ে ভাল তা বুঝতে পারেন। আমি তখনও দুটি সম্ভাব্য বিকল্প যুক্ত করব।

একাধিক রিগ্রেশন সম্ভবত প্রাচীনতম কৌশল। ভবিষ্যদ্বাণীকারীদের কাছ থেকে প্রতিক্রিয়া বর্ণনা করার জন্য একটি মডেল ফিট করার ধারণাটি কেবলমাত্র সেই ভবিষ্যদ্বাণীকারীদের রাখা উচিত যা প্রতিক্রিয়ায় একটি বৃহত প্রভাব ফেলেছে (আনুপাতিকতার একটি বৃহত সহগ)। এখানে আপনি সম্ভবত ডি, ই, এফ এবং জি অভাবে recode করতে হবে D=0, E=0, F=0, জি =0বা ওই জাতীয় কিছু।

আরেকটি পন্থা যা কখনোই জনপ্রিয়তা অর্জন করে যে এটা দাবী অর্জন সহ-নিষ্ক্রিয়তা বিশ্লেষণ (একটি বৈচিত্র হয় ক্যানোনিকাল বিশ্লেষণ )। এটার কোনো প্রয়োগ, হিসাবে যতদূর আমি জানি, এবং আপনি স্ক্র্যাচ থেকে শুরু করতে হবে ( সেখানে উদাহরণস্বরূপ)। এটি একটি রৈখিক পদ্ধতি যা বৈশিষ্ট্যগুলির সর্বোত্তম রৈখিক সংমিশ্রণ খুঁজে পায় যা আপনার ফলাফলের সাথে মেলে। এই ব্লগ পোস্টটি এটি কীভাবে ব্যবহার করা যায় তার একটি উদাহরণ দেখায়।


2

আমি ইনফরমেশন গেইন (মিউচুয়াল ইনফরমেশন নামেও পরিচিত) ব্যবহার করি। আমার উপদেষ্টা এবং আমি নিয়মিত এসভিএম দ্বারা শ্রেণিবিন্যাসের বৈশিষ্ট্য বিশ্লেষণের জন্য এই কাগজ কোহেন, ২০০৮ এ বর্ণিত পদ্ধতির ব্যবহার করি ।


2

র্যান্ডম অরণ্যগুলি আপনি যা করতে চান তার পক্ষে খুব কার্যকর হতে পারে। আর এর জন্য র্যান্ডমফোরস্ট প্যাকেজটিতে একটি ফাংশন রয়েছে যা 2 টি ব্যবস্থার গুরুত্ব গণনা করে। এতে কিছু আংশিক নির্ভরতা প্লট তৈরি করার ক্ষমতাও রয়েছে যাতে আপনি ভবিষ্যদ্বাণীটির প্রতিক্রিয়ার উপর যে প্রান্তিক প্রভাব থাকতে পারে তা দৃশ্যত পরিদর্শন করতে পারেন।


1

আমি এখানে বাজে হয়েছি তবে একটি কারণে। আপনি কি সূচক ভেরিয়েবলের দ্বারা অ-ইউনিফর্ম পর্যবেক্ষণগুলি প্রতিস্থাপনের বিষয়ে ভেবেছেন? উপস্থিত_প্রেসেন্ট? আপনার বর্ণনা থেকে দেখে মনে হচ্ছে যে এই সূচকটির মানটি একটি বৈধ বৈশিষ্ট্য কারণ ডি থেকে এইচ কারণগুলির উপস্থিতি অ-তথ্যমূলক: এটি তাদের উপস্থিতি কেবল বৃহত্তর ফলাফলকে নির্দেশ করে।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.