র্যান্ডম অরণ্যের সাথে বৈশিষ্ট্য নির্বাচন


17

আমার বেশিরভাগ আর্থিক ভেরিয়েবল (120 বৈশিষ্ট্য, 4 কে উদাহরণ) সহ একটি ডেটাসেট রয়েছে যা বেশিরভাগ ক্ষেত্রে অত্যন্ত সম্পর্কিত এবং খুব কোলাহলযুক্ত (প্রযুক্তিগত সূচক, উদাহরণস্বরূপ) তাই আমি মডেল প্রশিক্ষণের সাথে পরবর্তী ব্যবহারের জন্য সর্বাধিক 20-30 টি নির্বাচন করতে চাই (বাইনারি শ্রেণিবদ্ধকরণ) - বৃদ্ধি হ্রাস).

আমি বৈশিষ্ট্য র‌্যাঙ্কিংয়ের জন্য এলোমেলো বন ব্যবহার করার কথা ভাবছিলাম। এগুলি পুনরাবৃত্তভাবে ব্যবহার করা কি ভাল ধারণা? উদাহরণস্বরূপ, আসুন প্রথম রাউন্ডে আমি বলি যে আমি সবচেয়ে খারাপ 20% রেখেছি, দ্বিতীয়টি এবং আরও কিছু না হওয়া পর্যন্ত আমি পছন্দসই সংখ্যার বৈশিষ্ট্যগুলি না পেয়েছি। আমি কি আরএফ এর সাথে ক্রস-বৈধতা ব্যবহার করব? (সিভি ব্যবহার না করা আমার পক্ষে স্বজ্ঞাত কারণ এটি আরএফ ইতিমধ্যে যা করে চলেছে তা খুব বেশি।)

এছাড়াও আমি যদি এলোমেলো বনের সাথে যাই তবে আমার কী এগুলি বাইনারি বা রেগ্রেসারের ক্লাসিফায়ার হিসাবে প্রকৃত বৃদ্ধি / হ্রাসের জন্য বৈশিষ্ট্য আমদানি পেতে ব্যবহার করা উচিত?

যাইহোক, বৈশিষ্ট্য নির্বাচনের পরে আমি যে মডেলগুলি চেষ্টা করতে চাই সেগুলি হ'ল: এসভিএম, নিউরাল নেট, স্থানীয়ভাবে ওজনযুক্ত রিগ্রেশন এবং এলোমেলো বন। আমি মূলত পাইথনে কাজ করছি।


2
বিনিময় অন্তর্দৃষ্টি সংযোগ করতে চাই। আমি অনুরূপ কিছুতে কাজ করছি
user670186

কোন কারণে কেউ শুধু ব্যবহার করার পরামর্শ হল built-inঅ্যাট্রিবিউট RandomForestClassifier মধ্যে sklearnনামক feature_importances_....? আপনি এটি লিঙ্কে দেখতে পাবেন।
ক্যান্ডিক

সাবধান থাকুন কারণ multicollinearityবৈশিষ্ট্য আমদানি এবং বৈশিষ্ট্য নির্বাচনকে বিকৃত করতে পারে। এটি এখানে দেখুন
ক্যান্ডিক

ডিফল্ট অ্যালগরিদম থেকে সাবধান: parrt.cs.usfca.edu/doc/rf-importance/index.html
টিম

উত্তর:


13

বৈশিষ্ট্য নির্বাচনের জন্য, স্কোরিং ফাংশনটি অনুকূল করতে আমাদের একটি স্কোরিং ফাংশনের পাশাপাশি একটি অনুসন্ধান পদ্ধতিও প্রয়োজন।

আপনি যদি কিছু প্রাসঙ্গিক গুরুত্বের স্কোরটি সংজ্ঞায়িত করেন তবে আপনি একটি বৈশিষ্ট্য র‌্যাঙ্কিং পদ্ধতি হিসাবে আরএফ ব্যবহার করতে পারেন। আরএফ প্রতিস্থাপন পদ্ধতির সাথে র্যান্ডমের ভিত্তিতে বৈশিষ্ট্যগুলি নির্বাচন করবে এবং প্রতিটি উপসেটকে একটি পৃথক উপস্থানে (যাকে র্যান্ডম সাবস্পেস বলা হয়) গ্রুপ করবে। গুরুত্বের একটি স্কোরিং ফাংশন সেই গাছটি এলোমেলো উপশমের প্রতিটি বৈশিষ্ট্যের জন্য প্রতিটি গাছের যথার্থতা নির্ধারণের উপর ভিত্তি করে হতে পারে। তারপরে, আপনি প্রতিটি পৃথক গাছের জন্য এটি করেন। যেহেতু উপ-স্থানগুলি উত্পন্ন করার উত্সটি এলোমেলো, আপনি গুরুত্বের স্কোরটি গণনার জন্য একটি প্রান্তিকা রাখতে পারেন।

সারসংক্ষেপ:

পদক্ষেপ 1 : 25% গাছের মধ্যে যদি X2 বৈশিষ্ট্যটি উপস্থিত হয়, তবে এটি স্কোর করুন। অন্যথায়, বৈশিষ্ট্যটি র‌্যাঙ্কিং বিবেচনা করবেন না কারণ এর কার্যকারিতা সম্পর্কে আমাদের কাছে পর্যাপ্ত তথ্য নেই

পদক্ষেপ 2 : এখন, প্রতিটি গাছের পারফরম্যান্স স্কোর নির্ধারণ করুন যেখানে এক্স 2 এক্স 2 তে উপস্থিত হয় এবং স্কোরকে গড়ে গড়ে তোলে। উদাহরণস্বরূপ: পারফ (ট্রি 1) = 0.85 পারফ (ট্রি 2) = 0.70 পারফ (ট্রি 3) = 0.30

তারপরে X2 = (0.85 + 0.70 + 0.30) / 3 = 0.6167 বৈশিষ্ট্যের গুরুত্ব

আপনি বৈশিষ্ট্যটির বিভক্ত গভীরতা বা সিদ্ধান্ত গাছের তথ্য উপাত্তের মূল্য অন্তর্ভুক্ত করে আরও উন্নত সেটিং বিবেচনা করতে পারেন। সিদ্ধান্ত গাছ এবং আরএফের উপর ভিত্তি করে স্কোরিং ফাংশন ডিজাইনের অনেকগুলি উপায় থাকতে পারে।

অনুসন্ধান পদ্ধতিটি সম্পর্কে , আপনার পুনরাবৃত্তির পদ্ধতি শীর্ষ স্থান নির্ধারণের উপায় হিসাবে যুক্তিযুক্ত বলে মনে হয়।

অবশেষে, আপনি আরএফ উভয়ই আপনাকে পারফরম্যান্স স্কোর সরবরাহ করতে পারার কারণে আপনার বৈশিষ্ট্যগুলি নির্বাচনের ক্ষেত্রে শ্রেণিবদ্ধ বা রেগ্রেশন মডেল হিসাবে ব্যবহার করতে পারেন। স্কোরটি ইঙ্গিতযুক্ত কারণ এটি ব্যাগের বাইরে থাকা OOB নমুনাগুলির উপর ভিত্তি করে এবং আপনি কোনও সহজ সেটিংসে ক্রস-বৈধতা বিবেচনা করতে পারেন না।


ইনপুট জন্য ধন্যবাদ। এটা উল্লেখ করতে চেয়েছিলেন (0.85+0.70+0.30)/3 = 0.6167
হ্যান্ডি

5
আপনি যদি অজগর নিয়ে কাজ করছেন, এলোমেলো বন ডাকার সময় আপনি সরাসরি স্কেলের্নে গণনা করা পরিবর্তনশীল গুরুত্বটি ব্যবহার করতে পারেন।
স্ক্র্যাচ

5

আমার বেশিরভাগ আর্থিক ভেরিয়েবল (120 বৈশিষ্ট্য, 4 কে উদাহরণ) সহ একটি ডেটাসেট রয়েছে যা বেশিরভাগ ক্ষেত্রে অত্যন্ত সম্পর্কিত এবং খুব কোলাহলযুক্ত (প্রযুক্তিগত সূচক, উদাহরণস্বরূপ) তাই আমি মডেল প্রশিক্ষণের সাথে পরবর্তী ব্যবহারের জন্য সর্বাধিক 20-30 টি নির্বাচন করতে চাই (বাইনারি শ্রেণিবদ্ধকরণ) - বৃদ্ধি হ্রাস).

খুব পরিশীলিত কোনও কিছুর অনুমান করার জন্য 4 কে উদাহরণগুলি আসলেই যথেষ্ট নয় - আপনার পক্ষে সহজতম সম্ভাব্য মডেলগুলি (লিনিয়ার / লজিস্টিক রিগ্রেশন, লিনিয়ার এসভিএম) এবং অল্প সংখ্যক ভেরিয়েবল ব্যবহার করা দরকার

আপনার ডেটা শোরগোল ও পারস্পরিক সম্পর্কযুক্ত এটি দেওয়া, পিসিএ সম্ভবত আপনার সেরা বেট [এটি পৃথক সূচকগুলির উপরে গড় সাধারণ সংকেতগুলি কার্যকরভাবে চিহ্নিত করছে]

এল 2 নিয়মিতকরণ (লিনিয়ার মডেলের জন্য) গোলমালটি গড়তেও সহায়তা করবে [উদাহরণস্বরূপ, যদি আপনার একই সিগন্যালের এন গোলমাল অনুলিপি থাকে, l2 নিয়মিতকরণ ওজনকে একই হতে উত্সাহিত করবে - সেই এন ভেরিয়েবলগুলির গড়]

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.