এলোমেলো বন ব্যবহার করে কতগুলি বৈশিষ্ট্য নমুনা করা যায়


14

উইকিপিডিয়া পৃষ্ঠা উদ্ধৃতি চিহ্ন "পরিসংখ্যানগত শিক্ষণ উপাদানসমূহ" বলেছেন:

সাধারণত, সঙ্গে একটি শ্রেণীবিন্যাস সমস্যার জন্য বৈশিষ্ট্য, p বৈশিষ্ট্যগুলি প্রতিটি বিভক্তিতে ব্যবহৃত হয়।p

আমি বুঝতে পারি যে এটি মোটামুটি ভাল শিক্ষিত অনুমান এবং এটি সম্ভবত অভিজ্ঞতাগত প্রমাণ দ্বারা নিশ্চিত করা হয়েছিল, তবে এর অন্যান্য কারণগুলি কি কারণ বর্গমূলকে বেছে নেওয়া হবে? সেখানে কি কোনও পরিসংখ্যানগত ঘটনা ঘটছে?

এটি কি কোনওভাবে ত্রুটির বৈচিত্র হ্রাস করতে সহায়তা করে?

এটি কি প্রতিরোধ এবং শ্রেণিবিন্যাসের জন্য একই?

উত্তর:


17

আমি মনে করি মূল কাগজে তারা ) ব্যবহার করার পরামর্শ দিচ্ছে , তবে উভয়ভাবেই ধারণাটি নিম্নলিখিত:log2(N+1

এলোমেলোভাবে নির্বাচিত বৈশিষ্ট্যগুলির সংখ্যা দুটিভাবে জেনারালাইজেশন ত্রুটিকে প্রভাবিত করতে পারে: অনেকগুলি বৈশিষ্ট্য নির্বাচন করা পৃথক গাছের শক্তি বৃদ্ধি করে এবং বৈশিষ্ট্যগুলির সংখ্যা হ্রাস করে পুরো গাছের মধ্যে একটি কম পারস্পরিক সম্পর্ক গড়ে তোলে as

মজার বিষয় হ'ল র্যান্ডম ফরেস্টের লেখকগণ (শ্রেণিবিন্যাস) এবং শ্রেণিবিন্যাসের মধ্যে একটি অভিজ্ঞতাগত পার্থক্য খুঁজে পান:

রিগ্রেশন এবং শ্রেণিবিন্যাসের মধ্যে একটি আকর্ষণীয় পার্থক্য হ'ল ব্যবহৃত বৈশিষ্ট্যগুলির সংখ্যা বৃদ্ধি পাওয়ায় পারস্পরিক সম্পর্ক বেশ ধীরে ধীরে বৃদ্ধি পায়।

N/3N

NlogN

মধ্যবর্তী পরিসরটি সাধারণত বড়। এই ব্যাপ্তিতে, বৈশিষ্ট্যগুলির সংখ্যা যত বাড়ছে, পারস্পরিক সম্পর্ক বাড়ছে, কিন্তু পিই * (গাছ) হ্রাস করে ক্ষতিপূরণ দেয়।

(পিই * সাধারণীকরণের ত্রুটি হচ্ছে)

যেমন তারা পরিসংখ্যানগত শিক্ষার উপাদানগুলিতে বলে:

অনুশীলনে এই পরামিতিগুলির সর্বোত্তম মানগুলি সমস্যার উপর নির্ভর করবে এবং এগুলি টিউনিং পরামিতি হিসাবে বিবেচনা করা উচিত।

আপনার সমস্যার উপর নির্ভর করতে পারে এমন একটি বিষয় হল শ্রেণিবদ্ধ ভেরিয়েবলের সংখ্যা। আপনার যদি এমন অনেক শ্রেণীবদ্ধ ভেরিয়েবল থাকে যা ডামি-ভেরিয়েবল হিসাবে এনকোড থাকে তবে প্যারামিটারটি বাড়ানোর ক্ষেত্রে এটি সাধারণত বোধগম্য হয়। আবার, র্যান্ডম ফরেষ্টস পেপার থেকে:

int(log2M+1)


ধন্যবাদ, এটি একটি খুব দরকারী উত্তর। প্রকৃতপক্ষে, আমি ভাবছিলাম যে পুরো গাছের বনাম সামগ্রিকভাবে শক্তির সাথে কিছু করার দরকার ছিল। এবং প্রকৃতপক্ষে, খুব আকর্ষণীয় যে প্রতিরোধ এবং শ্রেণিবিন্যাসের মধ্যে যেমন একটি পার্থক্য রয়েছে। মূল কাগজটি সংযুক্ত করার জন্য অনেক ধন্যবাদ। অনেক কৌশল নিয়ে এই জাতীয় কাগজপত্র সংগ্রহ করার চেষ্টা করা হয়েছে।
ভ্যালেন্টিন কলমমে
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.