ছোট এন, বড় পি সমস্যাগুলিতে গাছ ভিত্তিক এনসেম্বল পদ্ধতিগুলির সীমাবদ্ধতা?


10

বৃক্ষভিত্তিক নকশাকৃত পদ্ধতি যেমন র‌্যান্ডম ফরেস্ট এবং পরবর্তী ডেরাইভেটিভস (যেমন শর্তসাপেক্ষ বন) সমস্ত আপেক্ষিক পরিবর্তনশীল গুরুত্ব চিহ্নিত করার জন্য তথাকথিত "ছোট এন , লার্জ পি " সমস্যায় কার্যকর হতে পারে port সত্যই, এটি কেস হিসাবে দেখা দেয় তবে আমার প্রশ্নটি এই ক্ষমতাটি কতদূর নেওয়া যেতে পারে? কেউ কি 30 টি পর্যবেক্ষণ এবং 100 ভেরিয়েবল বলতে পারে? এই ধরণের পদ্ধতির ব্রেকিং পয়েন্ট কী এবং সেখানে থাম্বের কোনও শালীন বিধি রয়েছে কি? সিমুলেটেড বা রিয়েল ডেটা সেট ব্যবহার করে আমি প্রকৃত প্রমাণের (অনুমানের নয়) লিঙ্কগুলির সাহায্যে জবাবগুলি পছন্দ করব এবং গ্রহণ করব । আমি পরে ( এখানে এবং এখানে) খুব বেশি খুঁজে পাইনি), সুতরাং আপনার মতামত / পরামর্শ / (বিষয়ে) রেফারেন্স পরামর্শগুলি সর্বাধিক স্বাগত!

উত্তর:


3

আমার সন্দেহ হয় কিছু সিমুলেশন অধ্যয়ন না করা পর্যন্ত এই প্রশ্নের কোনও নির্দিষ্ট উত্তর দেওয়া হবে না। এরই মধ্যে আমি জেনুয়ার এট আল র্যান্ডম অরণ্য পেয়েছি : কিছু পদ্ধতিগত অন্তর্দৃষ্টি কমপক্ষে বিভিন্ন "লো এন, হাই পি" ডেটাসেটের বিরুদ্ধে আরএফ পরীক্ষার ক্ষেত্রে এই প্রশ্নের কিছুটা দৃষ্টিভঙ্গি রাখতে সহায়তা করেছে। এর মধ্যে বেশ কয়েকটি ডেটাসেটের> 5000 প্রেডিকটার এবং <100 টি পর্যবেক্ষণ রয়েছে!


3

ব্যর্থতা মোড আপনি মুখোমুখি হ'ল যথেষ্ট এলোমেলো বৈশিষ্ট্য সহ এমন বৈশিষ্ট্য উপস্থিত থাকবে যা প্রতিটি গাছের জন্য ব্যবহৃত ব্যাগযুক্ত নমুনাগুলির মধ্যে লক্ষ্য সম্পর্কিত তবে বড় ডেটাসেটের মধ্যে নয়। একাধিক পরীক্ষায় দেখা একইরকম সমস্যা।

এর জন্য থাম্বের নিয়মগুলি বিকাশ করা শক্ত যেহেতু এটি ঘটবে ঠিক সেই বিন্দুতে ডেটাতে থাকা শব্দ এবং সংকেতের পরিমাণের উপর নির্ভর করে। একাধিক পরীক্ষায় বিভক্তকরণের মানদণ্ড হিসাবে সংশোধিত পি-মানগুলি ব্যবহার করে, পরিবর্তনশীল গুরুত্ব এবং / অথবা এলোমেলোভাবে প্রকৃত বৈশিষ্ট্যকে বাদ দিয়ে উত্পাদিত কৃত্রিম বিপরীতে বৈশিষ্ট্যগুলির সাথে বৈশিষ্ট্য আমদানির তুলনার ভিত্তিতে একটি বৈশিষ্ট্য নির্বাচনের পদক্ষেপটি প্রয়োগ করে এটিকে সম্বোধন করার পদ্ধতি রয়েছে, ব্যাগ ক্ষেত্রে বিভাজন নির্বাচন এবং অন্যান্য পদ্ধতি বৈধতা। এগুলি চূড়ান্ত কার্যকর হতে পারে।

আমি om 1000 কেস এবং 30,000-1,000,000 বৈশিষ্ট্য সহ ডেটা সেটগুলিতে এলোমেলো বন (উপরের কিছু পদ্ধতিগত টুইটগুলি সহ) ব্যবহার করেছি। (বৈশিষ্ট্য নির্বাচন বা ইঞ্জিনিয়ারিংয়ের বিভিন্ন স্তরের মানব জেনেটিক্সে ডেটা সেট করে)। এ জাতীয় ডেটাতে তারা অবশ্যই শক্তিশালী সংকেত (বা ব্যাচের প্রভাব) পুনরুদ্ধারে কার্যকর হতে পারে তবে ভিন্নতার কারণগুলির সাথে একটি রোগের মতো কিছু একসাথে পাইক করতে হবে না কারণ পরিমাণটি এলোমেলো পরিবর্তনের প্রতিটি সংকেতকে অতিক্রম করে


0

এটি আপনার ডেটাতে সংকেত এবং শব্দের উপরও নির্ভর করবে। যদি আপনার নির্ভরশীল ভেরিয়েবলটি আপনার মডেলের ভেরিয়েবলগুলির সংমিশ্রণ দ্বারা খুব ভালভাবে ব্যাখ্যা করা হয় তবে আমি মনে করি আপনি কম এন / পি অনুপাতের সাথে দূরে সরে যেতে পারেন।

আমি সন্দেহ করি যে নিখুঁত ন্যূনতম সংখ্যার এন এর জন্যও অনুপাত বাদে একটি শালীন মডেল পাওয়ার প্রয়োজন হবে।

এটি দেখার একটি উপায় হ'ল প্রতিটি গাছ প্রায় এসকিউআরটি (পি) ভেরিয়েবল ব্যবহার করে তৈরি করা হয় এবং যদি সেই সংখ্যাটি বড় হয় এবং পয়েন্টগুলির সংখ্যা ছোট হয় তবে সেখানে সত্যিকারের মডেল না রেখে ছোট গাছ লাগানো যেতে পারে। অতএব এ জাতীয় অতিরিক্ত গাছগুলি প্রচুর মিথ্যা পরিবর্তনশীল গুরুত্ব দেবে।

পরিবর্তনশীল গুরুত্বের চার্টে সাধারণত, আমি প্রায় একই স্তরের গুরুত্বের সাথে শীর্ষস্থানীয় প্রচুর ভেরিয়েবলগুলি দেখি আমি এই সিদ্ধান্তটি নিয়েছি যে এটি আমাকে কেবল শব্দ দিচ্ছে।


এসকিউআরটি (পি) কোথা থেকে এসেছে?
লৌরিক

র্যান্ডমফোরেস্টে প্রতিটি গাছ ভেরিয়েবলের নমুনা ব্যবহার করে তৈরি করা হয়। ডিফল্টরূপে (কমপক্ষে আর এলোমেলো প্যাকেজটিতে) এটির মানটি এসকিউআরটি (পি) এর চেয়ে কম বা সমান যেখানে পি কলামের সংখ্যা of
দীপকএমএল
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.