এলোমেলো বন কি খুব ছোট ডেটা সেটের জন্য উপযুক্ত?


13

আমার কাছে মাসিক ডেটার 24 সারি সমন্বিত ডেটা সেট রয়েছে। বৈশিষ্ট্যগুলি হ'ল জিডিপি, বিমানবন্দরের আগমন, মাস এবং আরও কয়েকটি। নির্ভরশীল পরিবর্তনশীল একটি জনপ্রিয় পর্যটন গন্তব্যে দর্শনার্থীর সংখ্যা। র্যান্ডম ফরেস্ট কি এমন সমস্যার জন্য উপযুক্ত হবে?

ডেটা জনসাধারণ না হওয়ায় আমি একটি নমুনা পোস্ট করতে অক্ষম।


সাধারণত এলোমেলো বনের উপর একটি বিধিনিষেধ হ'ল আপনার বৈশিষ্ট্যগুলির সংখ্যাটি বেশ বড় হওয়া উচিত - আরএফের প্রথম পদক্ষেপটি গাছ নির্মানের জন্য 1 / 3n বা স্কয়ার্ট (এন) বৈশিষ্ট্যগুলি বেছে নেওয়া হয় (টাস্ক, রিগ্রেশন / শ্রেণিবিন্যাসের উপর নির্ভর করে)। সুতরাং আপনার যদি বেশ কয়েকটি বৈশিষ্ট্য থাকে তবে এমনকি ছোট ডেটাসেটেও আরএফ ব্যবহার করুন - এমন কোনও অ্যালগরিদম নেই যা ছোট ডেটাসেটগুলিতে সত্যিই ভাল কাজ করে যাতে আপনি কিছুই আলগা করেন না।
জার্মান ডেমিডভ

আপনি স্বল্প পরিসরে রয়েছেন। আরএফ কাজ করবে, তবে কাঁচা ডেটা দেখার জন্য আপনি যেটা বুঝতে পেরেছিলেন তার চেয়ে সম্ভবত আরও জটিল জিনিসগুলি শিখবেন না। এটি সাহায্য করে, যদি আপনার ডেটা খুব কম শব্দ হয়। 40-50 নমুনা থেকে এটি আরও ভাল হওয়া শুরু করে। 500 ভাল। 5000 টি দুর্দান্ত
সোরেন হ্যাভেলন্ড ওয়েলিং

রিগ্রেশনের জন্য সম্ভাব্য গাছের গভীরতা মিনোড = 5 দ্বারা সীমাবদ্ধ, সুতরাং আপনার নমুনাগুলি গড়ে 2 বারের বেশি বিভক্ত হবে না [[24 -> (1) 12 -> (2) 6..]]] মাতৃ সীমাবদ্ধতা সহ, কোনও মডেলটির কোনও ইন্টারঅ্যাকশন প্রভাব বা এমনকি সাধারণ অ-লিনিয়ার প্রভাব ক্যাপচারে একটি শক্ত সময় হবে। আপনি মিনোড এবং মাত্রি দিয়ে ঝাঁকুনি খেতে পারেন, তবে আপনার ডেটা ব্যবহারিকভাবে কম শব্দ করা থাকলে আপনার কেবল এটি করা উচিত। লাগানো সিদ্ধান্তের উপরের সম্ভাব্যতা হ'ল ফ্লিপসাইড। আপনি প্রাপ্ত মডেল কাঠামোটি মোটামুটি ধীর পদক্ষেপের মতো দেখবেন।
সোরেন হাভেলুন্ড ওয়েলিং 25'16 '


ছোট ডেটাসেটের জন্য ক্রস বৈধকরণ কৌশলটি ব্যবহার করুন। আরও তথ্যের জন্য, stats.stackexchange.com/questions/19048/…
আসিফ খান

উত্তর:


4

র্যান্ডম অরণ্যটি মূলত নমুনাগুলির পুনরায় মডেলিং এবং প্রশিক্ষণ সংক্রান্ত সিদ্ধান্তের গাছগুলি বুটস্ট্র্যাপ হয়, সুতরাং আপনার প্রশ্নের উত্তরের সেই দুটি বিষয়কে সম্বোধন করা দরকার।

বুটস্ট্র্যাপ রিস্যাম্পলিং হয় ছোট নমুনার জন্য একটি প্রতিকারও না । আপনার যদি আপনার ডেটাসেটে মাত্র চব্বিশটি পর্যবেক্ষণ থাকে, তবে এই তথ্য থেকে প্রতিস্থাপনের সাথে নেওয়া প্রতিটি নমুনায় চব্বিশটি স্বতন্ত্র মানগুলির চেয়ে বেশি নয়। কেসগুলি পরিবর্তন করা এবং সেগুলির মধ্যে কিছু অঙ্কন না করা অন্তর্নিহিত বিতরণ সম্পর্কে নতুন কিছু শেখার আপনার ক্ষমতা সম্পর্কে খুব বেশি পরিবর্তন ঘটবে না। সুতরাং একটি ছোট নমুনা হয় বুটস্ট্র্যাপ জন্য সমস্যা।

সিদ্ধান্ত গাছগুলিকে প্রোটেক্টর ভেরিয়েবলগুলিতে শর্তসাপেক্ষে ডেটা বিভক্ত করে প্রশিক্ষণ দেওয়া হয়, এক সময় এক পরিবর্তনশীল, এমন সাবমেলগুলি সন্ধান করতে যা সর্বাধিক বৈষম্যমূলক শক্তি রয়েছে। যদি আপনার কেবল চব্বিশটি কেস থাকে তবে বলুন যে আপনি ভাগ্যবান এবং সমস্ত বিভাজন এমনকি আকারে হলেও দুটি বিভাজন সহ আপনি ছয়টি মামলার চারটি গ্রুপের সাথে তিনটি আটটি গ্রুপের সাথে গাছের বিভাজন সহ শেষ হয়ে যেতেন। যদি আপনি নমুনাগুলিতে শর্তাধীন মানে গণনা করেন (রিগ্রেশন ট্রিগুলিতে ক্রমাগত মানগুলি বা সিদ্ধান্ত গাছগুলিতে শর্তাধীন সম্ভাবনার পূর্বাভাস), আপনি কেবলমাত্র কয়েকটি কয়েকটি ক্ষেত্রে আপনার সিদ্ধান্তকে ভিত্তি করে দেখবেন! সুতরাং আপনি সিদ্ধান্ত নিতে যে সাব-স্যাম্পলগুলি ব্যবহার করবেন তা আপনার মূল ডেটার চেয়েও ছোট হবে।

ছোট নমুনাগুলি সহ সাধারণ পদ্ধতিগুলি ব্যবহার করা সাধারণত বুদ্ধিমানের কাজ । তদতিরিক্ত, আপনি বয়েসিয়ান সেটিংয়ে তথ্যবহুল প্রিয়ারগুলি ব্যবহার করে ছোট্ট নমুনাটি ধরতে পারেন (যদি আপনার সমস্যা সম্পর্কে কোনও যুক্তিসঙ্গত আউট-অফ-ডেটা জ্ঞান থাকে), তাই আপনি কিছু টেইলার-তৈরি বায়েশিয়ান মডেলটি বিবেচনা করতে পারেন।


1

একদিকে, এটি একটি ছোট ডেটা সেট, এবং এলোমেলো বনটি ডেটা-ক্ষুধার্ত।

অন্যদিকে, কিছু না চেয়ে ভাল কিছু হতে পারে। "এটি চেষ্টা করে দেখুন" ছাড়া আর কিছু বলার নেই। কোনও নির্দিষ্ট মডেল "ভাল" কিনা তা আপনি সিদ্ধান্ত নিতে পারেন; তদুপরি, কোনও মডেল নির্দিষ্ট উদ্দেশ্যে উপযুক্ত কিনা তা আমরা আপনাকে জানাতে পারি না (বা আপনি আমাদের চাইবেন না - আমরা ভুল হলে আমাদের কোনও মূল্য নেই!)।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.