এলোমেলো বন অনুমান


43

আমি এলোমেলো বনে এক ধরণের নতুন তাই আমি এখনও কিছু প্রাথমিক ধারণা নিয়ে লড়াই করছি।
লিনিয়ার রিগ্রেশন-এ, আমরা স্বতন্ত্র পর্যবেক্ষণ, ধ্রুব বৈকল্পিকতা ধরে নিই ...

  • যখন আমরা এলোমেলো বন ব্যবহার করি তখন আমরা যে প্রাথমিক অনুমান / অনুমানগুলি করি তা কী কী?
  • মডেল অনুমানের দিক দিয়ে এলোমেলো বন এবং নিষ্পাপ বেগুলির মধ্যে মূল পার্থক্যগুলি কী কী?

উত্তর:


33

একটি খুব ভাল প্রশ্নের জন্য ধন্যবাদ! আমি এর পিছনে আমার অন্তর্দৃষ্টি দেওয়ার চেষ্টা করব

এটি বোঝার জন্য, এলোমেলো বন শ্রেণিবদ্ধের "উপাদানগুলি" মনে রাখবেন (কিছু পরিবর্তন রয়েছে তবে এটি সাধারণ পাইপলাইন):

  1. পৃথক গাছ তৈরির প্রতিটি ধাপে আমরা ডেটার সেরা বিভাজন খুঁজে পাই
  2. একটি গাছ তৈরি করার সময় আমরা পুরো ডেটাसेट ব্যবহার করি না, তবে বুটস্ট্র্যাপ নমুনা ব্যবহার করি
  3. আমরা পৃথক গাছের আউটপুটগুলিকে গড়ে গড়ে গড়ে তুলি (আসলে 2 এবং 3 এর অর্থ আরও সাধারণ ব্যাগিং প্রক্রিয়া )।

প্রথম পয়েন্ট ধরুন। সর্বদা সেরা বিভাজন খুঁজে পাওয়া সম্ভব নয়। উদাহরণস্বরূপ নীচের ডাটাবেসে প্রতিটি বিভাজন হ'ল একটি বিযুক্ত শ্রেণীর বস্তু দেবে। সেরা বিভাজন সহ ডেটাসেটের উদাহরণ

এবং আমি মনে করি যে ঠিক এই পয়েন্টটি বিভ্রান্তিকর হতে পারে: প্রকৃতপক্ষে, পৃথক বিভাজনের আচরণটি কোনওভাবেই নায়েভ বেয়েস শ্রেণিবদ্ধের আচরণের মতো: যদি ভেরিয়েবলগুলি নির্ভরশীল হয় - সিদ্ধান্ত গাছের পক্ষে এর চেয়ে ভাল বিভাজন আর নায়েভ বেয়েস শ্রেণিবদ্ধও ব্যর্থ হয় also (কেবল মনে করিয়ে দেওয়ার জন্য: স্বাধীন ভেরিয়েবলগুলি মূল অনুমান যা আমরা নাইভ বেয়েস শ্রেণিবদ্ধে করি; অন্য সমস্ত অনুমানগুলি আমরা যে সম্ভাব্য মডেলগুলি বেছে নিই তা থেকে আসে))

তবে এখানে সিদ্ধান্ত গাছগুলির দুর্দান্ত সুবিধাটি রয়েছে: আমরা যে কোনও বিভাজন নিয়েছি এবং আরও বিভাজন চালিয়ে যাব । এবং নিম্নলিখিত বিভক্তির জন্য আমরা একটি নিখুঁত পৃথকীকরণ (লাল রঙের মধ্যে) পাব। সিদ্ধান্ত সীমানা উদাহরণ

এবং যেমন আমাদের কোনও সম্ভাব্য মডেল নেই, তবে কেবল বাইনারি বিভাজন, আমাদের কোনও অনুমান করার দরকার নেই।

এটি সিদ্ধান্ত গাছ সম্পর্কে ছিল, তবে এটি র্যান্ডম ফরেস্টের জন্যও প্রযোজ্য। পার্থক্য হ'ল র্যান্ডম ফরেস্টের জন্য আমরা বুটস্ট্র্যাপ একত্রিতকরণ ব্যবহার করি। এর নীচে কোনও মডেল নেই এবং এটি কেবল নির্ভর করে যে এটি নির্ভর করে তা হল নমুনাটি প্রতিনিধিত্বকারী । তবে এটি সাধারণত একটি সাধারণ অনুমান। উদাহরণস্বরূপ, যদি একটি শ্রেণি দুটি উপাদান নিয়ে গঠিত হয় এবং আমাদের ডেটাসেটে একটি উপাদান 100 টি নমুনা দ্বারা উপস্থাপিত হয় এবং অন্য উপাদানটি 1 টি নমুনা দ্বারা প্রতিনিধিত্ব করে - সম্ভবত বেশিরভাগ স্বতন্ত্র সিদ্ধান্তের গাছগুলি কেবল প্রথম উপাদানটি দেখতে পাবে এবং র্যান্ডম ফরেস্ট দ্বিতীয়টিটিকে ভুলভাবে শ্রেণিবদ্ধ করবে । দুর্বলভাবে উপস্থাপিত দ্বিতীয় উপাদানগুলির উদাহরণ

আশা করি এটি আরও কিছু বোঝার সুযোগ দেবে।


10

২০১০ সালের একটি গবেষণাপত্রে লেখক নথিভুক্ত করেছিলেন যে এলোমেলো বন মডেলগুলি অবিস্মরণীয়ভাবে ভেরিয়েবলের গুরুত্ব অনুমান করে যখন ভেরিয়েবলগুলি বহু-মাত্রিক পরিসংখ্যানীয় স্থান জুড়ে মাল্টিকোলিনার ছিল। আমি এলোমেলো বন মডেল চালানোর আগে সাধারণত এটি পরীক্ষা করে দেখি।

http://www.esajournals.org/doi/abs/10.1890/08-0879.1


3
আপনি বিশ্বাস করেন যে "ইয়েলোস্টোন ন্যাশনাল পার্কে ল্যান্ডস্কেপ জিনেটিক্সের সাথে বুফো বোরিয়াস সংযোগের পরিমাণ নির্ধারণ করা" ইকোলজিতে মেশিন লার্নিংয়ের বিষয়গুলি নিয়ে মেশিন লার্নিংয়ের বার্কলে লেখককে নিয়ে কলোরাডো স্টেট লেখকরা রচনা করেছেন?
হ্যাক-আর

8
আমি মনে করি না যে তারা একে অপরের সাথে মতবিরোধ করছে। ব্রিম্যান বহু-মাত্রিক স্থান জুড়ে বহুবিশেষের এই 'বিশেষ ক্ষেত্রে' তদন্ত করেননি। এছাড়াও, কলোরাডো রাজ্যের লোকেরা খুব স্মার্ট হতে পারে- এবং এই ছেলেরাও।
মিনা
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.