এলোমেলো বন এবং সিদ্ধান্ত গাছ অ্যালগরিদম

14

একটি এলোমেলো বন হ'ল ব্যাগিং ধারণার অনুসরণ করে সিদ্ধান্ত গাছের সংগ্রহ। যখন আমরা একটি সিদ্ধান্ত গাছ থেকে পরবর্তী সিদ্ধান্ত গাছের দিকে চলে যাই তখন শেষ সিদ্ধান্ত গাছ দ্বারা শিখানো তথ্য কীভাবে পরবর্তী স্থানে চলে যায়?

কারণ, আমার বোধগম্য হিসাবে, এমন কোনও প্রশিক্ষিত মডেলের মতো কিছুই নেই যা প্রতিটি সিদ্ধান্ত গাছের জন্য তৈরি হয় এবং তারপরে পরবর্তী সিদ্ধান্ত গাছটি ভুল শ্রেণিবদ্ধ ত্রুটি থেকে শেখার শুরু করার আগে লোড হয়।

সুতরাং কিভাবে এটি কাজ করে?

— অভয় রাজ সিং
সূত্র

"যখন আমরা একটি সিদ্ধান্ত গাছ থেকে পরবর্তী সিদ্ধান্ত গাছের দিকে চলে যাই"। এটি একটি লিনিয়ার প্রক্রিয়া প্রস্তাব করে। আমরা সমান্তরাল বাস্তবায়ন তৈরি করেছি যেখানে আমরা প্রতি সিপিইউ কোরতে একটি গাছে কাজ করেছি; আপনি প্রশিক্ষণে সিপিইউ কোর প্রতি পৃথক এলোমেলো সংখ্যা জেনারেটর ব্যবহার না করে এটি পুরোপুরি সূক্ষ্মভাবে কাজ করে , যার মধ্যে সবাই একই বীজ ভাগ করে। সেক্ষেত্রে আপনি প্রচুর অভিন্ন গাছ দিয়ে শেষ করতে পারেন।

— এমসাল্টার

23

গাছগুলির মধ্যে কোনও তথ্যই পাস করা হয় না। একটি এলোমেলো বনে, সমস্ত গাছ একইভাবে বিতরণ করা হয়, কারণ গাছগুলি সমস্ত গাছের জন্য একই র্যান্ডমাইজেশন কৌশল ব্যবহার করে উত্থিত হয়। প্রথমে, ডেটাটির একটি বুটস্ট্র্যাপ নমুনা নিন এবং তারপরে এলোমেলোভাবে নির্বাচিত বৈশিষ্ট্যের বৈশিষ্ট্যগুলির মধ্যে বিভাজনগুলি ব্যবহার করে গাছটি বাড়ান। এটি প্রতিটি গাছের জন্য পৃথক পৃথকভাবে সংঘবদ্ধর জন্য অন্য কোনও গাছের দিকে মনোযোগ না দিয়ে ঘটে। যাইহোক, প্রতিটি গাছের প্রশিক্ষণের তথ্যগুলির একটি সাধারণ পুলের নমুনায় প্রশিক্ষিত হওয়ার কারণে গাছগুলি খাঁটি সম্পর্কযুক্ত হয়; একই ডেটা সেট থেকে একাধিক নমুনাগুলি একই রকম হবে, তাই গাছগুলি সেই সাদৃশ্যটির কিছু এনকোড করবে।

আপনি একটি উচ্চ মানের পাঠ্য থেকে এলোমেলো বনের একটি ভূমিকা পড়তে সহায়ক হতে পারে। একটি হলেন লিও ব্রেইমানের "এলোমেলো বন"। অ্যাসিস্টিকাল লার্নিং এর উপাদানগুলির একটি অধ্যায়ও রয়েছে হাসতি এট আল দ্বারা।

এটা সম্ভব যে আপনি এডা বুস্ট বা গ্রেডিয়েন্ট-বুস্টেড গাছের মতো বুস্টিং পদ্ধতিগুলির সাথে এলোমেলো বনগুলিকে বিভ্রান্ত করেছেন। বুস্টিং পদ্ধতিগুলি একই নয়, কারণ তারা পরবর্তী বুস্টিং রাউন্ডগুলি জানানোর জন্য পূর্ববর্তী বুস্টিং রাউন্ডগুলি থেকে মিসফিট সম্পর্কিত তথ্য ব্যবহার করে। দেখুন: এলোমেলো বন কি উত্সাহিতকরণ অ্যালগরিদম?

— সাইকোরাক্স মনিকাকে রিইনস্টেট বলে
সূত্র

11

র্যান্ডম বন একাধিক সিদ্ধান্ত গাছ যা একটি সংগ্রহ স্বাধীনভাবে পরস্পর এর প্রশিক্ষণ দেওয়া হয় । সুতরাং অনুক্রমিকভাবে নির্ভর প্রশিক্ষণের কোনও ধারণা নেই (যা অ্যালগরিদমগুলি উত্সাহ দেওয়ার ক্ষেত্রে এটি )। এর ফলস্বরূপ, অন্য উত্তরে উল্লিখিত হিসাবে, গাছগুলির সমান্তরাল প্রশিক্ষণ করা সম্ভব।

আপনি এলোমেলো বনের "এলোমেলো" কোথা থেকে এসেছে তা জানতে আপনি পছন্দ করতে পারেন: দুটি উপায় রয়েছে যা দিয়ে বৃক্ষগুলি শেখার প্রক্রিয়াটিতে এলোমেলোভাবে প্রবেশ করা হয়। প্রথমটি প্রতিটি গাছকে প্রশিক্ষণের জন্য ব্যবহৃত ডেটা পয়েন্টগুলির এলোমেলো নির্বাচন এবং দ্বিতীয়টি প্রতিটি গাছ তৈরিতে ব্যবহৃত বৈশিষ্ট্যগুলির এলোমেলো নির্বাচন। যেহেতু একক সিদ্ধান্তের গাছটি সাধারণত ডেটাগুলিতে বেশি পরিমাণে প্রবণতা অর্জন করে, তাই এলোমেলোভাবে ইনজেকশনের ফলে এমন একগুচ্ছ গাছ পাওয়া যায় যেখানে তাদের প্রত্যেকের উপলব্ধ প্রশিক্ষণের ডেটার আলাদা উপসেটে ভাল যথার্থতা (এবং সম্ভবত অতিরিক্ত পরিমাণে) থাকে । অতএব, যখন আমরা সমস্ত গাছ দ্বারা করা পূর্বাভাসের গড় গ্রহণ করি, তখন আমরা ওভারফিটিং হ্রাস লক্ষ্য করব ( সমস্ত উপলব্ধ ডেটাতে একটি একক সিদ্ধান্ত গাছ প্রশিক্ষণের ক্ষেত্রে তুলনা করা )।

এটি আরও ভালভাবে বুঝতে, এখানে প্রশিক্ষণ প্রক্রিয়াটির মোটামুটি স্কেচটি ধরে নেওয়া হয়েছে যে সমস্ত ডেটা পয়েন্টগুলি দ্বারা চিহ্নিত একটি সেটে সংরক্ষণ করা হয়েছে এবং বনের গাছের সংখ্যা হ'ল : $M$ $N$

$i = 0$
একটি নিন boostrap নমুনা এর (অর্থাত স্যাম্পলিং প্রতিস্থাপন এবং হিসাবে একই আকার সঙ্গে ) যা দ্বারা প্রকাশ করা হয় । $M$ $M$ $S_i$
ট্রেন -th গাছ, যেমন প্রকাশ ব্যবহার ইনপুট ডেটা হিসাবে। $i$ $T_i$ $S_i$
- প্রশিক্ষণের প্রক্রিয়াটি সিদ্ধান্তের গাছকে প্রশিক্ষণের মতোই the গাছের প্রতিটি নোডে n নোডে বিভাজনের জন্য বৈশিষ্ট্যগুলির একটি এলোমেলো নির্বাচন ব্যবহৃত হয় difference

$i = i + 1$
যদি পদক্ষেপ 2 এ যান, অন্যথায় সমস্ত গাছ প্রশিক্ষিত হয়েছে, তাই এলোমেলো বন প্রশিক্ষণ শেষ হয়েছে। $i < N$

নোট করুন যে আমি অ্যালগরিদমকে একটি অনুক্রমিক অ্যালগরিদম হিসাবে বর্ণনা করেছি, তবে যেহেতু গাছের প্রশিক্ষণ একে অপরের উপর নির্ভর করে না তাই আপনি এটি সমান্তরালেও করতে পারেন। এখন পূর্বাভাসের পদক্ষেপের জন্য, প্রথমে প্রতিটি গাছের (যেমন , , ..., ) এবং তারপরে: $T_1$ $T_2$ $T_N$

যদি এটি কোনও রিগ্রেশন টাস্কের জন্য ব্যবহৃত হয়, তবে এলোমেলো বনের চূড়ান্ত পূর্বাভাস হিসাবে ভবিষ্যদ্বাণীগুলির গড়কে গ্রহণ করুন।
যদি এটি কোনও শ্রেণিবদ্ধকরণের কাজে ব্যবহার করা হয়, তবে নরম ভোটদানের কৌশলটি ব্যবহার করুন : প্রতিটি শ্রেণীর জন্য গাছ দ্বারা পূর্বাভাস দেওয়া সম্ভাবনার গড়পড়তা নিন, তারপরে এলোমেলো বনের চূড়ান্ত পূর্বাভাস হিসাবে সর্বোচ্চ গড় সম্ভাব্যতা সহ শ্রেণিকে ঘোষণা করুন।

আরও, এটি উল্লেখ করার মতো যে, ধারাগুলি নির্ভরশীল পদ্ধতিতে গাছগুলি প্রশিক্ষণ দেওয়া সম্ভব এবং গ্রেডিয়েন্ট বুস্টেড ট্রি অ্যালগোরিদম ঠিক এটিই বানাচ্ছে , যা এলোমেলো বন থেকে সম্পূর্ণ ভিন্ন পদ্ধতি।

— আজ
সূত্র

8

র‌্যান্ডম অরণ্য একটি উত্সাহিত অ্যালগরিদমের পরিবর্তে একটি ব্যাগিং অ্যালগরিদম।

এলোমেলো অরণ্য ডেটার এলোমেলো নমুনা ব্যবহার করে গাছটি স্বাধীনভাবে তৈরি করে। একটি সমান্তরাল বাস্তবায়ন সম্ভব।

আপনি গ্রেডিয়েন্ট বুস্টিং যাচাই করে দেখতে পারেন যেখানে গাছগুলি ক্রমান্বয়ে নির্মিত হয় যেখানে নতুন গাছ পূর্বে করা ভুলটি সংশোধন করার চেষ্টা করে।

— সায়ং থিয়ে গোহ
সূত্র

6

সুতরাং এটি কিভাবে কাজ করে?

র্যান্ডম ফরেস্ট সিদ্ধান্ত গাছের সংগ্রহ। গাছগুলি স্বাধীনভাবে নির্মিত হয়। প্রতিটি গাছ বৈশিষ্ট্যের সাবসেট এবং প্রতিস্থাপনের সাথে নির্বাচিত নমুনার সাবসেট সম্পর্কে প্রশিক্ষিত হয়।

পূর্বাভাস দেওয়ার সময়, শ্রেণিবিন্যাসের জন্য বলুন, বনের প্রতিটি গাছকে ইনপুট প্যারামিটার দেওয়া হয় এবং প্রতিটি গাছের শ্রেণিবিন্যাসে "ভোট" দেওয়া হয়, সর্বাধিক ভোটের জয়যুক্ত লেবেল।

সাধারণ সিদ্ধান্ত গাছের তুলনায় কেন র্যান্ডম বন ব্যবহার করবেন? বায়াস / ভেরিয়েন্স বাণিজ্য বন্ধ। একক সিদ্ধান্ত গাছের সাথে তুলনা করার সময় এলোমেলো বন অনেক সহজ গাছ থেকে তৈরি are সাধারণত র্যান্ডম অরণ্যগুলি বৈষম্যের কারণে ত্রুটির একটি বড় হ্রাস এবং পক্ষপাতের কারণে ত্রুটিতে ছোট বৃদ্ধি সরবরাহ করে।

— Akavall
সূত্র

যদি আমরা প্রতিটি সিদ্ধান্ত গাছের জন্য আলাদা আলাদা বৈশিষ্ট্যগুলি বেছে নিই, তবে পরবর্তী সিদ্ধান্ত গাছের জন্য যখন আমরা মিস ক্লাসিফিকেশনকৃত মানগুলি পাঠিয়ে থাকি তখন কীভাবে পূর্ববর্তী সিদ্ধান্ত গাছের বৈশিষ্ট্যগুলির একটি সেট দ্বারা শিখনের উন্নতি হয়?

— অভয় রাজ সিং

3

@ অভয়রাজ রাজসিংহ - আপনি র্যান্ডম ফরেস্টে "ভুল বর্ণিত মানগুলি আগে প্রেরণ করেন না"। আকাওয়াল যেমন বলেছিলেন, "গাছগুলি স্বাধীনভাবে নির্মিত হয়"

— হেনরি

1

হ্যাঁ, উপরে লেখকরা যেমন বলেছিলেন, র্যান্ডম ফরেস্ট অ্যালগরিদম একটি ব্যাগিং, অ্যালগরিদমকে বাড়িয়ে তোলে না।

ব্যাগিং ক্লাসিফিকেটরের বৈকল্পিকতা হ্রাস করতে পারে, কারণ বেস অ্যালগরিদমগুলি, যা বিভিন্ন নমুনায় লাগানো হয় এবং তাদের ত্রুটিগুলি ভোটের ক্ষেত্রে পারস্পরিক ক্ষতিপূরণ দেওয়া হয়। ব্যাগিং ভবিষ্যদ্বাণীমূলক শক্তি উন্নত করার উপায় হিসাবে একই মডেলের কিছুটা ভিন্ন সংস্করণের গড়কে বোঝায়। ব্যাগিং প্রয়োগের জন্য আমরা কেবল বি বুটস্ট্র্যাপড প্রশিক্ষণ সেট ব্যবহার করে বি রিগ্রেশন গাছগুলি তৈরি করি, এবং ফলাফলের পূর্বাভাসগুলি গড় করি

ব্যাগিংয়ের একটি সাধারণ এবং বেশ সফল অ্যাপ্লিকেশন হ'ল র্যান্ডম ফরেস্ট

কিন্তু এলোমেলো বনে এই সিদ্ধান্ত গাছগুলি তৈরি করার সময়, প্রতিটি সময় কোনও গাছে বিভক্ত হওয়ার বিষয়টি বিবেচনা করা হয়, mপি প্রেডিক্টরের পুরো সেট থেকে বিভক্ত প্রার্থী হিসাবে প্রাক্কলনকারীদের একটি এলোমেলো নমুনা বেছে নেওয়া হয়। এই বিভাজনকারীদের মধ্যে কেবলমাত্র একটি mভবিষ্যদ্বাণীকারী ব্যবহার করার অনুমতি রয়েছে ।

— ড্যানিয়েল চেপেনকো
সূত্র