কেন একটি সিদ্ধান্ত গাছ কম পক্ষপাত এবং উচ্চ বৈকল্পিকতা আছে?


15

প্রশ্নাবলি

  1. গাছ কি অগভীর বা গভীর তার উপর নির্ভর করে? বা গাছের গভীরতা / স্তর নির্বিশেষে আমরা এটি বলতে পারি?
  2. পক্ষপাত কম এবং বৈকল্পিক কেন বেশি? স্বজ্ঞাত এবং গাণিতিকভাবে ব্যাখ্যা করুন

উত্তর:


4

পার্টিতে কিছুটা দেরি হলেও আমি অনুভব করি যে এই প্রশ্নটি উত্তরটি কার্যকরভাবে উদাহরণ সহ ব্যবহার করতে পারে।

আমি এই চমৎকার নিবন্ধটির সংক্ষিপ্ত বিবরণ লিখব : পক্ষপাতিত্ব-বৈচিত্র্য-বাণিজ্য-বন্ধ , যা আমাকে বিষয়টি বুঝতে সহায়তা করেছে।

যে কোনও মেশিন লার্নিং অ্যালগরিদমের জন্য ভবিষ্যদ্বাণী ত্রুটিটি তিন ভাগে বিভক্ত হতে পারে:

  • বায়াস ত্রুটি
  • ভেরিয়েন্স ত্রুটি
  • অপ্রয়োজনীয় ত্রুটি

অপ্রয়োজনীয় ত্রুটি

নামটি থেকে বোঝা যায়, একটি ত্রুটিযুক্ত উপাদান যা আমরা অ্যালগরিদম এবং এর পরামিতি নির্বাচন নির্বিশেষে সংশোধন করতে পারি না। সরলীকরণযোগ্য ত্রুটি জটিলতার যা কেবল করছে কারণে না প্রশিক্ষণ সেটে দখল করে। এটি এমন বৈশিষ্ট্য হতে পারে যা আমাদের শেখার সেটে নেই তবে তারা ম্যাপিংকে ফলাফলের দিকে প্রভাবিত করে না।

বায়াস ত্রুটি

বায়াস ত্রুটি লক্ষ্য ফাংশন সম্পর্কে আমাদের অনুমানের কারণে। টার্গেট ফাংশন সম্পর্কে আমরা যত বেশি অনুমান (সীমাবদ্ধতা) করি, তত বেশি পক্ষপাতিত্ব আমরা প্রবর্তন করি। উচ্চ পক্ষপাত সহ মডেলগুলি কম নমনীয় কারণ আমরা লক্ষ্যযুক্ত কার্যগুলিতে আরও নিয়ম আরোপ করেছি।

বৈকল্পিক ত্রুটি

ভেরিয়েন্স ত্রুটি হ'ল বিভিন্ন প্রশিক্ষণ সেটের ক্ষেত্রে লক্ষ্য ফাংশনের ফর্মের পরিবর্তনশীলতা। আপনি যদি প্রশিক্ষণ সংস্থায় কয়েকটি নমুনা প্রতিস্থাপন করেন তবে ছোট ভেরিয়েন্স ত্রুটির সাথে মডেলগুলি খুব বেশি পরিবর্তন ঘটবে না। উচ্চতর বৈকল্পিকতাযুক্ত মডেলগুলি এমনকি প্রশিক্ষণ সংস্থার ছোট্ট পরিবর্তনগুলি দ্বারা প্রভাবিত হতে পারে।

সাধারণ লিনিয়ার রিগ্রেশন বিবেচনা করুন:

Y=b0+b1x

স্পষ্টতই, এটি একটি লক্ষ্য ফাংশনের মোটামুটি সীমাবদ্ধ সংজ্ঞা এবং অতএব এই মডেলের একটি উচ্চ পক্ষপাত রয়েছে।

অন্যদিকে, যদি আপনি বেশ কয়েকটি ডেটা নমুনা পরিবর্তন করেন তবে কম বৈকল্পিকতার কারণে, এটি লক্ষ্য ফাংশনটি সম্পাদন করে সামগ্রিক ম্যাপিংয়ে বড় পরিবর্তন আনার সম্ভাবনা কম। অন্যদিকে, কে-নিকটতম-প্রতিবেশীদের মতো অ্যালগরিদমগুলিতে উচ্চ বৈকল্পিকতা এবং কম পক্ষপাত থাকে। কেএনএন সিদ্ধান্তের পৃষ্ঠকে বিভিন্ন নমুনা কীভাবে প্রভাবিত করতে পারে তা কল্পনা করা সহজ।

সাধারণত, প্যারামেট্রিক অ্যালগরিদমে একটি উচ্চ পক্ষপাত এবং কম বৈকল্পিক থাকে এবং তদ্বিপরীত।

মেশিন লার্নিংয়ের অন্যতম চ্যালেঞ্জ পক্ষপাত ত্রুটি এবং বৈকল্পিক ত্রুটির সঠিক ভারসাম্য খুঁজে পাওয়া।

সিদ্ধান্ত গাছ

এখন যেহেতু আমাদের এই সংজ্ঞাগুলি স্থানে রয়েছে, এটি সিদ্ধান্তের গাছগুলি কম পক্ষপাত এবং উচ্চ বৈকল্পিক সহ মডেলের উদাহরণ see গাছ লক্ষ্য ফাংশন সম্পর্কে প্রায় কোনও অনুমান করে না তবে এটি ডেটাতে ভিন্নতার পক্ষে অত্যন্ত সংবেদনশীল।

বুটস্ট্র্যাপিং এগ্রিগ্রেশন এবং এলোমেলো বন হিসাবে ন্যূনতম অ্যালগরিদম রয়েছে, যা সিদ্ধান্ত গাছের পক্ষপাতিত্বের স্বল্প ব্যয়ে প্রকরণটি হ্রাস করার লক্ষ্যে রয়েছে।


2

যদি স্তরের সংখ্যা খুব বেশি থাকে যেমন একটি জটিল সিদ্ধান্তের গাছ, মডেলটি বেশি মানায়।

স্বজ্ঞাতভাবে, এটি এইভাবে বোঝা যায়। যখন ফলাফলটি পৌঁছানোর আগে অনেকগুলি সিদ্ধান্ত নোডগুলি পাতায় যেতে হয় অর্থাৎ পাতাগুলিতে পৌঁছানোর আগে নোডের ট্র্যাভার্সের সংখ্যা বেশি হয়, আপনি যে শর্তগুলির বিরুদ্ধে যাচাই করে থাকেন সেগুলি গুণক হয়ে যায়। তা হল, গণনাটি (শর্ত 1) এবং& ((শর্ত 2) && (শর্ত 3) && (শর্ত 4) ও& (শর্ত 5) হয়ে যায়

সমস্ত শর্ত সন্তুষ্ট হলেই, একটি সিদ্ধান্তে পৌঁছে যায়। আপনি দেখতে পাচ্ছেন, প্রশিক্ষণ সেটটির জন্য এটি খুব ভালভাবে কাজ করবে কারণ আপনি অবিচ্ছিন্নভাবে ডেটা সংকুচিত করে চলেছেন। ট্রেনিং সেটে উপস্থিত উপাত্তগুলিতে গাছটি উচ্চ সুরে পরিণত হয়।

কিন্তু যখন কোনও নতুন ডেটা পয়েন্ট খাওয়ানো হয়, প্যারামিটারগুলির মধ্যে একটি সামান্য বিচ্যুত হলেও শর্তটি পূরণ করা হবে না এবং এটি ভুল শাখা গ্রহণ করবে।


1
  1. একটি জটিল সিদ্ধান্ত গাছের (যেমন গভীর) কম পক্ষপাত এবং উচ্চ বৈকল্পিকতা রয়েছে। পক্ষপাত-বৈকল্পিক ট্রেড অফ গাছের গভীরতার উপর নির্ভর করে।

  2. সিদ্ধান্ত গাছটি কোথায় বিভক্ত হয় এবং কীভাবে এটি বিভক্ত হয় সে সম্পর্কে সংবেদনশীল। অতএব, ইনপুট ভেরিয়েবল মানগুলিতে এমনকি ছোট পরিবর্তনগুলির ফলে খুব আলাদা গাছের কাঠামো তৈরি হতে পারে।


4
আমি কোনও একটি সাধারণ ট্রি অ্যালগোরিদম স্মরণ করি না যা স্কেলিং দ্বারা প্রভাবিত হয়, তারা ভেরিয়েবলের মান দেখতে পায় না, কেবলমাত্র স্থানগুলি।
ফায়ারব্যাগ

0

কেন একটি সিদ্ধান্ত গাছ কম পক্ষপাত এবং উচ্চ বৈকল্পিকতা আছে? গাছ কি অগভীর বা গভীর তার উপর নির্ভর করে? বা গাছের গভীরতা / স্তর নির্বিশেষে আমরা এটি বলতে পারি? পক্ষপাত কম এবং বৈকল্পিক কেন বেশি? স্বজ্ঞাত এবং গাণিতিকভাবে ব্যাখ্যা করুন।

বায়াস বনাম ভেরিয়েন্স

মডেল থেকে আরও বায়াস = ত্রুটি আরও সহজ হওয়া (খুব ভালভাবে ডেটা ফিট করে না)

মডেল থেকে আরও বৈচিত্র্য = ত্রুটি আরও জটিল হয়ে উঠেছে (তথ্যটি খুব ভাল ফিট করে, এবং ডেটাতে অন্তর্নিহিত নিদর্শনগুলি ছাড়াও শব্দটি শিখেছে)

সব কিছু আপেক্ষিক

আমি বলতে চাই যে সবকিছু আপেক্ষিক by সাধারণভাবে সিদ্ধান্তের গাছটিতে কম পক্ষপাত এবং উচ্চ বৈকল্পিক থাকে যা যাক যাক এলোমেলো বন। একইভাবে, অগভীর গাছের উচ্চতর পক্ষপাত এবং নিম্নতর বৈচিত্র থাকবে যা একই গাছ উচ্চতর গভীরতা সহ।

সিদ্ধান্ত গাছ এবং এলোমেলো বনগুলির বৈচিত্রের তুলনা করা

এখন এই উদ্বেগের সাথে, আসুন ভেবে দেখি কেন সিদ্ধান্ত গাছগুলি ভেরিয়েন্সের চেয়ে আরও খারাপ হবে (উচ্চতর বৈকল্পিক এবং নিম্ন পক্ষপাত) এলোমেলো বন বলতে না। সিদ্ধান্তের অ্যালগোরিদম যেভাবে কাজ করে তা হ'ল আমরা গাছের নীচে নেমে যাওয়ার সাথে সাথে ডেটাগুলি বারবার বিভক্ত হয়, সুতরাং প্রকৃত ভবিষ্যদ্বাণীগুলি কম এবং কম ডেটা পয়েন্ট দ্বারা করা হবে। এর সাথে তুলনা করে, এলোমেলো বনগুলি একাধিক গাছের সিদ্ধান্তকে একত্রিত করে এবং তাও, এলোমেলোকরণের মাধ্যমে কম-সংযুক্তিযুক্ত গাছ, অতএব মডেলটি আরও সাধারণ করে তোলে (=> বিভিন্ন ডেটাসেটে = কম বৈকল্পিক জুড়ে আরও নির্ভরযোগ্যভাবে সম্পাদন করে)। একইভাবে, আমরা কোনও একক গাছের সাথে মানিয়ে নেওয়ার জন্য কেবলমাত্র উপগ্রহের ডেটা এবং বৈশিষ্ট্যগুলির পরামর্শের জন্য এলোমেলো বনগুলিতে আরও সরলকরণ অনুমান করছি। বিটিডাব্লু, একই রকম,

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.