প্রশ্নাবলি
- গাছ কি অগভীর বা গভীর তার উপর নির্ভর করে? বা গাছের গভীরতা / স্তর নির্বিশেষে আমরা এটি বলতে পারি?
- পক্ষপাত কম এবং বৈকল্পিক কেন বেশি? স্বজ্ঞাত এবং গাণিতিকভাবে ব্যাখ্যা করুন
প্রশ্নাবলি
উত্তর:
পার্টিতে কিছুটা দেরি হলেও আমি অনুভব করি যে এই প্রশ্নটি উত্তরটি কার্যকরভাবে উদাহরণ সহ ব্যবহার করতে পারে।
আমি এই চমৎকার নিবন্ধটির সংক্ষিপ্ত বিবরণ লিখব : পক্ষপাতিত্ব-বৈচিত্র্য-বাণিজ্য-বন্ধ , যা আমাকে বিষয়টি বুঝতে সহায়তা করেছে।
যে কোনও মেশিন লার্নিং অ্যালগরিদমের জন্য ভবিষ্যদ্বাণী ত্রুটিটি তিন ভাগে বিভক্ত হতে পারে:
অপ্রয়োজনীয় ত্রুটি
নামটি থেকে বোঝা যায়, একটি ত্রুটিযুক্ত উপাদান যা আমরা অ্যালগরিদম এবং এর পরামিতি নির্বাচন নির্বিশেষে সংশোধন করতে পারি না। সরলীকরণযোগ্য ত্রুটি জটিলতার যা কেবল করছে কারণে না প্রশিক্ষণ সেটে দখল করে। এটি এমন বৈশিষ্ট্য হতে পারে যা আমাদের শেখার সেটে নেই তবে তারা ম্যাপিংকে ফলাফলের দিকে প্রভাবিত করে না।
বায়াস ত্রুটি
বায়াস ত্রুটি লক্ষ্য ফাংশন সম্পর্কে আমাদের অনুমানের কারণে। টার্গেট ফাংশন সম্পর্কে আমরা যত বেশি অনুমান (সীমাবদ্ধতা) করি, তত বেশি পক্ষপাতিত্ব আমরা প্রবর্তন করি। উচ্চ পক্ষপাত সহ মডেলগুলি কম নমনীয় কারণ আমরা লক্ষ্যযুক্ত কার্যগুলিতে আরও নিয়ম আরোপ করেছি।
বৈকল্পিক ত্রুটি
ভেরিয়েন্স ত্রুটি হ'ল বিভিন্ন প্রশিক্ষণ সেটের ক্ষেত্রে লক্ষ্য ফাংশনের ফর্মের পরিবর্তনশীলতা। আপনি যদি প্রশিক্ষণ সংস্থায় কয়েকটি নমুনা প্রতিস্থাপন করেন তবে ছোট ভেরিয়েন্স ত্রুটির সাথে মডেলগুলি খুব বেশি পরিবর্তন ঘটবে না। উচ্চতর বৈকল্পিকতাযুক্ত মডেলগুলি এমনকি প্রশিক্ষণ সংস্থার ছোট্ট পরিবর্তনগুলি দ্বারা প্রভাবিত হতে পারে।
সাধারণ লিনিয়ার রিগ্রেশন বিবেচনা করুন:
Y=b0+b1x
স্পষ্টতই, এটি একটি লক্ষ্য ফাংশনের মোটামুটি সীমাবদ্ধ সংজ্ঞা এবং অতএব এই মডেলের একটি উচ্চ পক্ষপাত রয়েছে।
অন্যদিকে, যদি আপনি বেশ কয়েকটি ডেটা নমুনা পরিবর্তন করেন তবে কম বৈকল্পিকতার কারণে, এটি লক্ষ্য ফাংশনটি সম্পাদন করে সামগ্রিক ম্যাপিংয়ে বড় পরিবর্তন আনার সম্ভাবনা কম। অন্যদিকে, কে-নিকটতম-প্রতিবেশীদের মতো অ্যালগরিদমগুলিতে উচ্চ বৈকল্পিকতা এবং কম পক্ষপাত থাকে। কেএনএন সিদ্ধান্তের পৃষ্ঠকে বিভিন্ন নমুনা কীভাবে প্রভাবিত করতে পারে তা কল্পনা করা সহজ।
সাধারণত, প্যারামেট্রিক অ্যালগরিদমে একটি উচ্চ পক্ষপাত এবং কম বৈকল্পিক থাকে এবং তদ্বিপরীত।
মেশিন লার্নিংয়ের অন্যতম চ্যালেঞ্জ পক্ষপাত ত্রুটি এবং বৈকল্পিক ত্রুটির সঠিক ভারসাম্য খুঁজে পাওয়া।
সিদ্ধান্ত গাছ
এখন যেহেতু আমাদের এই সংজ্ঞাগুলি স্থানে রয়েছে, এটি সিদ্ধান্তের গাছগুলি কম পক্ষপাত এবং উচ্চ বৈকল্পিক সহ মডেলের উদাহরণ see গাছ লক্ষ্য ফাংশন সম্পর্কে প্রায় কোনও অনুমান করে না তবে এটি ডেটাতে ভিন্নতার পক্ষে অত্যন্ত সংবেদনশীল।
বুটস্ট্র্যাপিং এগ্রিগ্রেশন এবং এলোমেলো বন হিসাবে ন্যূনতম অ্যালগরিদম রয়েছে, যা সিদ্ধান্ত গাছের পক্ষপাতিত্বের স্বল্প ব্যয়ে প্রকরণটি হ্রাস করার লক্ষ্যে রয়েছে।
যদি স্তরের সংখ্যা খুব বেশি থাকে যেমন একটি জটিল সিদ্ধান্তের গাছ, মডেলটি বেশি মানায়।
স্বজ্ঞাতভাবে, এটি এইভাবে বোঝা যায়। যখন ফলাফলটি পৌঁছানোর আগে অনেকগুলি সিদ্ধান্ত নোডগুলি পাতায় যেতে হয় অর্থাৎ পাতাগুলিতে পৌঁছানোর আগে নোডের ট্র্যাভার্সের সংখ্যা বেশি হয়, আপনি যে শর্তগুলির বিরুদ্ধে যাচাই করে থাকেন সেগুলি গুণক হয়ে যায়। তা হল, গণনাটি (শর্ত 1) এবং& ((শর্ত 2) && (শর্ত 3) && (শর্ত 4) ও& (শর্ত 5) হয়ে যায় ।
সমস্ত শর্ত সন্তুষ্ট হলেই, একটি সিদ্ধান্তে পৌঁছে যায়। আপনি দেখতে পাচ্ছেন, প্রশিক্ষণ সেটটির জন্য এটি খুব ভালভাবে কাজ করবে কারণ আপনি অবিচ্ছিন্নভাবে ডেটা সংকুচিত করে চলেছেন। ট্রেনিং সেটে উপস্থিত উপাত্তগুলিতে গাছটি উচ্চ সুরে পরিণত হয়।
কিন্তু যখন কোনও নতুন ডেটা পয়েন্ট খাওয়ানো হয়, প্যারামিটারগুলির মধ্যে একটি সামান্য বিচ্যুত হলেও শর্তটি পূরণ করা হবে না এবং এটি ভুল শাখা গ্রহণ করবে।
একটি জটিল সিদ্ধান্ত গাছের (যেমন গভীর) কম পক্ষপাত এবং উচ্চ বৈকল্পিকতা রয়েছে। পক্ষপাত-বৈকল্পিক ট্রেড অফ গাছের গভীরতার উপর নির্ভর করে।
সিদ্ধান্ত গাছটি কোথায় বিভক্ত হয় এবং কীভাবে এটি বিভক্ত হয় সে সম্পর্কে সংবেদনশীল। অতএব, ইনপুট ভেরিয়েবল মানগুলিতে এমনকি ছোট পরিবর্তনগুলির ফলে খুব আলাদা গাছের কাঠামো তৈরি হতে পারে।
কেন একটি সিদ্ধান্ত গাছ কম পক্ষপাত এবং উচ্চ বৈকল্পিকতা আছে? গাছ কি অগভীর বা গভীর তার উপর নির্ভর করে? বা গাছের গভীরতা / স্তর নির্বিশেষে আমরা এটি বলতে পারি? পক্ষপাত কম এবং বৈকল্পিক কেন বেশি? স্বজ্ঞাত এবং গাণিতিকভাবে ব্যাখ্যা করুন।
বায়াস বনাম ভেরিয়েন্স
মডেল থেকে আরও বায়াস = ত্রুটি আরও সহজ হওয়া (খুব ভালভাবে ডেটা ফিট করে না)
মডেল থেকে আরও বৈচিত্র্য = ত্রুটি আরও জটিল হয়ে উঠেছে (তথ্যটি খুব ভাল ফিট করে, এবং ডেটাতে অন্তর্নিহিত নিদর্শনগুলি ছাড়াও শব্দটি শিখেছে)
সব কিছু আপেক্ষিক
আমি বলতে চাই যে সবকিছু আপেক্ষিক by সাধারণভাবে সিদ্ধান্তের গাছটিতে কম পক্ষপাত এবং উচ্চ বৈকল্পিক থাকে যা যাক যাক এলোমেলো বন। একইভাবে, অগভীর গাছের উচ্চতর পক্ষপাত এবং নিম্নতর বৈচিত্র থাকবে যা একই গাছ উচ্চতর গভীরতা সহ।
সিদ্ধান্ত গাছ এবং এলোমেলো বনগুলির বৈচিত্রের তুলনা করা
এখন এই উদ্বেগের সাথে, আসুন ভেবে দেখি কেন সিদ্ধান্ত গাছগুলি ভেরিয়েন্সের চেয়ে আরও খারাপ হবে (উচ্চতর বৈকল্পিক এবং নিম্ন পক্ষপাত) এলোমেলো বন বলতে না। সিদ্ধান্তের অ্যালগোরিদম যেভাবে কাজ করে তা হ'ল আমরা গাছের নীচে নেমে যাওয়ার সাথে সাথে ডেটাগুলি বারবার বিভক্ত হয়, সুতরাং প্রকৃত ভবিষ্যদ্বাণীগুলি কম এবং কম ডেটা পয়েন্ট দ্বারা করা হবে। এর সাথে তুলনা করে, এলোমেলো বনগুলি একাধিক গাছের সিদ্ধান্তকে একত্রিত করে এবং তাও, এলোমেলোকরণের মাধ্যমে কম-সংযুক্তিযুক্ত গাছ, অতএব মডেলটি আরও সাধারণ করে তোলে (=> বিভিন্ন ডেটাসেটে = কম বৈকল্পিক জুড়ে আরও নির্ভরযোগ্যভাবে সম্পাদন করে)। একইভাবে, আমরা কোনও একক গাছের সাথে মানিয়ে নেওয়ার জন্য কেবলমাত্র উপগ্রহের ডেটা এবং বৈশিষ্ট্যগুলির পরামর্শের জন্য এলোমেলো বনগুলিতে আরও সরলকরণ অনুমান করছি। বিটিডাব্লু, একই রকম,