গাছের অনুমানকারীরা কি সবসময় পক্ষপাতদুষ্ট?


9

আমি সিদ্ধান্তের গাছগুলিতে একটি হোমওয়ার্ক করছি, এবং আমার একটি প্রশ্নের উত্তর দিতে হবে যেগুলির মধ্যে একটি হল "গাছের ভিত্তিতে অনুমানকারী কেন নির্মিত হয়, এবং ব্যাগিং কীভাবে তাদের বৈকল্পিকতা হ্রাস করতে সহায়তা করে?"

এখন, আমি জানি যে ওভারফিটেড মডেলগুলির সত্যিকার অর্থেই কম পক্ষপাত হয়, কারণ তারা সমস্ত ডেটা পয়েন্ট ফিট করার চেষ্টা করে। এবং, পাইথনে আমার একটি স্ক্রিপ্ট ছিল যা কিছু ডেটাসেটের সাথে একটি গাছ লাগিয়েছিল (একক বৈশিষ্ট্যযুক্ত। এটি কেবল একটি সাইনোসয়েড ছিল, কিছু নীচের ছবি সহ নীচের ছবি)। সুতরাং, আমি ভাবলাম "ভাল, আমি যদি তথ্যগুলি পুনরায় উপস্থাপন করি তবে আমি কি পক্ষপাতটি শূন্যে পেতে পারি?" এবং, এটি প্রমাণিত হয়েছিল যে, এমনকি 10000 গভীরতার সাথে, এখনও কিছু পয়েন্ট রয়েছে যার মাধ্যমে বক্ররেখা পাস হয় না।

এখানে চিত্র বর্ণনা লিখুন

আমি কেন এটির জন্য অনুসন্ধান করার চেষ্টা করেছি, কিন্তু আমি সত্যই কোনও ব্যাখ্যা খুঁজে পাইনি। আমি অনুমান করছি যে এখানে এমন কিছু গাছ থাকতে পারে যা পুরোপুরি পয়েন্ট দিয়ে যায় এবং আমি যেগুলি পেয়েছি তা কেবল "দুর্ভাগ্য"। অথবা এটি হতে পারে যে কোনও অন্য ডেটাসেট আমাকে পক্ষপাতহীন ফলাফল দিতে পারে (সম্ভবত একটি নিখুঁত সাইনোসয়েড?)। বা এমনকি, সম্ভবত শুরুতে করা কাটগুলি আরও কাটগুলির পক্ষে সমস্ত পয়েন্ট পুরোপুরি আলাদা করা অসম্ভব করে দিয়েছে।

সুতরাং, এই ডেটাসেটটি বিবেচনা করে (যেহেতু এটি অন্যদের পক্ষে পৃথক হতে পারে), আমার প্রশ্ন: কোনও গাছকে এমন পর্যায়ে নিয়ে যাওয়া সম্ভব যেখানে পক্ষপাতটি শূন্যে চলে যায়, বা সেখানে সবসময় কিছুটা পক্ষপাত হতে পারে, এমনকি যদি সত্যিই হয় তবে ছোট? এবং যদি সর্বদা কিছুটা পক্ষপাত থাকে তবে কেন তা ঘটে?

PS আমি যদি এটা প্রাসঙ্গিক হতে পারে জানি না, কিন্তু আমি ব্যবহার DecisionTreeRegressorথেকে sklearnতথ্য মডেল মাপসই।


3
আমাদের সাইটে আপনাকে স্বাগতম! মনে রাখবেন যে আপনার প্রশ্নে "অগ্রিম ধন্যবাদ" যুক্ত করার দরকার নেই, আপনার ধন্যবাদ প্রকাশ করার জন্য সর্বোত্তম হ'ল আপনি কিছু উত্তর না পাওয়া পর্যন্ত অপেক্ষা করা এবং (যে সবুজ রঙের টিক) যাকে আপনাকে সবচেয়ে বেশি সহায়তা করেছেন তা গ্রহণ করুন! আপনি যদি এখনও এটি না করে থাকেন তবে এই সাইটটি কীভাবে কাজ করে তা দেখার জন্য কেন আমাদের সফরটি একবার দেখুন?
সিলভারফিশ

3
Y = 0 ফাংশনটি বিবেচনা করুন এবং আপনি y = f (x) ফিট করার চেষ্টা করছেন, যেখানে এক্স কিছু এলোমেলো মান গ্রহণ করে। এই সিদ্ধান্তের কোণার ক্ষেত্রে কী সিদ্ধান্তের অনুমানকারী পক্ষপাতদুষ্ট হয়?
jbowman

উত্তর:


10

সিদ্ধান্তের মডেলটি অন্য কোনও শেখার মডেলের চেয়ে সর্বদা পক্ষপাত নয়।

উদাহরণস্বরূপ, আসুন দুটি উদাহরণ দেখুন। দিনX একটি এলোমেলো ইউনিফর্ম চলক হতে হবে [0,1]। এখানে সম্ভব পরিসংখ্যান প্রক্রিয়া

সত্য 1: Y প্রদত্ত X এক্স এর একটি সূচক ফাংশন, আরও শব্দ:

YXI<.5(X)+N(0,1)

সত্য 2: ওয়াই প্রদত্ত এক্স এর লিনিয়ার ফাংশন এক্স, আরও শব্দ:

ওয়াই|এক্স~এক্স+ +এন(0,1)

যদি আমরা উভয় পরিস্থিতিতেই সিদ্ধান্তের গাছকে ফিট করি তবে মডেলটি প্রথম পরিস্থিতিতে নিরপেক্ষ, তবে দ্বিতীয় ক্ষেত্রে পক্ষপাতদুষ্ট। এটি কারণ একটি বিভক্ত বাইনারি ট্রি প্রথম পরিস্থিতিতে সত্যিকারের অন্তর্নিহিত ডেটা মডেলটি পুনরুদ্ধার করতে পারে। দ্বিতীয়টিতে, সেরা গাছটি সূক্ষ্ম বিরতিতে ধাপে ধাপে প্রায় লিনিয়ার ফাংশনটি করতে পারে - সীমাবদ্ধ গভীরতার একটি গাছ কেবল এত কাছাকাছি যেতে পারে।

আমরা যদি উভয় পরিস্থিতিতে রৈখিক রিগ্রেশনের মাপসই, মডেল হয় প্রথম অবস্থায় পক্ষপাতমূলক, কিন্তু অ-পক্ষপাতমূলক দ্বিতীয় হয়।

সুতরাং, কোনও মডেল পক্ষপাতদুষ্ট কিনা তা জানতে, আপনাকে জানতে হবে সত্যিকারের অন্তর্নিহিত ডেটা মেকানিজমটি কী। বাস্তব জীবনের পরিস্থিতিতে, আপনি কেবল এটি কখনই জানেন না, তাই আপনি সত্যিকারের জীবনে কোনও মডেল পক্ষপাতদুষ্ট কিনা তা কখনই বলতে পারবেন না। কখনও কখনও, আমরা মনে করি আমরা দীর্ঘ সময়ের জন্য পুরোপুরি সঠিক, তবে তারপরে পক্ষপাত গভীরভাবে বোঝার সাথে উদ্ভূত হয় (নিউটোনীয় গ্র্যাভিটি থেকে আইনস্টাইন গ্রেভিটি অন্তত একটি অ্যাপোক্রিফল উদাহরণ)।

এক অর্থে, আমরা আশা করি বেশিরভাগ আসল বিশ্ব প্রক্রিয়াগুলি (কিছু ব্যতিক্রম সহ) এত অজান্তেই হবে, যা সত্যের একটি যুক্তিসঙ্গত পর্যাপ্ত পরিমাণে হ'ল আমাদের সমস্ত মডেল পক্ষপাতদুষ্ট। আমি কিছু সন্দেহ করি যে প্রশ্নটি জটিল পরিসংখ্যান প্রক্রিয়া মডেলিংয়ের প্রয়োজনীয় নিষ্ক্রিয়তা সম্পর্কে গভীর দার্শনিক আলোচনার জন্য জিজ্ঞাসা করছে, তবে এটি সম্পর্কে ভাবতে মজা লাগে।


0

আপনার ডেটাতে কিছু পয়েন্ট এখনও পূর্বাভাস দেওয়া হচ্ছে না তা অপ্রয়োজনীয় ত্রুটি বলে এমন কিছু কারণে হতে পারে। তত্ত্বটি হ'ল মেশিন লার্নিংয়ে হ্রাসযোগ্য, এবং অপ্রতুল্য ত্রুটি রয়েছে। অপ্রত্যাশিত ত্রুটির ধারণাটি আপনার মডেলটি যত ভালই হোক না কেন, এটি কখনও নিখুঁত হবে না। এটি কয়েকটি কারণে। এক, আপনার প্রশিক্ষণের বৈশিষ্ট্যগুলি কতটা শক্তিশালী হোক না কেন, আপনার প্রশিক্ষণ ডেটা অন্তর্ভুক্ত না করে আউটপুটকে প্রভাবিত করে এমন কিছু গোপন বৈশিষ্ট্য সবসময় থাকবে। আর একটি কারণ হ'ল প্রায় সমস্ত ডেটাতে কিছু বিদেশী হতে বাধ্য। আপনার মডেলগুলি যত দ্রুত সম্ভব আউটলিয়ারদের কাছে দৃ rob় হিসাবে গড়ে তোলার চেষ্টা করতে পারেন, তবে আপনি যতই চেষ্টা করুন না কেন, বিদেশিরা সর্বদা উপস্থিত থাকবে will (এর অর্থ এই নয় যে আপনার মডেলগুলি তৈরি করার সময় আপনার বিদেশী সম্পর্কে চিন্তা করা উচিত নয়)। এবং একটি চূড়ান্ত বিবরণ হ'ল আপনি '

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.