লিনিয়ার রিগ্রেশন-এ কি পক্ষপাত-বৈকল্পিক ট্রেড অফের গ্রাফিকাল উপস্থাপনা রয়েছে?


18

আমি ব্ল্যাকআউটে ভুগছি লিনিয়ার রিগ্রেশন প্রসঙ্গে পক্ষপাতিত্ব-বৈচিত্র্য ট্রেড অফকে প্রদর্শন করার জন্য আমাকে নীচের ছবিটি উপস্থাপন করা হয়েছিল:

ডেটা, সহজ এবং জটিল কেসের জন্য বহুপদী মডেল

আমি দেখতে পাচ্ছি যে দুটি মডেলের কোনওটিই উপযুক্ত ফিট নয় - "সিম্পল" এক্সওয়াই সম্পর্ক সম্পর্কিত জটিলতার প্রশংসা করছে না এবং "জটিল" কেবলমাত্র অত্যধিক মাননীয়, মূলত হৃদয় দিয়ে প্রশিক্ষণের ডেটা শিখছে। তবে আমি এই দুটি ছবিতে পক্ষপাত এবং ভিন্নতা দেখতে সম্পূর্ণরূপে ব্যর্থ। কেউ আমাকে এটা দেখাতে পারেন?

পিএস: পক্ষপাত-বৈকল্পিক ট্রেড অফের স্বজ্ঞাত ব্যাখ্যাটির উত্তর ? আমাকে সত্যিই সহায়তা করেনি, উপরের চিত্রের ভিত্তিতে কেউ যদি কোনও ভিন্ন দৃষ্টিভঙ্গি সরবরাহ করতে পারে তবে আমি আনন্দিত হব।

উত্তর:


11

পক্ষপাত বৈকল্পিক ট্রেড অফ গড় বর্গক্ষেত্র ত্রুটির ভাঙ্গনের উপর ভিত্তি করে:

এমএস(Y^)=[Y-Y^]2=[Y-[Y^]]2+ +[Y^-[Y^]]2

পক্ষপাতিত্ব-বৈকল্পিক বাণিজ্য দেখার একটি উপায় হ'ল মডেল ফিটের মধ্যে ডেটা সেটগুলির বৈশিষ্ট্যগুলি কী ব্যবহৃত হয়। সাধারণ মডেলের জন্য, আমরা যদি ধরে নিই যে ওলএস রিগ্রেশনটি সরলরেখায় ফিট করার জন্য ব্যবহৃত হয়েছিল, তবে কেবলমাত্র 4 টি সংখ্যা লাইনটি ফিট করতে ব্যবহৃত হবে:

  1. এক্স এবং y এর মধ্যে নমুনা সমান্তরালতা
  2. এক্স এর নমুনা বৈকল্পিক
  3. X এর নমুনা গড়
  4. Y এর নমুনা গড়

সুতরাং, উপরের একই 4 সংখ্যার দিকে পরিচালিত কোনও গ্রাফ ঠিক একই জিনিস লাগানো লাইনের দিকে নিয়ে যাবে (10 পয়েন্ট, 100 পয়েন্ট, 100000000 পয়েন্ট)। সুতরাং এক অর্থে এটি লক্ষ্য করা নির্দিষ্ট নমুনার প্রতি সংবেদনশীল। এর অর্থ এটি "পক্ষপাতদুষ্ট" হবে কারণ এটি কার্যকরভাবে ডেটার অংশটিকে উপেক্ষা করে। যদি ডেটাটির সেই উপেক্ষা অংশটি গুরুত্বপূর্ণ হয়ে পড়ে, তবে ভবিষ্যদ্বাণীগুলি ধারাবাহিকভাবে ত্রুটিতে থাকবে। আপনি যদি একটি ডেটা পয়েন্ট অপসারণ থেকে প্রাপ্ত ফিটেড লাইনের সাথে সমস্ত ডেটা ব্যবহার করে লাগানো লাইনটি তুলনা করেন তবে আপনি এটি দেখতে পাবেন। তারা বেশ স্থিতিশীল হতে হবে।

এখন দ্বিতীয় মডেলটি এটি পেতে পারে এমন প্রতিটি স্ক্র্যাপ ব্যবহার করে এবং যতটা সম্ভব ডেটা ফিট করে। অতএব, প্রতিটি ডেটা পয়েন্টের সঠিক অবস্থানটি গুরুত্বপূর্ণ, এবং তাই আপনি ওএলএসের মতো ফিটযুক্ত মডেলটি পরিবর্তন না করে প্রশিক্ষণের ডেটা স্থানান্তর করতে পারবেন না। সুতরাং মডেলটি আপনার যে বিশেষ প্রশিক্ষণের সেট রয়েছে তার প্রতি খুব সংবেদনশীল। যদি আপনি একই ড্রপ-ওয়ান ডেটা পয়েন্ট প্লট করেন তবে লাগানো মডেলটি খুব আলাদা হবে।


পক্ষপাত এবং মডেল পরামিতি অনুমান ভ্যারিয়েন্স θ বা পূর্বাভাস আউটপুট মান Y ? কিছু মানুষ যে আমাকে বলুন পদ পক্ষপাত এবং ভ্যারিয়েন্স শুধুমাত্র মডেল পরামিতি বর্ণনা করতে ব্যবহার করা যেতে পারে θ না ডেটা এক্স , Y , যে সঠিক? θ^y^θx,y
অ্যাভোকাডো

আমি মনে করি না এই সত্য না, আমার মনে হয় আপনার সম্পর্কে ভবিষ্যদ্বাণী (কথা বলা হয় Y ) বনাম প্রাক্কলন ( θ )। উভয়ের পক্ষেই পক্ষপাত এবং বৈকল্পিক ধারণা রয়েছে - উদাহরণস্বরূপ আপনার কাছে রিগ্রেশন প্যারামিটারের জন্য "BLUE" এবং ভবিষ্যতের ডেটা পয়েন্টের পূর্বাভাসের জন্য "BLUP" রয়েছে। y^θ^
সম্ভাব্যতাব্লোগিক

পরামিতি অনুমান জন্য θ , তার পক্ষপাত হয় আমি একটি গুলি ( θ ) = θ - [ θ ] কিন্তু θ অজানা আমাদের, ডান? তদ্ব্যতীত, ডেটা সেট দেওয়া, আমাদের সঠিক ধারণাটি কেমন হবে সে সম্পর্কে কোনও ধারণা নেই, উদাহরণস্বরূপ, ডেটার পিছনের আসল মডেলটি f ( x ) = a + b x + c x 2 , তবে আমরা একটি লিনিয়ার রিগ্রেশন মডেল নির্বাচন করি h ( x ) = d +θ^bias(θ^)=θE[θ^]θf(x)=a+bx+cx2 ডেটা ফিট করার জন্য, সুতরাং এখানে প্যারাডক্সটি আসে: আসল প্যারামিটারগুলি হ'ল ( , , সি ) , যে লক্ষ্যটি আমাদের অনুমান করার চেষ্টা করা উচিত তবে আমরা ( ডি , ) এর অনুমান দিয়ে শেষ করি, তারপরে b i a s ( d ) এবং b i a s ( e ) গণনা বা বিশ্লেষণ করুন? h(x)=d+ex(a,b,c)(d,e)bias(d)bias(e)
অ্যাভোকাডো

@ লোগানোকলস - এটি বৈষম্য নয় কারণ পক্ষপাতের ধারণাটি কেবল "স্থানীয়ভাবে" বিদ্যমান - যা প্রদত্ত পরিসংখ্যানের মডেলটির প্রতি সম্মানের সাথে। "প্যারাডক্স" এমন ব্যক্তির জন্য বিদ্যমান যারা: 1) "সত্যিকারের মডেল" জানে এবং 2) এটি ব্যবহার না করার সিদ্ধান্ত নেয়। সেই ব্যক্তিটি আমার বইয়ের একজন নির্বোধ। যদি আপনি "সত্যিকারের মডেল" না জানেন তবে সমস্যা নেই - যদি না আপনি একটি ভাল মডেল খুঁজে পান এবং এটি ব্যবহার না করার সিদ্ধান্ত নেন ...
সম্ভাব্যতা ব্লগ

1
f(x,z1,z2,,zK)ziK
সম্ভাব্যতাব্লোগিক

5

আমি অ-গাণিতিক পদ্ধতিতে যা জানি আমি তার সংক্ষিপ্তসার হিসাবে:

  • পক্ষপাতিত্ব - আপনি যখন সাধারণ মডেলটি ব্যবহার করেন তখন আপনার ভবিষ্যদ্বাণীটি ভুল হতে চলেছে এবং আপনি যে মডেলটি ব্যবহার করেছেন সেই কোনও ডেটাসেটে এটি ঘটবে। আপনার পূর্বাভাস ভুল বলে আশা করা হচ্ছে
  • বৈকল্পিক - যদি আপনি জটিল মডেলটি ব্যবহার করেন তবে আপনি যে কোনও ডেটাसेट ব্যবহার করছেন তার উপর ভিত্তি করে আপনি খুব আলাদা ভবিষ্যদ্বাণী পাবেন

আপনি যে পোস্ট করেছেন তার অনুরূপ ডায়াগ্রামগুলির সাথে এই পৃষ্ঠাটির বেশ ভাল ব্যাখ্যা রয়েছে। (যদিও আমি শীর্ষ অংশটি এড়িয়ে গেছি, কেবল ডায়াগ্রামের সাথে অংশটি পড়েছি) http://www.aiaccess.net/English/Glossaries/GlosMod/e_gm_bias_variance.htm (মাউসওভারটি আপনার নজরে না এলে একটি ভিন্ন নমুনা দেখায়!)


এটি একটি আকর্ষণীয় পৃষ্ঠা এবং ভাল চিত্র, তবে আমি সেগুলি আরও বিভ্রান্তিকর বলে মনে করি কারণ সহায়ক (ক) প্রতিবেদনের প্রসঙ্গে আলোচিত "পক্ষপাত" এবং "বৈকল্পিকতা" এর শুরুতে সংজ্ঞায়িত পক্ষপাত এবং বৈকল্পিক বলে মনে হয় না do পৃষ্ঠা এবং (খ) এটি মোটেও পরিষ্কার নয় যে বিবৃতি দেওয়া হচ্ছে (প্যারামিটারের সংখ্যার সাথে কীভাবে পক্ষপাত এবং বৈকল্পিক পরিবর্তন ঘটে) সম্পর্কে সঠিক।
whuber
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.