বায়াস-ভেরিয়েন্স পচে যাওয়া: প্রত্যাশিত স্কোয়ারড পূর্বাভাস ত্রুটির জন্য শব্দটি কম অমূল্য ত্রুটি


9

হস্তি এট আল। "স্ট্যাটিস্টিকাল লার্নিং এর উপাদানসমূহ" (২০০৯) একটি ডেটা উত্পাদন প্রক্রিয়া বিবেচনা করে

Y=f(X)+ε
সঙ্গে E(ε)=0 এবং Var(ε)=σε2

তারা প্রত্যাশিত স্কোয়ারড পূর্বাভাস ত্রুটির নীচে নীচের পক্ষপাত-বৈকল্পিক পচন উপস্থাপন করে x0 (পৃষ্ঠা 223, সূত্র 7.9):

Err(x0)=E([yf^(x0)]2|X=x0)==σε2+Bias2(f^(x0))+Var(f^(x0))=Irreducible error+Bias2+Variance.
আমার নিজের কাজে আমি নির্দিষ্ট করি না do f^() তবে একটি নির্বিচারে পূর্বাভাস নিন y^পরিবর্তে (যদি এটি প্রাসঙ্গিক হয়)।
প্রশ্ন: আমি একটি পদ চাইছি
পক্ষপাত2+ +অনৈক্য
বা আরও স্পষ্টভাবে,
ভ্রম করা(এক্স0)-অপ্রয়োজনীয় ত্রুটি

3
এখানে প্রশ্ন কি?
মাইকেল আর চেরনিক

1
@ সিন্টেক্স, ধারণার জন্য ধন্যবাদ। তবে এটি কোনওভাবেই ঠিক শোনাচ্ছে না। হয়তো ত্রুটি মডেলিং (মডেল misspecification এবং মডেল এর যথাযথ নয় এমন প্রাক্কলন কারণে অর্থাত ত্রুটি), কিন্তু তারপর এটা জানার জন্য না যদি কোন পূর্বাভাস উৎপাদিত মডেল (যেমন বিশেষজ্ঞ পূর্বাভাস) হয়।
রিচার্ড হার্ডি

1
@ দেলতাভ, এটি বরং ভাল। তবে আমি মনে করি এই শব্দটি চার্জ করা হয়েছে; দেখে মনে হচ্ছে পূর্বাভাসটি খারাপ না এবং আমরা আরও ভাল করতে পারি। তবে ধরুন আমরা প্রদত্ত ডেটার জন্য যথাসাধ্য চেষ্টা করেছি। সুতরাং আমরা সঠিক মডেলটি বেছে নিয়েছি (কোনও "মডেল বায়াস" নয়) তবে সহগগুলি সঠিকভাবে অনুমান করার জন্য নমুনাটি খুব ছোট। অনুমানের ভেরিয়েন্স ("মডেল ভেরিয়েন্স") প্রদত্ত নমুনা আকারের জন্য এইভাবে সত্যই অপ্রতিদ্বন্দ্বী - যখন "হ্রাসযোগ্য ত্রুটি" শব্দটি বোঝায় যে এটি তেমন নয়। আমি নিশ্চিত না যে আমরা আরও ভাল মেয়াদ নিয়ে আসতে পারি, আমি এখনও তার জন্য প্রচেষ্টা করতে চাই।
রিচার্ড হার্ডি

1
@ দেলতাভ, ঠিক আছে, আমি এখন স্বজ্ঞাততা পেয়েছি যে অর্থে এটি হ্রাসযোগ্য। তবুও শব্দটি বিভ্রান্তিকর হতে পারে যদি আরও ব্যাখ্যা না করে ব্যবহার করা হয় (ঠিক তেমনি আপনাকে আমাকে ব্যাখ্যা করতে হয়েছিল)। আপনার পরবর্তী পরামর্শটি সুনির্দিষ্ট, যা সত্যিই দুর্দান্ত, তবে যেমনটি আপনি বলেছেন, এটি যথেষ্ট সংশ্লেষিত।
রিচার্ড হার্ডি

1
@ দেলতাভ, আমার মতো শব্দ করার ইচ্ছা নেই nd এটি ব্যক্তিগত কিছুই নয়; আমার (আশাবাদী বোঝা) যুক্তিগুলি মন্তব্যে উপরে রয়েছে। তবে আমার সাথে আলোচনা করার জন্য ধন্যবাদ, এটি সাহায্য করে।
রিচার্ড হার্ডি

উত্তর:


4

আমি হ্রাস ত্রুটি প্রস্তাব । এটি গ্যারেথ, উইটেন, হাসিটি এবং তিবশিরানী, পরিসংখ্যান শিক্ষার পরিচিতির একটি অনুচ্ছেদে ২.১.১ অনুচ্ছেদে গৃহীত পরিভাষা , এটি মূলত ইএসএল + কিছু খুব শীতল আর কোড পরীক্ষাগারগুলির সরলকরণ (একটি বই যা তারা ব্যবহার করে তা বাদ দিয়ে) attach, তবে, আরে, কেউই নিখুঁত নয়)। আমি এই পরিভাষাটির উপকারিতা এবং বিপরীতে নীচে তালিকাবদ্ধ করব।


প্রথমত, আমাদের অবশ্যই মনে করতে হবে যে আমরা কেবল ধরে নিই না εগড় 0 আছে, কিন্তু হতে স্বাধীন এরএক্স(অনুচ্ছেদ 2.6.1, ইএসএল সূত্র 2,29, 2 দেখতে য় সংস্করণ, 12 তম মুদ্রণ)। তাহলে অবশ্যইε থেকে অনুমান করা যায় না এক্সযাই হোক না কেন, কোন অনুমানের শ্রেণি নেই এইচ(মডেলগুলির পরিবার) আমরা চয়ন করি এবং আমাদের অনুমান শিখতে আমরা কত বড় একটি নমুনা ব্যবহার করি (আমাদের মডেলটি অনুমান করুন)। এটি কেন ব্যাখ্যা করেσε2অদম্য ত্রুটি বলা হয়

উপমা অনুসারে ত্রুটির অবশিষ্ট অংশটি সংজ্ঞায়িত করা স্বাভাবিক বলে মনে হয়, ভ্রম করা(এক্স0)-σε2, হ্রাস ত্রুটি । এখন, এই পরিভাষাটি কিছুটা বিভ্রান্তিমূলক মনে হতে পারে: বাস্তবে, তথ্য উত্পন্নকরণের প্রক্রিয়াটির জন্য আমরা যে ধারণা নিয়েছিলাম তার অধীনে আমরা প্রমাণ করতে পারি

(এক্স)=[ওয়াই|এক্স=এক্স]

সুতরাং, হ্রাসযোগ্য ত্রুটি শূন্যে হ্রাস করা যেতে পারে যদি এবং কেবল তবেই [ওয়াই|এক্স=এক্স]এইচ(অনুমান করে অবশ্যই আমাদের একটি ধারাবাহিক অনুমানকারী আছে)। যদি[ওয়াই|এক্স=এক্স]এইচ, আমরা হ্রাসযোগ্য ত্রুটি 0 তে চালাতে পারি না, এমনকি অসীম নমুনার আকারের সীমাতেও। যাইহোক, এটি এখনও আমাদের ত্রুটির একমাত্র অংশ যা হ্রাস করা যায়, যদি তা সরিয়ে না দেওয়া হয়, নমুনার আকার পরিবর্তন করে, আমাদের প্রাক্কলনকারীকে নিয়মিতকরণ (সঙ্কুচিত করা) ইত্যাদি প্রবর্তন করে, অন্য কথায়, অন্যটি বেছে নিয়ে^(এক্স) আমাদের মডেল পরিবারে।

মূলত, রূপান্তরযোগ্য অর্থে না বোঝানো হয় zeroable (ইশ!), কিন্তু ত্রুটি ঘটেছে, যা কমে যাবে সেই অংশে অর্থে, এমনকি যদি না অগত্যা ইচ্ছামত ছোট করেছেন। এছাড়াও মনে রাখবেন যে নীতিগতভাবে এই ত্রুটিটি বাড়িয়ে 0 এ কমিয়ে আনা যায়এইচ এটি অন্তর্ভুক্ত না হওয়া পর্যন্ত [ওয়াই|এক্স=এক্স]। বিপরীতে,σε2 হ্রাস করা যায় না, যত বড় হোক না কেন এইচ কারণ εএক্স


গোলমাল যদি অদম্য ত্রুটি হয় তবে তা অদম্য নয়। আপনার এটিকে কোনওরকম প্রেরণা দেওয়া দরকার, আমি নিজের পক্ষে এটি করতে পারি না।
কার্ল

২.১.১-এর উদাহরণটি হল "রক্তে কিছু ওষুধের পার্স"। আমি নীচে প্রথম উদাহরণটি দিচ্ছি ঠিক এটি। সেই খাতায়, পরিমাপের তথাকথিত অপ্রতিরোধ্য ত্রুটি এই ধরণের কিছুই নয়। এটি গণনা শোনার সমন্বয়ে গঠিত যা সাধারণত 10000 বা তার বেশি ইভেন্ট গণনা, পাইপটিং ত্রুটি, যা প্রায় তাত্ক্ষণিকভাবে বিতরণ করা হয় এবং অন্যান্য প্রযুক্তিগত ত্রুটিগুলি দ্বারা কমে যায়। এই "অপ্রতিয়োগযোগ্য" ত্রুটিগুলি আরও কমাতে, আমি প্রতিবারের নমুনার জন্য তিনটি গণনা টিউবগুলির মাঝারিটি ব্যবহার করার পরামর্শ দিই। অপরিবর্তনীয় শব্দটি খারাপ জার্গন, আবার চেষ্টা করুন।
কার্ল

1
@Delta, thank you for the answer. A one liner "reducible error" might not have been very convincing, but given the context and the discussion it looks pretty good!
Richard Hardy

আমি মনে করি না যে জারগন বিকাশের উদ্দেশ্য মানুষকে বিভ্রান্ত করা। আপনি যদি ত্রুটি স্বাধীন বলতে চানএন, ত্রুটি বনাম যা এর ফাংশন এন, বলো তুমি কি বলতে চাইছো.
কার্ল

@ ডেলটাভি আমি বিশ্বাস করি যে হ্রাস হ্রাস একটি সন্দেহজনক ধারণা, নীচে দেখুন।
কার্ল

0

যে সিস্টেমে সমস্ত শারীরিক ঘটনাকে যথাযথভাবে মডেল করা হয়েছে, বামদিকে শব্দ হবে। যাইহোক, কেবলমাত্র গোলমাল করার চেয়ে কোনও মডেলের ডেটার ত্রুটিতে সাধারণত আরও কাঠামো থাকে। উদাহরণস্বরূপ, একাই মডেলিং পক্ষপাত এবং শোরগোলটি কার্ভিলাইনার অবশিষ্টাংশগুলি বোঝায় না, অর্থহীন ডেটা স্ট্রাকচার। অব্যক্ত ভগ্নাংশের মোটতা1-আর2, যা পদার্থবিজ্ঞানের ভুল উপস্থাপনা পাশাপাশি পক্ষপাত এবং পরিচিত কাঠামোর শব্দ নিয়ে গঠিত হতে পারে। পক্ষপাতিত্বের দ্বারা যদি আমরা গড় গড় অনুমান শুধুমাত্র ত্রুটি বোঝায়Y, "অপরিশোধনযোগ্য ত্রুটি" দ্বারা আমরা শব্দটি বোঝাই, এবং বৈকল্পিকতার দ্বারা আমরা মডেলটির সিস্টেমিক শারীরিক ত্রুটি বুঝি, তারপরে পক্ষপাত (বর্গক্ষেত্র) এবং পদ্ধতিগত শারীরিক ত্রুটির যোগফল কোনও বিশেষ কিছু নয়, এটি কেবল ত্রুটি যা গোলমাল নয় is । (বর্গক্ষেত্র) নিবন্ধন শব্দটি একটি নির্দিষ্ট প্রসঙ্গে এর জন্য ব্যবহৃত হতে পারে, নীচে দেখুন। আপনি যদি ত্রুটি স্বাধীন বলতে চানএন, বনাম ত্রুটি যা একটি ফাংশন এন, ওটা বল. আইএমএইচও, ত্রুটিও দুটোই অপ্রতিরোধ্য নয়, যাতে অযোগ্যতার সম্পত্তি এত বেশি বিভ্রান্ত হয় যে এটি আলোকিত হওয়ার চেয়ে আরও বিভ্রান্ত করে।

কেন আমি "হ্রাস" শব্দটি পছন্দ করি না? এটি হ্রাসের অক্ষ হিসাবে যেমন একটি স্ব-রেফারেনশিয়াল টাউটোলজি স্মোক করে । আমি রাসেল ১৯১৯ এর সাথে একমত হয়েছি যে "হ্রাসের অক্ষটি যুক্তিযুক্তভাবে প্রয়োজনীয় বলে বিশ্বাস করার কোনও কারণ আমি দেখতে পাচ্ছি না, যা এই বলে সম্ভব হবে যে এটি সমস্ত সম্ভাব্য বিশ্বে সত্য। যুক্তি তাই ত্রুটি ... একটি সন্দেহজনক ধারণা। "

অসম্পূর্ণ শারীরিক মডেলিংয়ের কারণে নীচে কাঠামোগত অবশিষ্টাংশগুলির উদাহরণ। এটি একটি ছোট আকারের গামা বিতরণ, অর্থাৎ একটি গামা ভেরিয়েট (জিভি), রেনাল গ্লোমেরুলার ফিল্টারযুক্ত রেডিওফর্মাসিউটিকাল [ 1 ] এর তেজস্ক্রিয়তার রক্তের প্লাজমা নমুনার সাথে সম্পর্কিত সর্বনিম্ন স্কোয়ারের অবশিষ্টাংশকে উপস্থাপন করে । নোট করুন যে আরও ডেটা বাতিল করা হয় (এন=36 প্রতিটি সময়-নমুনার জন্য), মডেলটি আরও ভাল হয়ে যায় যাতে হ্রাসযোগ্যতা আরও নমুনা ব্যাপ্তির সাথে হ্রাস পায়।

এখানে চিত্র বর্ণনা লিখুন

এটি উল্লেখযোগ্য, যে কেউ পাঁচ মিনিটে প্রথম নমুনাটি ড্রপ করে, পদার্থবিজ্ঞানের উন্নতি ঘটে যেমন এটি ক্রমানুসারে হয় যেমন কেউ প্রথম দিকে নমুনাগুলি 60 মিনিটে ছাড়তে থাকে। এটি দেখায় যে জিভি শেষ পর্যন্ত ওষুধের প্লাজমা ঘনত্বের জন্য একটি ভাল মডেল গঠন করে তবে প্রাথমিক সময়ে অন্য কিছু চলছে।

প্রকৃতপক্ষে, যদি কেউ দুটি গামা বিতরণকে কনলভ করে, একটি প্রাথমিক সময়ের জন্য, ড্রাগের সংবহন সরবরাহ এবং একটি অঙ্গ ছাড়পত্রের জন্য, এই ধরণের ত্রুটি, শারীরিক মডেলিংয়ের ত্রুটি, এর চেয়ে কম কমানো যেতে পারে 1%[ 2 ]। এরপরে সেই প্রত্যয়টির উদাহরণ illust

এখানে চিত্র বর্ণনা লিখুন

পরবর্তী উত্তরটি থেকে, সময় গ্রাফ বনাম গণনাগুলির বর্গমূলের জন্য the Y-এক্সিস বিচ্যুতিগুলি পয়েসন শব্দ ত্রুটির অর্থে মানকৃত বিচ্যুতি। এই জাতীয় গ্রাফ এমন একটি চিত্র যার জন্য ফিটের ত্রুটিগুলি বিকৃতি বা ওয়ার্পিং থেকে চিত্রের নিবন্ধভুক্তি। সেই প্রসঙ্গে এবং কেবলমাত্র সেই প্রসঙ্গে, নিবন্ধভুক্তি পক্ষপাতাস্ত্র মডেলিং ত্রুটি এবং মোট ত্রুটিটি নিবন্ধভুক্তি এবং শোর ত্রুটি।


প্রকৃতপক্ষে, এটি উপরের পচন সম্পর্কে। তবে আপনার উত্তরটি একটি মন্তব্য হিসাবে আরও কার্যকর হবে কারণ এটি আসল প্রশ্নের সমাধান করে না। নাকি তা করে?
রিচার্ড হার্ডি

ধন্যবাদ, তবে উত্তরটি বিষয়টি থেকে আরও দূরে সরে গেছে। প্রকৃত প্রশ্নের (আমি কীভাবে কল করব) এর মধ্যে কোনও সংযোগ খুঁজে পেতে আমার বেশ কষ্ট হয়েছেপক্ষপাত2+ +অনৈক্য) এবং এই সব ...
রিচার্ড হার্ডি

আবারও, আপনি একটি পৃথক প্রশ্নের উত্তর দিচ্ছেন। একটি ভুল প্রশ্নের সঠিক উত্তর হ'ল দুর্ভাগ্যক্রমে একটি ভুল উত্তর (নিজের কাছে একটি নোট: কাকতালীয়ভাবে, আমি এটি গতকাল আমার স্নাতক শিক্ষার্থীদের জন্য ব্যাখ্যা করছিলাম)। আমি এই অভিব্যক্তিটি কতটা অর্থপূর্ণ তা জিজ্ঞাসা করছি না (ইএসএল পাঠ্যপুস্তকটি পড়ে এবং / বা প্রয়োগকৃত মেশিন লার্নিংয়ে কাজ করেছেন এমন ব্যক্তির পক্ষে এটি অর্থবহ), আমি এর জন্য একটি উপযুক্ত শব্দ চাইছি। প্রশ্নটি ইতিবাচক, আদর্শিক নয়। এবং এটি বেশ সহজ এবং খুব কংক্রিট।
রিচার্ড হার্ডি

@ রিচার্ড হার্ডি পদার্থবিজ্ঞান ছাড়া প্রশ্নটি বুঝতে আমার পক্ষে সমস্যা ছিল। আমার উত্তর পরিবর্তন হয়েছে, উপরে নিবন্ধভুক্তি দেখুন।
কার্ল

1
প্রক্রিয়াটি অনুমান করার জন্য আপনি এটি করতে পারেন, হ্যাঁ এবং এটি হ্রাসযোগ্য ত্রুটির অংশ। তবে যখন আপনি কোনও কংক্রিট ইভেন্টের পূর্বাভাস দেন যার মধ্যে মুদ্রা ফ্লিপ অন্তর্ভুক্ত থাকে, মুদ্রার ফ্লিপের ফলাফলটি ভুল ধারণা করার সাথে যুক্ত ত্রুটিটি হ্রাস করার কোনও উপায় নেই। অদম্য ত্রুটিটি এটি সম্পর্কে। আকর্ষণীয়: বিশুদ্ধরূপে নির্বিচারবাদী বিশ্বে সংজ্ঞা অনুসারে কোনও অকাট্য ত্রুটি থাকবে না, সুতরাং যদি আপনার বিশ্বের দৃষ্টিভঙ্গি পুরোপুরি নির্দ্বিধায় থাকে তবে আমি বুঝতে পারি আপনি কী বোঝাতে চেয়েছেন। যাইহোক, বিশ্ব "পরিসংখ্যান শিক্ষার উপাদানসমূহ" এবং সাধারণভাবে পরিসংখ্যানগুলিতে স্টোকাস্টিক st
রিচার্ড হার্ডি
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.