হস্তি এট আল। "স্ট্যাটিস্টিকাল লার্নিং এর উপাদানসমূহ" (২০০৯) একটি ডেটা উত্পাদন প্রক্রিয়া বিবেচনা করে
তারা প্রত্যাশিত স্কোয়ারড পূর্বাভাস ত্রুটির নীচে নীচের পক্ষপাত-বৈকল্পিক পচন উপস্থাপন করে (পৃষ্ঠা 223, সূত্র 7.9):
প্রশ্ন: আমি একটি পদ চাইছি
হস্তি এট আল। "স্ট্যাটিস্টিকাল লার্নিং এর উপাদানসমূহ" (২০০৯) একটি ডেটা উত্পাদন প্রক্রিয়া বিবেচনা করে
তারা প্রত্যাশিত স্কোয়ারড পূর্বাভাস ত্রুটির নীচে নীচের পক্ষপাত-বৈকল্পিক পচন উপস্থাপন করে (পৃষ্ঠা 223, সূত্র 7.9):
উত্তর:
আমি হ্রাস ত্রুটি প্রস্তাব । এটি গ্যারেথ, উইটেন, হাসিটি এবং তিবশিরানী, পরিসংখ্যান শিক্ষার পরিচিতির একটি অনুচ্ছেদে ২.১.১ অনুচ্ছেদে গৃহীত পরিভাষা , এটি মূলত ইএসএল + কিছু খুব শীতল আর কোড পরীক্ষাগারগুলির সরলকরণ (একটি বই যা তারা ব্যবহার করে তা বাদ দিয়ে) attach, তবে, আরে, কেউই নিখুঁত নয়)। আমি এই পরিভাষাটির উপকারিতা এবং বিপরীতে নীচে তালিকাবদ্ধ করব।
প্রথমত, আমাদের অবশ্যই মনে করতে হবে যে আমরা কেবল ধরে নিই না গড় 0 আছে, কিন্তু হতে স্বাধীন এর(অনুচ্ছেদ 2.6.1, ইএসএল সূত্র 2,29, 2 দেখতে য় সংস্করণ, 12 তম মুদ্রণ)। তাহলে অবশ্যই থেকে অনুমান করা যায় না যাই হোক না কেন, কোন অনুমানের শ্রেণি নেই (মডেলগুলির পরিবার) আমরা চয়ন করি এবং আমাদের অনুমান শিখতে আমরা কত বড় একটি নমুনা ব্যবহার করি (আমাদের মডেলটি অনুমান করুন)। এটি কেন ব্যাখ্যা করেঅদম্য ত্রুটি বলা হয় ।
উপমা অনুসারে ত্রুটির অবশিষ্ট অংশটি সংজ্ঞায়িত করা স্বাভাবিক বলে মনে হয়, , হ্রাস ত্রুটি । এখন, এই পরিভাষাটি কিছুটা বিভ্রান্তিমূলক মনে হতে পারে: বাস্তবে, তথ্য উত্পন্নকরণের প্রক্রিয়াটির জন্য আমরা যে ধারণা নিয়েছিলাম তার অধীনে আমরা প্রমাণ করতে পারি
সুতরাং, হ্রাসযোগ্য ত্রুটি শূন্যে হ্রাস করা যেতে পারে যদি এবং কেবল তবেই (অনুমান করে অবশ্যই আমাদের একটি ধারাবাহিক অনুমানকারী আছে)। যদি, আমরা হ্রাসযোগ্য ত্রুটি 0 তে চালাতে পারি না, এমনকি অসীম নমুনার আকারের সীমাতেও। যাইহোক, এটি এখনও আমাদের ত্রুটির একমাত্র অংশ যা হ্রাস করা যায়, যদি তা সরিয়ে না দেওয়া হয়, নমুনার আকার পরিবর্তন করে, আমাদের প্রাক্কলনকারীকে নিয়মিতকরণ (সঙ্কুচিত করা) ইত্যাদি প্রবর্তন করে, অন্য কথায়, অন্যটি বেছে নিয়ে আমাদের মডেল পরিবারে।
মূলত, রূপান্তরযোগ্য অর্থে না বোঝানো হয় zeroable (ইশ!), কিন্তু ত্রুটি ঘটেছে, যা কমে যাবে সেই অংশে অর্থে, এমনকি যদি না অগত্যা ইচ্ছামত ছোট করেছেন। এছাড়াও মনে রাখবেন যে নীতিগতভাবে এই ত্রুটিটি বাড়িয়ে 0 এ কমিয়ে আনা যায় এটি অন্তর্ভুক্ত না হওয়া পর্যন্ত । বিপরীতে, হ্রাস করা যায় না, যত বড় হোক না কেন কারণ ।
যে সিস্টেমে সমস্ত শারীরিক ঘটনাকে যথাযথভাবে মডেল করা হয়েছে, বামদিকে শব্দ হবে। যাইহোক, কেবলমাত্র গোলমাল করার চেয়ে কোনও মডেলের ডেটার ত্রুটিতে সাধারণত আরও কাঠামো থাকে। উদাহরণস্বরূপ, একাই মডেলিং পক্ষপাত এবং শোরগোলটি কার্ভিলাইনার অবশিষ্টাংশগুলি বোঝায় না, অর্থহীন ডেটা স্ট্রাকচার। অব্যক্ত ভগ্নাংশের মোটতা, যা পদার্থবিজ্ঞানের ভুল উপস্থাপনা পাশাপাশি পক্ষপাত এবং পরিচিত কাঠামোর শব্দ নিয়ে গঠিত হতে পারে। পক্ষপাতিত্বের দ্বারা যদি আমরা গড় গড় অনুমান শুধুমাত্র ত্রুটি বোঝায়, "অপরিশোধনযোগ্য ত্রুটি" দ্বারা আমরা শব্দটি বোঝাই, এবং বৈকল্পিকতার দ্বারা আমরা মডেলটির সিস্টেমিক শারীরিক ত্রুটি বুঝি, তারপরে পক্ষপাত (বর্গক্ষেত্র) এবং পদ্ধতিগত শারীরিক ত্রুটির যোগফল কোনও বিশেষ কিছু নয়, এটি কেবল ত্রুটি যা গোলমাল নয় is । (বর্গক্ষেত্র) নিবন্ধন শব্দটি একটি নির্দিষ্ট প্রসঙ্গে এর জন্য ব্যবহৃত হতে পারে, নীচে দেখুন। আপনি যদি ত্রুটি স্বাধীন বলতে চান, বনাম ত্রুটি যা একটি ফাংশন , ওটা বল. আইএমএইচও, ত্রুটিও দুটোই অপ্রতিরোধ্য নয়, যাতে অযোগ্যতার সম্পত্তি এত বেশি বিভ্রান্ত হয় যে এটি আলোকিত হওয়ার চেয়ে আরও বিভ্রান্ত করে।
কেন আমি "হ্রাস" শব্দটি পছন্দ করি না? এটি হ্রাসের অক্ষ হিসাবে যেমন একটি স্ব-রেফারেনশিয়াল টাউটোলজি স্মোক করে । আমি রাসেল ১৯১৯ এর সাথে একমত হয়েছি যে "হ্রাসের অক্ষটি যুক্তিযুক্তভাবে প্রয়োজনীয় বলে বিশ্বাস করার কোনও কারণ আমি দেখতে পাচ্ছি না, যা এই বলে সম্ভব হবে যে এটি সমস্ত সম্ভাব্য বিশ্বে সত্য। যুক্তি তাই ত্রুটি ... একটি সন্দেহজনক ধারণা। "
অসম্পূর্ণ শারীরিক মডেলিংয়ের কারণে নীচে কাঠামোগত অবশিষ্টাংশগুলির উদাহরণ। এটি একটি ছোট আকারের গামা বিতরণ, অর্থাৎ একটি গামা ভেরিয়েট (জিভি), রেনাল গ্লোমেরুলার ফিল্টারযুক্ত রেডিওফর্মাসিউটিকাল [ 1 ] এর তেজস্ক্রিয়তার রক্তের প্লাজমা নমুনার সাথে সম্পর্কিত সর্বনিম্ন স্কোয়ারের অবশিষ্টাংশকে উপস্থাপন করে । নোট করুন যে আরও ডেটা বাতিল করা হয় ( প্রতিটি সময়-নমুনার জন্য), মডেলটি আরও ভাল হয়ে যায় যাতে হ্রাসযোগ্যতা আরও নমুনা ব্যাপ্তির সাথে হ্রাস পায়।
এটি উল্লেখযোগ্য, যে কেউ পাঁচ মিনিটে প্রথম নমুনাটি ড্রপ করে, পদার্থবিজ্ঞানের উন্নতি ঘটে যেমন এটি ক্রমানুসারে হয় যেমন কেউ প্রথম দিকে নমুনাগুলি 60 মিনিটে ছাড়তে থাকে। এটি দেখায় যে জিভি শেষ পর্যন্ত ওষুধের প্লাজমা ঘনত্বের জন্য একটি ভাল মডেল গঠন করে তবে প্রাথমিক সময়ে অন্য কিছু চলছে।
প্রকৃতপক্ষে, যদি কেউ দুটি গামা বিতরণকে কনলভ করে, একটি প্রাথমিক সময়ের জন্য, ড্রাগের সংবহন সরবরাহ এবং একটি অঙ্গ ছাড়পত্রের জন্য, এই ধরণের ত্রুটি, শারীরিক মডেলিংয়ের ত্রুটি, এর চেয়ে কম কমানো যেতে পারে [ 2 ]। এরপরে সেই প্রত্যয়টির উদাহরণ illust
পরবর্তী উত্তরটি থেকে, সময় গ্রাফ বনাম গণনাগুলির বর্গমূলের জন্য the -এক্সিস বিচ্যুতিগুলি পয়েসন শব্দ ত্রুটির অর্থে মানকৃত বিচ্যুতি। এই জাতীয় গ্রাফ এমন একটি চিত্র যার জন্য ফিটের ত্রুটিগুলি বিকৃতি বা ওয়ার্পিং থেকে চিত্রের নিবন্ধভুক্তি। সেই প্রসঙ্গে এবং কেবলমাত্র সেই প্রসঙ্গে, নিবন্ধভুক্তি পক্ষপাতাস্ত্র মডেলিং ত্রুটি এবং মোট ত্রুটিটি নিবন্ধভুক্তি এবং শোর ত্রুটি।