আমি উভয় সাধারণভাবে এবং বিশেষত লিনিয়ার রিগ্রেশন প্রসঙ্গে, পক্ষপাত-বৈকল্পিক ট্রেড অফের একটি স্বজ্ঞাত ব্যাখ্যা খুঁজছি।
আমি উভয় সাধারণভাবে এবং বিশেষত লিনিয়ার রিগ্রেশন প্রসঙ্গে, পক্ষপাত-বৈকল্পিক ট্রেড অফের একটি স্বজ্ঞাত ব্যাখ্যা খুঁজছি।
উত্তর:
কিছু 2 ডি ডেটা কল্পনা করুন - আসুন উচ্চ বিদ্যালয়ের শিক্ষার্থীদের উচ্চতার তুলনায় ওজন বলুন - এক জোড়া অক্ষের জন্য পরিকল্পনা করেছিলেন।
এখন ধরুন আপনি এটির মধ্য দিয়ে একটি সরল রেখায় ফিট করে। এই রেখাটি, যা অবশ্যই পূর্বাভাসিত মানগুলির একটি সেট উপস্থাপন করে, শূন্যের পরিসংখ্যানগত বৈচিত্র রয়েছে। তবে পক্ষপাতটি (সম্ভবত) উচ্চ - অর্থাত্ এটি ডেটা খুব ভাল মানায় না।
এর পরে, ধরুন আপনি একটি উচ্চ-ডিগ্রি বহুবর্ষীয় স্প্লাইন সহ ডেটা মডেল করেছেন। আপনি ফিটের সাথে সন্তুষ্ট নন, সুতরাং ফিটের উন্নতি না হওয়া অবধি আপনি বহুপদী ডিগ্রি বাড়িয়েছেন (এবং এটি স্বেচ্ছাচারিতভাবে নির্ভুলতার জন্য, বাস্তবে)। এখন আপনার পক্ষপাতদুষ্টু নিয়ে একটি পরিস্থিতি রয়েছে যা শূন্যের দিকে ঝুঁকছে তবে তারতম্য খুব বেশি।
নোট করুন যে পক্ষপাতিত্ব-বৈকল্পিক বাণিজ্য বন্ধ কোনও আনুপাতিক সম্পর্কের বর্ণনা দেয় না - অর্থাত্ যদি আপনি পক্ষপাতিত্ব বনাম বৈচিত্রের প্লট করেন তবে অগত্যা slাল -1 সহ উত্সের মধ্য দিয়ে একটি সরল রেখা দেখতে পাবেন না। উপরোক্ত বহুবর্ষীয় স্প্লাইনের উদাহরণে, ডিগ্রি হ্রাস করা প্রায় নিশ্চিতভাবে বৈষম্য হ্রাস করার চেয়ে তারতম্যকে অনেক কম করে increases
বায়াস-ভেরিয়েন্স ট্রেড অফটি স্কোয়ারের ত্রুটি ফাংশনে এম্বেড করা থাকে। নীচে, আমি জোর দেওয়ার জন্য এই সমীকরণের স্বাভাবিক রূপটি আবার লিখেছি (তবে পরিবর্তিত হয়নি):
ডানদিকে, তিনটি পদ রয়েছে: এর মধ্যে প্রথমটি হ'ল কেবল অপ্রয়োজনীয় ত্রুটি (নিজেই ডেটাতে বৈচিত্র); এটি আমাদের নিয়ন্ত্রণের বাইরে তাই এটিকে উপেক্ষা করুন। দ্বিতীয় শব্দ পক্ষপাত বর্গ ; এবং তৃতীয়টি হ'ল বৈকল্পিকতা । এটি সহজেই দেখা যায় যে একজনের উপরে উঠে যাওয়ার সাথে সাথে অন্যটি নীচে নেমে যায় - তারা উভয়ই একই দিকে একই সাথে পৃথক হতে পারে না। আরেকটি উপায় রাখুন, আপনি প্রার্থীদের মডেলগুলির মধ্যে পক্ষপাত এবং বৈচিত্রের সর্বোত্তম সংমিশ্রণটি (স্পষ্টভাবে) হিসাবে স্বল্প-স্কোয়ারের রিগ্রেশন সম্পর্কে ভাবতে পারেন।
ধরা যাক আপনি বিপর্যয়কর স্বাস্থ্য বীমা বিবেচনা করছেন, এবং অসুস্থ হওয়ার 1% সম্ভাবনা রয়েছে যার জন্য 10 মিলিয়ন ডলার ব্যয় হবে। অসুস্থ হওয়ার প্রত্যাশিত ব্যয় এইভাবে 10,000 ডলার। বীমা সংস্থা, কোনও মুনাফা অর্জন করতে চাইলে, পলিসির জন্য আপনাকে 15,000 নেবে।
পলিসি কেনা আপনাকে 15,000 এর প্রত্যাশিত ব্যয় দেয়, যার 0 এর প্রকরণ রয়েছে তবে এটি অসুস্থ হওয়ার আসল প্রত্যাশিত ব্যয়ের চেয়ে 5000 টি বেশি হওয়ায় এটি পক্ষপাতদুষ্ট হিসাবে ভাবা যেতে পারে।
নীতিটি না কেনা একটি প্রত্যাশিত 10,000 ডলার দেয়, যা নিরপেক্ষ কারণ এটি অসুস্থ হওয়ার প্রকৃত প্রত্যাশিত ব্যয়ের সমান, তবে এর খুব বেশি বৈকল্পিক রয়েছে। এখানে ট্রেড অফ এমন একটি পদ্ধতির মধ্যে যা ধারাবাহিকভাবে ভুল তবে খুব বেশি কখনই নয় এবং এমন পদ্ধতির মধ্যে যা গড়পড়তাভাবে সঠিক তবে আরও পরিবর্তনশীল।
ইয়াসার আবু-মোস্তফা, লেকচার 8 (বায়াস-ভেরিয়েন্স ট্রেডফ) দ্বারা ক্যালটেক এমএল কোর্সটি দেখার জন্য আমি সুপারিশ করছি । এখানে রূপরেখা রয়েছে:
বলুন আপনি সাইন ফাংশন শিখার চেষ্টা করছেন:
আমাদের প্রশিক্ষণ সেটটিতে মাত্র 2 ডেটা পয়েন্ট রয়েছে।
আসুন এটির জন্য দুটি মডেল, এবং h 1 ( x ) = a x + b দিয়ে চেষ্টা করার চেষ্টা করুন :
আপনি যদি প্রশিক্ষণের সেটটির আকার ( কোর্সেরা থেকে প্রাপ্ত চিত্রগুলি - অ্যান্ড্রু এনজি দ্বারা মেশিন লার্নিং ) সম্পর্কিত ব্যয়টির বিবর্তনের দিকে নজর দেন :
উচ্চ পক্ষপাত:
উচ্চ বৈচিত্র:
আমি সাধারণত এই দুটি ছবি সম্পর্কে চিন্তা করি:
প্রথম, পক্ষপাত এবং বৈকল্পিক অর্থ:
রেড ষাঁদের চোখের অঞ্চলটির কেন্দ্রস্থলটি আমাদের লক্ষ্য র্যান্ডম ভেরিয়েবলের প্রকৃত গড় মান যা আমরা পূর্বাভাস দেওয়ার চেষ্টা করছি এবং লাল অঞ্চলটি এই পরিবর্তনশীলটির প্রসারণের ইঙ্গিত দেয়। প্রতিবার আমরা পর্যবেক্ষণের একটি নমুনা সেট নিই এবং এই ভেরিয়েবলটির মান পূর্বাভাস করি আমরা একটি নীল বিন্দুর পরিকল্পনা করি। আমরা যদি নীল বিন্দুটি লাল অঞ্চলের মধ্যে পড়ে তবে আমরা সঠিকভাবে পূর্বাভাস দিয়েছিলাম। অন্য কথায়, পক্ষপাত হ'ল প্রকৃত লাল অঞ্চল থেকে ভবিষ্যদ্বাণী করা নীল বিন্দুগুলি কতটা দূরে রয়েছে তার পরিমাপ, স্বজ্ঞাতই এটি একটি ত্রুটি। আমাদের ভবিষ্যদ্বাণীগুলি কীভাবে ছড়িয়ে ছিটিয়ে রয়েছে তা তারতম্য।
এখন এখানে বাণিজ্য বন্ধ:
যখন আমরা এই প্যারামিটারগুলির একটি হ্রাস করার চেষ্টা করি (হয় পক্ষপাত বা বৈকল্পিক), অন্য প্যারামিটারটি বৃদ্ধি পায়। তবে কম-বেশি-কম পক্ষপাত এবং না-এত কম ভেরিয়েন্সের মধ্যে কোথাও একটি মিষ্টি স্পট রয়েছে যা দীর্ঘমেয়াদে কমপক্ষে পূর্বাভাস ত্রুটি তৈরি করে।
এই ছবিগুলি http://scott.fortmann-roe.com/docs/BiasVariance.html থেকে তোলা । আরও তথ্যের জন্য লিনিয়ার রিগ্রেশন এবং কে-নিকটতম প্রতিবেশীদের সাথে ব্যাখ্যাগুলি দেখুন
এখানে একটি খুব সাধারণ ব্যাখ্যা। কল্পনা করুন যে আপনার কাছে বিন্দুগুলির বিচ্ছুরিত প্লট রয়েছে {x_i, y_i} যা কিছু বিতরণ থেকে নমুনা পেয়েছিল। আপনি এটিতে কিছু মডেল ফিট করতে চান। আপনি একটি লিনিয়ার বক্র বা উচ্চতর অর্ডার বহুপদী বক্র বা অন্য কিছু চয়ন করতে পারেন। আপনি যা যা চয়ন করেন তা প্রয়োগ করা হবে y x_i} পয়েন্টের একটি সেটের জন্য নতুন y মানগুলির পূর্বাভাস দেওয়ার জন্য। আসুন এগুলিকে বৈধতা সেট বলুন। আসুন ধরে নেওয়া যাক আপনি তাদের সত্য {y_i} মানগুলিও জানেন এবং আমরা কেবল এটি মডেল পরীক্ষার জন্য ব্যবহার করছি।
পূর্বাভাসিত মানগুলি আসল মান থেকে আলাদা হতে চলেছে। আমরা তাদের পার্থক্যের বৈশিষ্ট্যগুলি পরিমাপ করতে পারি। আসুন একটি মাত্র বৈধতা পয়েন্ট বিবেচনা করা যাক। এটিকে x_v বলুন এবং কিছু মডেল চয়ন করুন। মডেলটি প্রশিক্ষণের জন্য 100 বিভিন্ন এলোমেলো নমুনা ব্যবহার করে সেই বৈধতা পয়েন্টের জন্য পূর্বাভাসগুলির একটি সেট করা যাক। সুতরাং আমরা 100 y মান পেতে যাচ্ছি। এই মানগুলির গড় এবং সত্য মানের মধ্যকার পার্থক্যকে পক্ষপাত বলা হয়। বিতরণের বৈকল্পিকতা।
আমরা কোন মডেলটি ব্যবহার করি তার উপর নির্ভর করে আমরা এই দুটিয়ের মধ্যে বাণিজ্য করতে পারি। আসুন দুটি চরম বিবেচনা করা যাক। সর্বনিম্নতম ভেরিয়েন্স মডেল এমন এক যেখানে সম্পূর্ণ ডেটা উপেক্ষা করুন। ধরা যাক আমরা প্রতিটি এক্সের জন্য কেবল 42 এর পূর্বাভাস দিই। এই মডেলটির প্রতিটি বিন্দুতে বিভিন্ন প্রশিক্ষণের নমুনাগুলি জুড়ে শূন্য বৈচিত্র রয়েছে। তবে এটি পরিষ্কারভাবে পক্ষপাতদুষ্ট। পক্ষপাতটি কেবল 42-y_v।
অন্য একটি চরম আমরা একটি মডেল চয়ন করতে পারি যা যথাসম্ভব পরিমাণে ওভারফিট করে। উদাহরণস্বরূপ, একটি 100 ডিগ্রি পয়েন্টে 100 ডিগ্রি বহুবচন ফিট করুন। অথবা বিকল্পভাবে, নিকটবর্তী প্রতিবেশীদের মধ্যে লাইনভাবে আন্তঃবিচ্ছেদ করুন। এটির পক্ষপাতিত্ব কম। কেন? কারণ যেকোন এলোমেলো নমুনার জন্য প্রতিবেশী পয়েন্টগুলি x_v এর ব্যাপক আকারে ওঠানামা করবে তবে তারা যতটা কম ফাঁকা হবে ততবারই উচ্চতর সংশ্লেষ করবে। সুতরাং নমুনাগুলি জুড়ে গড়ে, তারা বাতিল হয়ে যাবে এবং সত্যিকারের বক্ররেখায় প্রচুর উচ্চ ফ্রিকোয়েন্সি পরিবর্তিত না হলে পক্ষপাতটি খুব কম হবে।
যাইহোক এই ওভারফিট মডেলগুলির এলোমেলো নমুনাগুলি জুড়ে বড় বৈচিত্র রয়েছে কারণ তারা ডেটা মসৃণ করছে না। ইন্টারপোলেশন মডেল মধ্যবর্তী একটির পূর্বাভাস দেওয়ার জন্য মাত্র দুটি ডেটা পয়েন্ট ব্যবহার করে এবং এর ফলে প্রচুর শব্দ হয়।
লক্ষ্য করুন যে পক্ষপাতটি একটি একক স্থানে পরিমাপ করা হয়। এটি ইতিবাচক বা নেতিবাচক কিনা তা বিবেচ্য নয়। এটি কোনও প্রদত্ত এক্স এ এখনও পক্ষপাতিত্ব। সমস্ত এক্স মানগুলির উপরে গড় বায়াসগুলি সম্ভবত ছোট হবে তবে এটি নিরপেক্ষ নয় make
আরও একটি উদাহরণ। বলুন আপনি কিছু সময় মার্কিন যুক্তরাষ্ট্রে কিছু সেট করে তাপমাত্রা সম্পর্কে পূর্বাভাস দেওয়ার চেষ্টা করছেন। ধরে নেওয়া যাক আপনার 10,000 টি প্রশিক্ষণ পয়েন্ট রয়েছে। আবার, আপনি কেবল গড় গড় ফিরে কিছু সহজ করে স্বল্প বৈকল্পিক মডেল পেতে পারেন। তবে এটি ফ্লোরিডা রাজ্যে নিম্নতর এবং আলাস্কা রাজ্যে পক্ষপাতী উচ্চ হবে। আপনি যদি প্রতিটি রাজ্যের জন্য গড় ব্যবহার করেন তবে আপনি আরও ভাল হন। তবুও শীতকালে আপনি উচ্চ পক্ষপাতী এবং গ্রীষ্মে কম হবেন। সুতরাং এখন আপনি আপনার মডেল মাস অন্তর্ভুক্ত। তবে আপনি এখনও ডেথ ভ্যালিতে নিম্ন এবং মাউন্ট শাষ্টায় উচ্চতর পক্ষপাতদুষ্ট হতে চলেছেন। সুতরাং এখন আপনি দানাদারের জিপ কোড স্তরে যান। কিন্তু শেষ পর্যন্ত যদি আপনি পক্ষপাত হ্রাস করতে এটি করা চালিয়ে যান, আপনি ডেটা পয়েন্টের বাইরে চলে যান। কোনও প্রদত্ত জিপ কোড এবং মাসের জন্য আপনার কাছে কেবল একটি ডেটা পয়েন্ট রয়েছে। স্পষ্টতই এটি প্রচুর বৈকল্পিকতা তৈরি করতে চলেছে। সুতরাং আপনি আরও জটিল মডেলটি দেখতে পেয়েছেন বৈকল্পিক ব্যয়কে পক্ষপাতিত্ব হ্রাস করে।
সুতরাং আপনি দেখুন একটি বাণিজ্য বন্ধ আছে। মসৃণ মডেলগুলির প্রশিক্ষণের নমুনাগুলির মধ্যে কম বৈচিত্র রয়েছে তবে বক্রের আসল আকৃতিটি ক্যাপচার করবেন না। কম মসৃণ মডেলগুলি বক্ররেখাকে আরও ক্যাপচার করতে পারে তবে নয়েজ হওয়ার ব্যয়ে। মাঝখানে কোথাও হ'ল একটি গোল্ডিলকস মডেল যা উভয়ের মধ্যে একটি গ্রহণযোগ্য ট্রেড অফ করে।
কল্পনা করুন যে মডেল বিল্ডিংয়ের কাজটি বিভিন্ন প্রশিক্ষণের ডেটাসেটের জন্য পুনরাবৃত্তি হতে পারে, যেমন আমরা প্রতিবারই বিভিন্ন ডেটাসেটের জন্য একটি নতুন মডেলকে প্রশিক্ষণ করি (নীচের চিত্রে দেখানো হয়েছে)। যদি আমরা একটি পরীক্ষার ডেটা পয়েন্ট ঠিক করি এবং এই পয়েন্টে মডেল পূর্বাভাসের মূল্যায়ন করি, মডেল জেনারেশন প্রক্রিয়ায় এলোমেলোতার কারণে ভবিষ্যদ্বাণীগুলি ভিন্ন হবে। এই পরিস্থিতির জন্য নীচের চিত্র থেকে, P_1, P_2,…, P_n বিভিন্ন পূর্বাভাস এবং এলোমেলোও।
ভবিষ্যদ্বাণীগুলির গড়টি হতে দিন -
বায়াস ত্রুটি এই পূর্বাভাসের গড় এবং সঠিক মানের মধ্যে পার্থক্যের কারণে।
ভেরিয়েন্স ত্রুটি এই ভবিষ্যদ্বাণীগুলির মধ্যে ভিন্নতা ছাড়া কিছুই নয়, অর্থাত্ এই ভবিষ্যদ্বাণীগুলি কতটা বিচিত্র।
পক্ষপাত এবং বৈকল্পিক ত্রুটির পিছনে এটি অন্তর্দৃষ্টি।
বিশদ ব্যাখ্যার জন্য পক্ষপাত বৈকল্পিক ট্রেড অফের পিছনে সঠিক স্বীকৃতিটি দেখুন