মডেলের ক্রস বৈধকরণের পূর্বাভাস ত্রুটির ক্ষেত্রে ফরওয়ার্ড সিলেকশন / পশ্চাৎপদ নির্মূলকরণের তুলনায় লাসোর উচ্চতা


10

আমি ব্যবহার করে একটি মূল পূর্ণ মডেল থেকে তিনটি হ্রাসপ্রাপ্ত মডেল পেয়েছি

  • এগিয়ে নির্বাচন
  • পশ্চাদপসরণ
  • এল 1 দণ্ডনীয় কৌশল (লাসো)

ফরোয়ার্ড সিলেকশন / পশ্চাদপদ বিলোপ ব্যবহার করে প্রাপ্ত মডেলগুলির জন্য, আমি উপলব্ধ CVlmপ্যাকেজে ব্যবহার করে ভবিষ্যদ্বাণী ত্রুটির ক্রস বৈধতাযুক্ত অনুমান পেয়েছি । লাসোর মাধ্যমে নির্বাচিত মডেলের জন্য, আমি ব্যবহার করেছি ।DAAGRcv.glm

লাসোর জন্য ভবিষ্যদ্বাণী ত্রুটি অন্যদের জন্য প্রাপ্ত চেয়ে কম ছিল। সুতরাং লাসোর মাধ্যমে প্রাপ্ত মডেলটি তার ভবিষ্যদ্বাণীমূলক ক্ষমতা এবং পরিবর্তনশীলতার দিক থেকে আরও ভাল বলে মনে হচ্ছে। এটি কি একটি সাধারণ ঘটনা যা সর্বদা ঘটে বা এটি সমস্যা নির্দিষ্ট? এটি কোনও সাধারণ ঘটনা হলে এর তাত্ত্বিক যুক্তি কী?


3
নিশ্চিত করুন যে আপনি অনুপযুক্ত শ্রেণিবদ্ধ সঠিক হিসাবে কোনও যথাযথ স্কোরিং নিয়ম ব্যবহার করবেন না, কারণ এটি অনুপযুক্ত ভবিষ্যদ্বাণী / মডেলগুলিকে পুরস্কৃত করে। এবং এল 2 আদর্শের সাথে তুলনা করুন। আমি বাজি ধরব এটি আপনার পক্ষে চেষ্টা করা 3 টি পদ্ধতির চেয়ে ভাল হবে।
ফ্রাঙ্ক হ্যারেল

উত্তর:


16

লাসো এবং ফরোয়ার্ড / পশ্চাদপদ মডেল নির্বাচনের উভয় শক্তি এবং সীমাবদ্ধতা রয়েছে। কোনও সুস্পষ্ট সুপারিশ করা যেতে পারে। এটিকে সমাধান করার জন্য সিমুলেশন সর্বদা অন্বেষণ করা যেতে পারে।

উভয়ই মাত্রিকতার অর্থে বোঝা যায়: মডেল পরামিতিগুলির সংখ্যা এবং পর্যবেক্ষণের সংখ্যা উল্লেখ করে refer আপনি যদি পিছনের মডেল নির্বাচন ব্যবহার করে মডেলগুলি ফিট করতে সক্ষম হন তবে আপনার সম্ভবত । সেক্ষেত্রে, "সর্বোত্তম ফিটিং" মডেলটি হ'ল সমস্ত প্যারামিটার ব্যবহার করা হয় ... অভ্যন্তরীণভাবে যাচাই করার সময়! এটি কেবল অত্যধিক মানানসই বিষয়।এন পি এনpnpn

মডেল মূল্যায়নের জন্য স্প্লিট স্যাম্পল ক্রস ভ্যালিডেশন (সিভি) ব্যবহার করে ওভারফিটিং প্রতিকার করা হয়। যেহেতু আপনি এটি বর্ণনা করেননি, তাই ধরে নিই আপনি এটি করেন নি। ধাপে ধাপে মডেল নির্বাচনের বিপরীতে, লাসো মডেলটির পরামিতিগুলির সংখ্যাকে দণ্ডিত করতে একটি টিউনিং প্যারামিটার ব্যবহার করে। আপনি টিউনিং প্যারামিটারটি ঠিক করতে পারেন, বা এই মানটি চয়ন করতে একটি জটিল পুনরাবৃত্তি প্রক্রিয়া ব্যবহার করতে পারেন। ডিফল্টরূপে , লাসো পরবর্তীকালে করে। এটি সিভি দিয়ে সম্পন্ন করা হয়েছে যাতে ভবিষ্যদ্বাণীটির এমএসই হ্রাস করতে পারে। ধাপে ধাপে মডেল নির্বাচনের এমন কোনও বাস্তবায়ন সম্পর্কে আমি অবগত নই যা এই ধরণের অত্যাধুনিক কৌশল ব্যবহার করে, এমনকি বিআইসিকে মানদণ্ড হিসাবে অভ্যন্তরীণ বৈধতা পক্ষপাত দ্বারা ভুগতে পারে। আমার অ্যাকাউন্ট অনুসারে, এটি স্বয়ংক্রিয়ভাবে "বাইরের বাইরে" ধাপে ধাপে মডেল নির্বাচনের উপরে লাসোকে উত্সাহ দেয়।

শেষ অবধি, ধাপে ধাপে মডেল নির্বাচনের বিভিন্ন নিবন্ধককে অন্তর্ভুক্ত / বাদ দেওয়ার জন্য বিভিন্ন মানদণ্ড থাকতে পারে। যদি আপনি নির্দিষ্ট মডেলের প্যারামিটারগুলির ওয়াল্ড পরীক্ষা বা ফলস্বরূপ মডেল আর ^ 2 এর জন্য পি-মানগুলি ব্যবহার করেন তবে আপনি ভাল করতে পারবেন না, বেশিরভাগ অভ্যন্তরীণ বৈধতা পক্ষপাতের কারণে (আবার সিভি দিয়ে প্রতিকার করা যেতে পারে)। আমি অবাক করে দিয়েছি যে এই ধরণের মডেলগুলি এখনও বাস্তবায়িত হয়। মডেল নির্বাচনের জন্য এআইসি বা বিআইসি অনেক ভাল মানদণ্ড।

প্রতিটি পদ্ধতিতে বেশ কয়েকটি সমস্যা রয়েছে। ধাপে ধাপে মডেল নির্বাচনের সমস্যাগুলি আরও ভালভাবে বোঝা যায়, এবং লাসোর চেয়ে অনেক খারাপ। আপনার প্রশ্নের সাথে আমি যে প্রধান সমস্যাটি দেখছি তা হ'ল আপনি ভবিষ্যদ্বাণী মূল্যায়নের জন্য বৈশিষ্ট্য নির্বাচন সরঞ্জামগুলি ব্যবহার করছেন । তারা স্বতন্ত্র কাজ। বৈশিষ্ট্য নির্বাচন বা স্পার্স মডেল নির্বাচনের জন্য লাসো আরও ভাল। এটি সমস্ত ভেরিয়েবল ব্যবহার করার কারণে রিজ রিগ্রেশন আরও ভাল পূর্বাভাস দিতে পারে।

লাসোর দুর্দান্ত শক্তি হ'ল এটি এমন মডেলগুলির অনুমান করতে পারে , যেমন কেস ফরোয়ার্ড (তবে পিছিয়ে নয়) পদক্ষেপের প্রতিরোধের হতে পারে। উভয় ক্ষেত্রেই, এই মডেলগুলি তখনই পূর্বাভাসের জন্য কার্যকর হতে পারে যখন সেখানে খুব শক্তিশালী ভবিষ্যদ্বাণীকারীদের হাতে গোনা থাকে। যদি অনেক দুর্বল ভবিষ্যদ্বাণী দ্বারা ফলাফলের আরও ভালভাবে পূর্বাভাস দেওয়া হয়, তবে রিজ রিগ্রেশন বা ব্যাগিং / বুস্টিং দীর্ঘ শট দ্বারা ফরোয়ার্ড স্টেপওয়াইজ রিগ্রেশন এবং ল্যাসো উভয়কেই ছাড়িয়ে যাবে । ফরোয়ার্ড স্টেপওয়াইজ রিগ্রেশনের চেয়ে লাসো অনেক দ্রুত।pn

বৈশিষ্ট্য নির্বাচন এবং পূর্বাভাসের মধ্যে স্পষ্টতই প্রচুর পরিমাণে ওভারল্যাপ রয়েছে, তবে একটি রেঞ্চ হাতুড়ি হিসাবে কতটা ভাল পরিবেশন করে তা সম্পর্কে আমি আপনাকে কখনও বলি না। সাধারণভাবে, মডেল সহগ এবং এর বিচ্ছিন্ন সংখ্যার সাথে পূর্বাভাসের জন্য , আমি ফরোয়ার্ড স্টেপওয়াস মডেল নির্বাচনের চেয়ে লাসোকে পছন্দ করব।pn


4

আপনি কিছু মানদণ্ড অনুসারে ভবিষ্যদ্বাণীকারীদের একটি উপসেট চয়ন করতে চান। নমুনা এআইসি বা অ্যাডজাস্টেড আর ^ 2 হতে পারে বা ক্রস-বৈধতা, কোনও ব্যাপার নয়।

আপনি প্রতিটি একক পূর্বাভাসকারী সাবসেট সমন্বয় পরীক্ষা করতে পারেন এবং সেরা উপসেটটি বেছে নিতে পারেন। যাহোক

  • পরামিতিগুলির সংযুক্তি বিস্ফোরণের কারণে খুব সময়সাপেক্ষ।
  • আপনার যদি পর্যবেক্ষণের চেয়ে আরও বেশি পরামিতি থাকে এই অর্থে যে আপনি এমন সমস্ত ভবিষ্যদ্বাণী সংযুক্তি পরীক্ষা করেন যা সমাধান দেয়

আপনি অগ্রসর পদক্ষেপ নির্বাচন ব্যবহার করতে পারেন

  • কম সময়সাপেক্ষ, তবে নিখুঁত সেরা সংমিশ্রণ নাও পেতে পারে, esp। যখন ভবিষ্যদ্বাণীকারীরা পরস্পর সম্পর্কযুক্ত হয় (একজন ভবিষ্যদ্বাণী বেছে নিতে পারে এবং 2 জন ভবিষ্যদ্বাণী যুক্ত করার সময় আরও উন্নতি পেতে অক্ষম হতে পারে)
  • আপনার কাছে পর্যবেক্ষণের চেয়ে বেশি পরামিতি থাকলেও কাজ করে

আপনি পশ্চাদপদ বিলোপ ব্যবহার করতে পারেন

  • আপনার যদি পর্যবেক্ষণের চেয়ে বেশি পরামিতি থাকে না, কোনও একক ভাল সূচনা পয়েন্ট থাকে না (তাত্ত্বিকভাবে আপনি সমস্ত বৈধ প্রারম্ভিক বিন্দু থেকে শুরু করতে পারেন, পিছনের দিকে কাজ করতে পারেন, সেরাটি বেছে নিতে পারেন, তবে এটি সাধারণত পিছনের বর্ধনের দ্বারা বোঝানো হয় না)
  • অগ্রসর পদক্ষেপের মতো, সমস্ত উপগ্রহের তুলনায় সময় সাশ্রয়ী, তবে নিখুঁত সেরা সংমিশ্রণ নাও পেতে পারে, esp। যখন ভবিষ্যদ্বাণীকারী পরস্পর সম্পর্কিত হয়

আপনি লাসো ব্যবহার করতে পারেন

  • আপনার কাছে পর্যবেক্ষণের চেয়ে বেশি পরামিতি থাকলেও কাজ করে
  • সিপিইউ-দক্ষ যখন আপনার অনেকগুলি পরামিতি থাকে এবং সাবসেটগুলির সম্মিলিত বিস্ফোরণ হয়
  • নিয়মিতকরণ যুক্ত করে

সিভিতে লাসো আপনার ডেটাতে কেন আরও ভাল কার্য সম্পাদন করে তা আপনার প্রশ্ন হিসাবে

  • একটি সম্ভাবনা উপরে বর্ণিত পথ-নির্ভরতা - লাসো আরও ভাল উপসেট খুঁজে পেতে পারে। সম্ভবত এটি ভাগ্যবান হয়ে উঠেছে, সম্ভবত লাসো সাধারণত / মাঝে মাঝে আরও ভাল সাবসেট হয়ে যায়, আমি নিশ্চিত নই। বিষয়টিতে সম্ভবত সাহিত্য আছে।
  • আর একটি (সম্ভবত আরও বেশি সম্ভাবনা) সম্ভাবনা হ'ল লাসো নিয়মিতকরণ অত্যধিক মানসিকতা প্রতিরোধ করে, তাই লাসো সিভিতে / নমুনার বাইরে আরও ভাল সম্পাদন করে।

নীচের লাইন, লাসো আপনাকে নিয়মিতকরণ এবং দক্ষ উপসেট নির্বাচন দেয়, বিশেষত যখন আপনার অনেক পূর্বাভাসক থাকে।

বিটিডাব্লু আপনি লাসো করতে পারেন এবং সিভি ব্যবহার করে আপনার মডেলটি নির্বাচন করতে পারেন (সর্বাধিক সাধারণ) তবে এআইসি বা অন্য কোনও মানদণ্ড ব্যবহার করে। আপনার মডেলটি এল 1 নিয়মিতকরণ এবং কোনও বাধা ছাড়াই চালান, তারপরে ধীরে ধীরে এআইসির ন্যূনতম, বা সিভি ত্রুটি বা আপনার পছন্দের মানদণ্ড না পৌঁছানো পর্যন্ত সীমাবদ্ধতা আরও কড়া করুন। Http://scikit-learn.org/stable/auto_example/linear_model/plot_lasso_model_selection.html দেখুন

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.