দণ্ডিত রিগ্রেশন মডেল থেকে আর-স্কোয়ার এবং পরিসংখ্যানিক তাত্পর্য নির্ধারণ করা


20

আমি একটি ডেটাসেটের জন্য সহগের সঙ্কুচিত প্রাক্কলনগুলি পেতে দন্ডিত আর প্যাকেজটি ব্যবহার করছি যেখানে আমার প্রচুর ভবিষ্যদ্বাণী রয়েছে এবং কোনটি গুরুত্বপূর্ণ তা সম্পর্কে খুব কম জ্ঞান। আমি এল 1 এবং এল 2 টিউনিংয়ের প্যারামিটারগুলি বেছে নেওয়ার পরে এবং আমি আমার গুণাগুণগুলি নিয়ে সন্তুষ্ট হয়েছি, আর-স্কোয়ারের মতো কোনও কিছুর সাথে মডেল ফিটকে সংক্ষিপ্ত করার কোনও পরিসংখ্যানগত উপায় আছে?

তদুপরি, আমি মডেলের সামগ্রিক তাত্পর্য পরীক্ষা করতে আগ্রহী (অর্থাত্ R² = 0 করেন বা সমস্ত = 0 করেন)।

আমি এখানে জিজ্ঞাসিত অনুরূপ প্রশ্নের উত্তরগুলি পড়েছি , তবে এটি আমার প্রশ্নের বেশিরভাগ উত্তর দেয়নি। আমি এখানে যে আর প্যাকেজটি ব্যবহার করছি তার একটি দুর্দান্ত টিউটোরিয়াল রয়েছে এবং লেখক জেলি গোম্যান টিউটোরিয়ালটির শেষে শাস্তিযুক্ত রিগ্রেশন মডেলগুলির আত্মবিশ্বাসের ব্যবধানগুলি সম্পর্কে নীচের নোটটি রেখেছিলেন:

রিগ্রেশন সহগ বা অন্যান্য আনুমানিক পরিমাণের স্ট্যান্ডার্ড ত্রুটি জিজ্ঞাসা করা খুব স্বাভাবিক প্রশ্ন। নীতিগতভাবে এই জাতীয় স্ট্যান্ডার্ড ত্রুটিগুলি সহজেই গণনা করা যায়, যেমন বুটস্ট্র্যাপ ব্যবহার করে।

তবুও, এই প্যাকেজটি ইচ্ছাকৃতভাবে তাদের সরবরাহ করে না। এর কারণ হ'ল দণ্ডিত অনুমান পদ্ধতি থেকে উত্থাপিত দৃ as় পক্ষপাতমূলক অনুমানের জন্য স্ট্যান্ডার্ড ত্রুটিগুলি খুব অর্থবহ নয়। পেনালাইজড অনুমান একটি প্রক্রিয়া যা যথেষ্ট পরিমাণে পক্ষপাতিত্ব প্রবর্তন করে অনুমানের বৈচিত্রকে হ্রাস করে। প্রতিটি অনুমানকারকের পক্ষপাত তাই তার গড় স্কোয়ার ত্রুটির একটি প্রধান উপাদান, যেখানে এর প্রকরণটি কেবলমাত্র একটি ছোট অংশকে অবদান রাখতে পারে।

দুর্ভাগ্যক্রমে, দণ্ডিত রিগ্রেশনের বেশিরভাগ প্রয়োগগুলিতে পক্ষপাতের যথেষ্ট সঠিক অনুমান পাওয়া অসম্ভব। যে কোনও বুটস্ট্র্যাপ-ভিত্তিক ক্যালকুলেশনগুলি কেবলমাত্র অনুমানের বৈচিত্রের একটি মূল্যায়ন দিতে পারে। পক্ষপাতিত্বের নির্ভরযোগ্য অনুমান কেবল তখনই পাওয়া যায় যদি নির্ভরযোগ্য পক্ষপাতিত্বমূলক অনুমান পাওয়া যায় যা সাধারণত দণ্ডিত অনুমান ব্যবহৃত হয় এমন পরিস্থিতিতে হয় না।

দণ্ডিত অনুমানের একটি স্ট্যান্ডার্ড ত্রুটি হিসাবে প্রতিবেদন করা গল্পটির কেবলমাত্র অংশ বলে। এটি পক্ষপাতের কারণে সৃষ্ট অসম্পূর্ণতাকে সম্পূর্ণ উপেক্ষা করে দুর্দান্ত নির্ভুলতার একটি ভুল ধারণা দিতে পারে। আত্মবিশ্বাসের বিবৃতি দেওয়া অবশ্যই ভুল, যা কেবলমাত্র অনুমানের বৈচিত্রের মূল্যায়নের উপর ভিত্তি করে যেমন বুটস্ট্র্যাপ ভিত্তিক আত্মবিশ্বাসের অন্তরগুলি করে।


1
অবশ্যই একটি উপায় আমি দ্রুত আর-স্কোয়ারের অনুমান পেতে পারি হ'ল মূল তথ্য থেকে ফিটেড মানগুলির পূর্বাভাস দেওয়া লিনিয়ার মডেলটি ফিটিং করা এবং সেখান থেকে আর-স্কোয়ার নেওয়া। তবে এটি দেখে মনে হচ্ছে এটি আর-স্কোয়ারের একটি ব্যাপক-ওভারফিট এবং পক্ষপাতদুষ্ট অনুমান।
স্টিফেন টার্নার

আমি এটিকে একটি মন্তব্য হিসাবে যুক্ত করছি যেহেতু আমি নিকটবর্তী পোস্টে একটি "অনুরূপ" প্রশ্ন জিজ্ঞাসা করছি (সুতরাং আমি উত্তর দেওয়ার মতো যোগ্য কিনা তা আমি জানি না ) তবে আপনার প্রশ্নের জন্য বিশেষত মনে হচ্ছে আপনি কোনও প্রয়োজন ছাড়াই আর-স্কোয়ার গণনা করতে পারবেন বিতরণ অনুমান (যদিও এগুলি সাধারণ পদ্ধতিতে হাইপোথিসিস পরীক্ষার জন্য প্রয়োজন) আর-স্কোয়ার গণনা করার জন্য আপনি একটি হোল্ড আউট সেট ব্যবহার করতে পারবেন না বা যদি আপনার পর্যাপ্ত ডেটা না থাকে তবে কে-ফোল্ড বৈধতা ব্যবহার করতে পারবেন না (প্রতিটি ভাঁজে আপনার পুরো দন্ডিত প্রক্রিয়া চালান এবং প্রতিটি ভাঁজ থেকে আর-স্কোয়ারগুলি গড় না ফিটিং ব্যবহার করা হয়)?
বি_মিনার

1
@ বি_মিনার, ফোল্ড ক্রস বৈধকরণে এর পক্ষপাতদুষ্ট অনুমান করা যায় , কারণ এটি সাধারণত সুদের সঠিক পরিমাণ অনুমান করে না। অনেক (সর্বাধিক?) একই পদ্ধতিতে একই সমস্যা রয়েছে। আর 2kR2
কার্ডিনাল

1
@ স্টেফেন, আপনি যে পরিমাণে আগ্রহী তা কি ? শাস্তি দ্বারা উত্সাহিত পক্ষপাতের কারণে, কেবলমাত্র বর্ণনার ব্যাখ্যা দেওয়া তত্ক্ষণাত কাম্য নয় যদি আপনি ইতিমধ্যে পক্ষপাতিত্বের খুব ভাল অনুমান না করেন। অনুমানের ভিত্তি হিসাবে ব্যবহারের সম্পূর্ণ ধারণাটি অনুমানের পক্ষপাতহীনতার উপর পূর্বাভাসিত। এমনকি রিগ্রেশন সম্পর্কিত প্রধান পাঠ্যপুস্তকগুলি এটি "ভুলে গেছে" বলে মনে হয়। (উদাহরণস্বরূপ, একাধিক রিগ্রেশন কেসে সেবার এবং লির কিছুটা এর ত্রুটিযুক্ত চিকিত্সা দেখুন ))আর 2 আর 2R2 R2R2
কার্ডিনাল

1
আমি মনে করি যে স্বাভাবিক উপায়ে সংজ্ঞায়িত করা যেতে পারে এবং কখনও কখনও সহায়ক হতে পারে। যদিও স্ট্যান্ডার্ড ত্রুটিগুলি পক্ষপাতদুষ্ট হিসাবে বিবেচনা করে না, এগুলি "রক্ষণশীল, শূন্যের দিকে সঙ্কুচিত" পরিমাণের স্ট্যান্ডার্ড ত্রুটি। এগুলি সম্ভবত আনুষ্ঠানিক অনুমানের জন্য ব্যবহার করা যাবে না তবে আমি কখনও সিদ্ধান্ত নেওয়ার আগে আরও আলোচনা শুনতে চাই যে সেগুলি কখনও ব্যবহার করা উচিত নয়। R2
ফ্রাঙ্ক হ্যারেল

উত্তর:


4

জেলির দেওয়া মন্তব্যে আমার প্রথম প্রতিক্রিয়া হ'ল "পক্ষপাত-শ্মিয়াস"। "বিপুল পরিমাণ ভবিষ্যদ্বাণী" বলতে কী বোঝায় সে সম্পর্কে আপনাকে সতর্ক থাকতে হবে। এটি শ্রদ্ধার সাথে "বৃহত্তর" হতে পারে:

  1. ডেটা পয়েন্টের সংখ্যা ("বিগ পি ছোট এন")
  2. আপনাকে ভেরিয়েবলগুলি অনুসন্ধান করতে হবে কত সময়
  3. দৈত্য ম্যাট্রিক্সকে উল্টানোর গণনা ব্যয়

আমার প্রতিক্রিয়াটি "বৃহত্তর" উপর ভিত্তি করে পয়েন্ট 1 এর প্রতি শ্রদ্ধা রেখেছিলেন This এটি কারণ এটি সাধারণত আপনার বৈষম্য হ্রাস করার পক্ষপাতদুষ্টে বাণিজ্য বন্ধের পক্ষে মূল্যবান। বায়াস কেবল "ইন-দ্য লং-রান" গুরুত্বপূর্ণ। সুতরাং আপনার যদি একটি ছোট নমুনা থাকে, তবে কে "দ্য লং-রান" সম্পর্কে যত্নশীল?

উপরের সমস্ত কিছু বলার পরে,R2R2

আদর্শভাবে এই "ভবিষ্যদ্বাণী ত্রুটি" আপনার মডেলিং পরিস্থিতির প্রেক্ষাপটের ভিত্তিতে হওয়া উচিত। আপনি মূলত "আমার মডেল কীভাবে ডেটা পুনরুত্পাদন করে?" এই প্রশ্নের উত্তর দিতে চান। আপনার পরিস্থিতির প্রেক্ষাপট আপনাকে সত্যিকারের বিশ্বে "কতটা ভাল" বোঝায় তা বলতে সক্ষম হওয়া উচিত। এরপরে আপনাকে এটিকে কোনও ধরণের গাণিতিক সমীকরণে অনুবাদ করতে হবে।

PRESS=i=1N(YiY^i,i)2
Y^i,iYiYiNTMG=TMNg=N×MT
PRESS=g=1Gi=1Ng(YigY^ig,g)2
βLASSOβUNCONSTRAINED

3
kp>n>1

1

আর প্যাকেজ এইচডিএম এবং স্টাটা প্যাকেজ লসোপ্যাক লসোর জন্য একটি যৌথ তাত্পর্য পরীক্ষা সমর্থন করে। তত্ত্বটি ভবিষ্যদ্বাণীকারীদের পর্যবেক্ষণের সংখ্যার তুলনায় বৃহত্তর হওয়ার অনুমতি দেয়। পরীক্ষার পিছনে তত্ত্ব এবং কীভাবে এটি প্রয়োগ করা যায় তা এইচডিএম ডকুমেন্টেশনে সংক্ষেপে ব্যাখ্যা করা হয়েছে । সংক্ষেপে, এটি তত্ত্ব-চালিত দন্ডের জন্য কাঠামোর ভিত্তিতে (বেলোনি, চেরনোজুভকভ এবং হ্যানসেন, ইত্যাদি আল দ্বারা নির্মিত)। অন্তর্নিহিত তত্ত্ব সম্পর্কে আরও জানতে চাইলে এই কাগজটি একটি ভাল সূচনার পয়েন্ট। একমাত্র ক্ষতিটি হ'ল পরীক্ষাটি কেবল লাসো এবং (স্কোয়ার-রুট লাসো) জন্য কাজ করে। অন্যান্য দণ্ডিত রিগ্রেশন পদ্ধতির জন্য নয়।

বেলোনি, এ, চেন, ডি, চেরনোজুকভ, ভি। এবং হ্যানসেন, সি। (২০১২), বিশিষ্ট ডোমেনের জন্য অ্যাপ্লিকেশন সহ অনুকূল সরঞ্জামগুলির জন্য স্পার মডেল এবং পদ্ধতি। ইকোনোমেট্রিকা, 80: 2369-2429।


দয়া করে কাগজের পুরো রেফারেন্স যুক্ত করুন (একটি লিঙ্কটি মারা যেতে পারে)
এন্টোইন
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.