রিজ রিগ্রেশনকে মানীকরণ সম্পর্কে প্রশ্ন


17

ওহে ছেলেরা আমি এক বা দুটি কাগজপত্র পেয়েছি যা রিজ রিগ্রেশন (বাস্কেটবলের ডেটার জন্য) ব্যবহার করে। যদি আমি একটি রিজ রিগ্রেশন চালাই তবে আমাকে সর্বদা আমার ভেরিয়েবলগুলি মানীকরণ করতে বলা হয়েছিল, তবে আমাকে কেবল এটি করতে বলা হয়েছিল কারণ রিজ স্কেল ভেরিয়েন্ট ছিল (রিজ রিগ্রেশন আসলেই আমাদের কোর্সের অংশ ছিল না, তাই আমাদের প্রভাষক এটির মাধ্যমে স্কিম করেছেন)।

আমি যেসব কাগজপত্র পড়েছি সেগুলি তাদের ভেরিয়েবলগুলি মানক করে না, যা আমি খানিকটা অবাক করেছিলাম। এগুলি ক্রস-ভ্যালিডেশনের মাধ্যমে ল্যাম্বদা (2000-4000 স্তরের কাছাকাছি) এর বড় মূল্যগুলির সাথে শেষ হয়েছিল এবং আমাকে জানানো হয়েছিল যে এটি ভেরিয়েবলগুলি মানীকরণের কারণে নয়।

পরিবর্তনশীল (গুলি) ছেড়ে যাওয়া ঠিক কীভাবে উচ্চ ল্যাম্বডা মানগুলিতে বাড়ে এবং সাধারণভাবে ভেরিয়েবলকে মান না দেওয়ার পরিণতিগুলি কী? আসলেই কি এত বড় ব্যাপার?

কোন সাহায্যের অনেক প্রশংসা করা হয়।

উত্তর:


18

রিজ রিগ্রেশন সহগের আকারের উপর একটি জরিমানা আরোপ করে লিনিয়ার রিগ্রেশনকে নিয়মিত করে। সুতরাং সহগগুলি শূন্যের দিকে এবং একে অপরের দিকে সঙ্কুচিত হয়। তবে যখন এটি ঘটে এবং স্বতন্ত্র ভেরিয়েবলগুলির একই স্কেল না থাকলে সঙ্কুচিত হওয়া ন্যায্য নয়। বিভিন্ন স্কেলযুক্ত দুটি স্বতন্ত্র ভেরিয়েবলের দণ্ডিত শর্তগুলিতে আলাদা অবদান থাকবে, কারণ দণ্ডিত শব্দটি সমস্ত সহগের শ্রেণীর যোগফল। এই জাতীয় সমস্যা এড়ানোর জন্য, প্রায়শই স্বতন্ত্র ভেরিয়েবলগুলি ভেরিয়েন্স 1 এর জন্য কেন্দ্রিক এবং আকারযুক্ত হয়।

[পরে মন্তব্যের জবাব দিতে সম্পাদনা করুন]

আমিটি

ল্যাম্বডা সহ দণ্ডের মেয়াদটি প্রদত্ত ধ্রুবকের চেয়ে কম বা সমান বর্গক্ষেত্রের গুণফলের যোগফলের সাথে বর্গক্ষেত্র ক্ষতির ক্রিয়াটি প্রকাশ করার সমান। তার মানে, বড় ল্যাম্বডা সহগের বর্গক্ষেত্রের জন্য অনেক বেশি স্থান দেয় এবং নীচে ল্যাম্বদা একটি ছোট স্থান দেয়। বড় বা ছোট স্থানের অর্থ সহগের বৃহত্তর বা ছোট পরম মান।

প্রমিতকরণ ব্যবহার না করে, তারপরে মডেলটিকে ফিট করার জন্য সহগের বৃহত পরম মানের প্রয়োজন হতে পারে। অবশ্যই, মডেলটিতে ভেরিয়েবলের ভূমিকার কারণে আমাদের স্বাভাবিকভাবেই একটি বড় গুণফলের মান থাকতে পারে। আমি যা বলেছি তা হল স্কেলিং না করার কারণে এই মানটির একটি কৃত্রিমভাবে স্ফীত মূল্য থাকতে পারে। সুতরাং, স্কেলিং সহগের একটি বড় মানের প্রয়োজনও হ্রাস করে। সুতরাং, ল্যাম্বদার অনুকূল মানটি সাধারণত ছোট হবে, যা গুণফলের স্কোয়ার মানগুলির একটি ছোট যোগফলের সাথে মিলে যায়।


ধন্যবাদ। কীভাবে মানিককরণের ফলে উচ্চতর অনুমান করা টেস্ট-ত্রুটির (ক্রস বৈধকরণের মাধ্যমে) নেতৃত্ব দেওয়া হবে না, এবং এইভাবে একটি উচ্চতর ল্যাম্বডা প্রয়োজন, যদিও?
l_davies93

আমি উত্তরে আমার চিন্তা সংযোজন করেছি
রপাইও

আমি জানি যে এটি একটি পুরানো প্রশ্ন, তবে আপনি কী ব্যাখ্যা করতে পারেন যে কেন টুনিং প্যারামিটারটি বড় হওয়া উচিত, যদি আমরা উদাহরণস্বরূপ আমাদের ডেটাগুলি কিলোমিটার থেকে মিটারে রূপান্তর করি
Leo96

1

যদিও চার বছর দেরীতে হলেও আশা করি যে কেউ এতে উপকৃত হবেন .... আমি যেভাবে বুঝতে পেরেছি, কোফটি স্বতন্ত্র ভেরিয়েবলের (ইউনিট / ডিএক্স) একক পরিবর্তনের জন্য কত টার্গেট ভেরিয়েবল পরিবর্তন করে। আসুন ধরে নেওয়া যাক আমরা ওজন এবং উচ্চতার মধ্যে সম্পর্ক অধ্যয়ন করছি এবং ওজন কেজিতে পরিমাপ করা হয়। আমরা যখন উচ্চতার জন্য কিলোমিটার ব্যবহার করি তখন আপনি বেশিরভাগ ডেটা পয়েন্ট (মানব উচ্চতার জন্য) খুব কাছ থেকে প্যাক করে কল্পনা করতে পারেন। সুতরাং, উচ্চতার একটি ছোট ভগ্নাংশ পরিবর্তনের জন্য ওজনে বিশাল পরিবর্তন হবে (ধরে নিলে ওজনের সাথে ওজন বৃদ্ধি হবে)। Dy / dx অনুপাতটি বিশাল হবে। অন্যদিকে, উচ্চতাটি যদি মিলিমিটারে পরিমাপ করা হয় তবে উচ্চতার গুণাবলীর উপর ডেটা দূরত্বে ছড়িয়ে দেওয়া হবে। উচ্চতার একক পরিবর্তনের ওজনে কোনও উল্লেখযোগ্য পরিবর্তন হবে না ডাই / ডেক্স খুব কম 0 এর কাছাকাছি হবে।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.