কমপক্ষে স্কোয়ারের গুণনক্ষেত্রগুলি বাদ দিয়ে স্পারসিটি


14

ধরুন আমি প্রত্যাবর্তন করতে ইচ্ছুক একটি সাধারণ বিরুদ্ধে , কিন্তু আমি একটি বিক্ষিপ্ত সমাধান চাই। রিগ্রেশন হওয়ার পরে, কেন ক্ষুদ্রতম মাত্রার সহগকে বাতিল করা হচ্ছে না?YX

রেকর্ডের জন্য, আমি LARS এবং লাসো পদ্ধতিগুলি শুনেছি এবং প্রায়শই ব্যবহার করি। আমি কেবল কৌতূহল বোধ করি কেন উপরের পদ্ধতিটি প্রযোজ্য নয়।


2
+1 এই সাধারণ প্রশ্নগুলি শক্ত হতে পারে - তারা মৌলিক ধারণাগুলি সম্পর্কে কঠোরভাবে চিন্তাভাবনা করে।
শুক্র

উত্তর:


14

অরথনোরমাল হলে কোনও সমস্যা হবে না । তবে, ব্যাখ্যামূলক ভেরিয়েবলগুলির মধ্যে দৃ strong় সম্পর্কের সম্ভাবনা আমাদের বিরতি দেওয়া উচিত।X

আপনি যখন ন্যূনতম-স্কোয়ার রিগ্রেশনটির জ্যামিতিক ব্যাখ্যা বিবেচনা করেন , তখন পাল্টা উদাহরণগুলি সহজেই আসে। নিন , have বলতে, প্রায় স্বাভাবিকভাবে বিতরণ কোফিসিয়েন্টস এবং প্রায় এটা সমান্তরাল হবে। কে এবং দ্বারা উত্পন্ন প্লেনটির orthogonal হতে দিন । আমরা কোনও কল্পনা করতে পারি যা মূলত দিকের দিকে থাকে তবে তবুও বিমানের উত্স থেকে অপেক্ষাকৃত অল্প পরিমাণে স্থানচ্যুত হয় । যেহেতু এবং প্রায় সমান্তরাল, তাই এই এর উপাদানগুলির উভয়ই বৃহত সহগ থাকতে পারে, যার ফলে আমাদের ফেলে দিতে পারেX1X2X3X1X2YX3X1,X2X1X2X3 , যা একটি বিশাল ভুল হবে।

জ্যামিতিটি সিমুলেশন দিয়ে তৈরি করা যেতে পারে যেমন এই Rগণনাগুলি সম্পাদন করে :

set.seed(17)
x1 <- rnorm(100)               # Some nice values, close to standardized
x2 <- rnorm(100) * 0.01 + x1   # Almost parallel to x1
x3 <- rnorm(100)               # Likely almost orthogonal to x1 and x2
e <- rnorm(100) * 0.005        # Some tiny errors, just for fun (and realism)
y <- x1 - x2 + x3 * 0.1 + e  
summary(lm(y ~ x1 + x2 + x3))  # The full model
summary(lm(y ~ x1 + x2))       # The reduced ("sparse") model

এর ভেরিয়ানস পাসে যথেষ্ট যে আমরা আদর্শায়িত কোফিসিয়েন্টস জন্য প্রক্সিগুলির যেমন ফিট কোফিসিয়েন্টস পরিদর্শন করতে পারেন। পুরো মডেলে সহগগুলি 0.99, -0.99, এবং 0.1 (সমস্ত অত্যন্ত তাৎপর্যপূর্ণ) হয়, সাথে ক্ষুদ্রতর (বহুদূর দ্বারা) নকশার দ্বারা যুক্ত । অবশিষ্ট অবধি ত্রুটি 0.00498। হ্রাসকৃত ("স্পার্স") মডেলটিতে 0.09803 এ অবশিষ্ট অবধি স্ট্যান্ডার্ড ত্রুটিটি গুণ বেশি: এক বৃহত্তর বৃদ্ধি যা ক্ষুদ্রতম মানক সহগের সাথে ভেরিয়েবল বাদ দেওয়ার মাধ্যমে সম্পর্কে প্রায় সমস্ত তথ্যের ক্ষতির প্রতিফলন ঘটায় । থেকে অবনমিত হয়েছে 1 X 3 20 Y আর 2 0.9975 0.38Xi1X320YR20.9975প্রায় শূন্য। কোনটিই গুণফল স্তরের চেয়ে ভাল তাৎপর্যপূর্ণ নয় ।0.38

স্ক্যাটারপ্লট ম্যাট্রিক্স সমস্ত প্রকাশ করে:

X1, x2, x3 এবং y এর স্ক্যাটারপ্ল্লট ম্যাট্রিক্স

এবং y এর মধ্যে দৃ corre় সম্পর্কটি নীচের ডানদিকে পয়েন্টের লিনিয়ার প্রান্তিককরণ থেকে স্পষ্ট। এক্স 1 এবং y এবং x 2 এবং y এর মধ্যে দুর্বল সম্পর্কটি অন্য প্যানেলের বৃত্তাকার স্ক্র্যাটার থেকে সমানভাবে পরিষ্কার। তা সত্ত্বেও, ক্ষুদ্রতম প্রমিত সহগ জন্যে এক্স 3 বদলে করার এক্স 1 বা এক্স 2x3yx1yx2yx3x1x2


2

আমার কাছে মনে হয় যে যদি একটি আনুমানিক গুণফল 0 এর কাছাকাছি হয় এবং ডেটাটিকে স্বাভাবিক করা হয় যে পরিবর্তনশীলটিকে ত্যাগ করে ভবিষ্যদ্বাণীটি ক্ষতিগ্রস্থ হবে না। অবশ্যই সহগগুলি যদি পরিসংখ্যানগতভাবে তাত্পর্যপূর্ণ না হত তবে মনে হবে কোনও সমস্যা নেই। তবে এটি অবশ্যই সাবধানে করা উচিত I IV গুলি পারস্পরিক সম্পর্কযুক্ত হতে পারে এবং একটি অপসারণ করা অন্যের সহগকে পরিবর্তন করতে পারে। আপনি যদি এভাবে বেশ কয়েকটি ভেরিয়েবলগুলি পুনরায় ব্যবহার শুরু করেন তবে এটি আরও বিপজ্জনক হয়ে ওঠে। সাবসেট নির্বাচন পদ্ধতিগুলি এ জাতীয় সমস্যা এড়াতে এবং ভেরিয়েবলগুলি অন্তর্ভুক্ত এবং বাদ দেওয়ার জন্য বুদ্ধিমান মানদণ্ড ব্যবহার করার জন্য ডিজাইন করা হয়েছে। আপনি যদি ফ্র্যাঙ্ক হ্যারেলকে জিজ্ঞাসা করেন তবে তিনি পদক্ষেপের বিরুদ্ধে ছিলেন procedures আপনি LARS এবং লাসো উল্লেখ করেছেন যা দুটি খুব আধুনিক পদ্ধতি। তবে তথ্যের মানদণ্ড সহ আরও অনেকগুলি রয়েছে যা অনেকগুলি ভেরিয়েবলের প্রবর্তনকে চিন্মিত করে।

আপনি যদি সাবসেট নির্বাচন প্রক্রিয়াটি চেষ্টা করেন যা সম্পর্কে সাবধানতার সাথে অনেকগুলি সাহিত্যের সাথে অধ্যয়ন করা হয়েছে আপনি সম্ভবত এটি দেখতে পাবেন যে এটি এমন একটি সমাধানের দিকে নিয়ে যাবে যা ক্ষুদ্র সহগের সাথে ভেরিয়েবলগুলি পুনর্বিবেচনা করে বিশেষত যদি তারা 0 থেকে পরিসংখ্যানগতভাবে পৃথক হওয়ার জন্য পরীক্ষায় ব্যর্থ হয়।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.