আমার কিছু ভবিষ্যদ্বাণী খুব আলাদা স্কেলে রয়েছে - লিনিয়ার রিগ্রেশন মডেলটি ফিট করার আগে আমার কি তাদের রূপান্তর করা দরকার?


9

আমি বহু-মাত্রিক ডেটা সেটের উপরে লিনিয়ার রিগ্রেশন চালাতে চাই। তাদের ক্রমের পরিমাণের ক্ষেত্রে বিভিন্ন মাত্রার মধ্যে পার্থক্য রয়েছে। উদাহরণস্বরূপ, মাত্রা 1 এর সাধারণত [0, 1] এর মান সীমা থাকে এবং মাত্রা 2 এর মান 0 ([1000, 1000]) হয়।

বিভিন্ন মাত্রার ডেটা রেঞ্জগুলি একই স্কেলে রয়েছে তা নিশ্চিত করার জন্য আমার কি কোনও রূপান্তর করার দরকার আছে? যদি তা করতে হয়, তবে এই ধরণের রূপান্তরের জন্য কোনও গাইডেন্স রয়েছে?

উত্তর:


15

পরিবর্তনগুলি পরিবর্তন / স্কেলিং প্রতিক্রিয়ার সাথে তাদের সম্পর্ককে প্রভাবিত করবে না

কেন এই সত্য দেখার জন্য, যে অনুমান মধ্যে পারস্পরিক এবং হয় । তারপর মধ্যে পারস্পরিক এবং হয়YXρY(Xa)/b

cov(Y,(Xa)/b)SD((Xa)/b)SD(Y)=cov(Y,X/b)SD(X/b)SD(Y)=1bcov(Y,X)1bSD(X)SD(Y)=ρ

যা পরস্পর সম্পর্কিত সংজ্ঞা এবং তিনটি সত্য থেকে অনুসরণ করে :

  • cov(Y,X+a)=cov(Y,X)+cov(Y,a)=0=cov(Y,X)

  • cov(Y,aX)=acov(Y,X)

  • SD(aX)=aSD(X)

সুতরাং, মডেল ফিটের ক্ষেত্রে (যেমন বা লাগানো মানগুলি) আপনার ভেরিয়েবলগুলি স্থানান্তরিত বা স্কেলিং (উদাহরণস্বরূপ এগুলিকে একই স্কেলে লাগানো) মডেলটি পরিবর্তন করবে নাR2 , যেহেতু লিনিয়ার রিগ্রেশন সহগগুলি ভেরিয়েবলের মধ্যে পারস্পরিক সম্পর্কের সাথে সম্পর্কিত। এটি কেবলমাত্র আপনার রিগ্রেশন সহগের স্কেলগুলিকে পরিবর্তন করবে , আপনি যদি ভবিষ্যদ্বাণীকারীদের রূপান্তর করতে চান তবে আপনি যদি আউটপুটটি ব্যাখ্যা করছেন তখন মনে রাখা উচিত।

সম্পাদনা: উপরেরটি ধরে নিয়েছে যে আপনি বাধা দিয়ে সাধারণ রিগ্রেশন সম্পর্কে কথা বলছেন । এর সাথে সম্পর্কিত আরও কয়েকটি পয়েন্ট (ধন্যবাদ @ কার্ডিনাল):

  • আপনি যখন আপনার ভেরিয়েবলগুলি রূপান্তর করবেন তখন ইন্টারসেপ্ট পরিবর্তন করতে পারে এবং মন্তব্যগুলিতে @ কার্ডিনাল পয়েন্ট হিসাবে উল্লেখ করা হয়েছে যে আপনি যদি আপনার ভেরিয়েবলগুলি পরিবর্তন করেন যখন আপনি মডেল থেকে ইন্টারসেপটি বাদ দেন, তবে আমি ধরে নিয়েছি আপনি যদি না করেন তবে আপনি তা করছেন না একটি ভাল কারণ (যেমন উত্তর দেখুন )।

  • আপনি যদি কোনও উপায়ে আপনার সহগকে নিয়মিত করছেন (যেমন লাসো, রিজ রিগ্রেশন), তবে কেন্দ্রিং / স্কেলিং ফিটের উপর প্রভাব ফেলবে। উদাহরণস্বরূপ, আপনি যদি (রিজ রিগ্রেশন পেনাল্টি) কে শাস্তি দিচ্ছেন তবে মানগুলি কার্যকর করার পরে আপনি যদি কোনও ভেরিয়েবল প্রথম স্থানে একই স্কেলের না হন তবে আপনি সমমানের পুনরুদ্ধার করতে পারবেন না ie একই জরিমানা পুনরুদ্ধার করবে এমন ধ্রুবক একাধিক নেই।βi2

কখন / কেন একজন গবেষক ভবিষ্যদ্বাণীকারীদের রূপান্তর করতে চাইতে পারেন Regarding

একটি সাধারণ পরিস্থিতি (@ পলের পরবর্তী উত্তরগুলিতে আলোচিত) হ'ল গবেষকরা তাদের ভবিষ্যদ্বাণীকারীদের মানক করে দেবেন যাতে সহগের সমস্তগুলি একই স্কেলের হয়। সেক্ষেত্রে বিন্দু অনুমানের আকারটি মোটামুটি ধারণা দিতে পারে যে ভবিষ্যদ্বাণীকারীদের সংখ্যার পরিমাপটি প্রমিত হয়ে গেলে কোন দিকনির্দেশকরা সবচেয়ে বেশি প্রভাব ফেলেন।

একজন গবেষক খুব বড় ভেরিয়েবলগুলি স্কেল করতে পছন্দ করার অন্য কারণটি হ'ল যাতে রিগ্রেশন সহগগুলি অত্যন্ত ক্ষুদ্র স্কেলে না থাকে। উদাহরণস্বরূপ, যদি আপনি অপরাধের হারের ভিত্তিতে কোনও দেশের জনসংখ্যার আকারের প্রভাব দেখতে চান (এর চেয়ে ভাল উদাহরণের কথা ভাবতে পারেন না) তবে আপনি সহগের চেয়ে জনসংখ্যার মূল ইউনিটগুলির চেয়ে লক্ষ লক্ষ লোক পরিমাপ করতে চাইতে পারেন মতো কিছু হতে পারে ।.00000001


দুই দ্রুত মন্তব্য: যদিও পোস্টের শুরুতে সঠিক, এটা সত্য যে কেঁদ্রীকরণ ব্যার্থ হবে যদি কোনো পথিমধ্যে অনুপস্থিত একটি প্রভাব আছে। :) দ্বিতীয়ত, নিয়মিতকরণ ব্যবহার করা হয় তবে কেন্দ্রিং এবং পুনরুদ্ধারের গুরুত্বপূর্ণ প্রভাব রয়েছে । যদিও ওপি এটি বিবেচনা করছে না, তবুও এটি সম্ভবত মনে রাখা একটি কার্যকর পয়েন্ট।
কার্ডিনাল

কেউ যদি ম্যাট্রিক্স স্বরলিপি সহ স্বাচ্ছন্দ্য বোধ করেন তবে পুনরুদ্ধার করার জন্য অদম্যতা সহজেই দেখা যায়। সঙ্গে পূর্ণ ক্রম (সরলীকরণের জন্য), । এখন আমরা যদি দ্বারা প্রতিস্থাপন করি যেখানে তির্যক হয় আমরা পাইXy^=X(XX)1XyXXDD
y~=(XD)((XD)XD)1(XD)y=XD(DXXD)1DXy=X(XX)1Xy=y^.
কার্ডিনাল

@ কার্ডিনাল, আমি এই সত্যটি উল্লেখ করার সিদ্ধান্ত নিয়েছি যে, যদি আপনার অনুমানগুলি নিয়মিত করা হয় তবে কেন্দ্রিককরণ / স্কেলিং প্রভাব ফেলতে পারে। আমি প্রথমে প্রতিরোধ করেছি কারণ আমি ভেবেছিলাম এটি একটি দীর্ঘ পরিবর্তন শুরু করবে যা নিয়মিতকরণের সাথে পরিচিত নয় এমন ব্যক্তিদের বিভ্রান্ত করতে পারে তবে আমি পেয়েছি যে আমি এটিকে তুলনামূলকভাবে সামান্য স্থান দিয়ে সম্বোধন করতে পারব। ধন্যবাদ--
ম্যাক্রো

আমার সমস্ত মন্তব্যগুলি অবশ্যই উত্তরটি আপডেট করা উচিত বলে পরামর্শ দেওয়ার জন্য নয়। বহুবার আমি কেবল উপযুক্ত উত্তরের অধীনে আনুষঙ্গিক মন্তব্যগুলিতে পিছলে যেতে পছন্দ করি সম্পর্কিত কোনও ধারণাগুলি সম্পর্কে যাঁরা কোনও পথিকের পক্ষে আগ্রহী হতে পারে সে সম্পর্কে দুটি ধারণা দিতে পারেন। (+1 টি)
অঙ্কবাচক

ভোট গণনার সাথে মজার কিছু চলছে। আবার, আমার পূর্ববর্তী মন্তব্য করার সময় আমি এটিকে উজ্জীবিত করেছি এবং এটি "গ্রহণ" করে নি। হুম।
মূল

2

তথাকথিত "নরমালাইজেশন" বেশিরভাগ রিগ্রেশন পদ্ধতির একটি সাধারণ রুটিন। দুটি উপায় আছে:

  1. প্রতিটি ভেরিয়েবলকে [-1, 1] সীমানায় ম্যাপ করুন (ম্যাটল্যাবে ম্যাপিনাম্যাক্স।
  2. প্রতিটি ভেরিয়েবল থেকে গড় সরান এবং এর স্ট্যান্ডার্ড ডেভিয়েশন (ম্যাটল্যাব-এ ম্যাপস্ট্যাড) এর উপর ভাগ করুন, অর্থাৎ আসলে "স্বাভাবিক করুন"। সত্যিকারের অর্থ যদি কোনও বিচ্যুতি অজানা থাকে তবে কেবল নমুনা বৈশিষ্ট্যগুলি গ্রহণ করুন: বা যেখানে , , এবং
    X~ij=Xijμiσi
    X~ij=XijXi¯std(Xi)
    E[Xi]=μE[Xi2E[Xi]2]=σ2Xi¯=1Nj=1NXijstd(Xi)=1Nj=1N(Xij2Xi¯2)

যেহেতু লিনিয়ার রিগ্রেশন ভেরিয়েবল রেঞ্জের সাথে খুব সংবেদনশীল তাই আমি সাধারণত সমস্ত ভেরিয়েবলকে স্বাভাবিক করার পরামর্শ দিই যদি আপনার নির্ভরতা সম্পর্কে কোনও পূর্ব জ্ঞান না থাকে এবং আশা করি যে সমস্ত ভেরিয়েবলগুলি আপেক্ষিক গুরুত্বপূর্ণ হয়ে উঠবে।

প্রতিক্রিয়ার পরিবর্তনশীলগুলির ক্ষেত্রেও এটি একই রকম হয়, যদিও এটি তাদের পক্ষে খুব বেশি গুরুত্বপূর্ণ নয়।

নরমালাইজেশন বা স্ট্যান্ডার্ডাইজেশন কেন করছেন? বেশিরভাগ ক্ষেত্রে মডেলের বিভিন্ন ভেরিয়েবলের আপেক্ষিক প্রভাব নির্ধারণের জন্য all সমস্ত ভেরিয়েবল একই ইউনিটে থাকলে এটি অর্জন করা যেতে পারে।

আশাকরি এটা সাহায্য করবে!


আপনি যখন বলছেন লিনিয়ার রিগ্রেশন ভেরিয়েবল রেঞ্জের জন্য খুব সংবেদনশীল তখন আপনার অর্থ কী ? কোন x1,x2,yএই দুই কমান্ড: summary(lm(y~x1+x2))$r.sqএবং summary(lm(y~scale(x1)+scale(x2)))$r.sq- মান যখন আপনি কোফিসিয়েন্টস প্রমিত না এবং আপনি কি - একই মান দিতে, সমতুল্য হইয়া নির্দেশ করে। R2
ম্যাক্রো

আমি সূত্রটিতে সম্পূর্ণরূপে সঠিক ছিলাম না। আমি বোকা বোঝাচ্ছি। যদি আপনি কেবলমাত্র তথ্যের রৈখিক রূপান্তর সম্পাদন করেন তবে রিগ্রেশনটি সর্বদা একরকম হবে ( of অর্থে )। তবে আপনি যদি নির্ধারণ করতে চান যে কোন পরিবর্তনশীলগুলি ক্রুশিয়াল এবং কোনটি প্রায় স্কেল সম্পর্কিত বিষয়। এটি ভেরিয়েবলগুলি স্ট্যান্ডার্ডাইজ করা এবং তাদের মূল স্কেলগুলি ভুলে যাওয়া কেবল দৃ conv়প্রত্যয়ী। সুতরাং আপেক্ষিক প্রভাবগুলি বোঝার ক্ষেত্রে রিগ্রেশন "সংবেদনশীল"। R2
পল

স্পষ্ট করার জন্য ধন্যবাদ, তবে কোন পরিবর্তনশীলগুলি ক্রুশিয়াল এবং কোনটি স্কেল সম্পর্কিত প্রায় গোলমাল তা ভ্যালু দ্বারা প্রায়শই স্থির করা হয় , যা আপনি মানদণ্ড করার সময়ও পরিবর্তন হবে না (অবশ্যই ইন্টারসেপ্ট বাদে)) আমি আপনার বক্তব্যের সাথে একমত যে এটি কাঁচা গুণফলের অনুমানের একটি ভাল ব্যাখ্যা সরবরাহ করে। p
ম্যাক্রো
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.