আর ফাংশন এলএম-এ ওজন কীভাবে ব্যবহার করবেন?


21

weightsআর এর lmফাংশনে আর্গুমেন্টটি কীভাবে ব্যবহার করবেন সে সম্পর্কে কেউ কি কিছু পয়েন্টার সরবরাহ করতে পারেন ? বলুন, উদাহরণস্বরূপ, আপনি ট্র্যাফিক ডেটাতে একটি মডেল ফিট করার চেষ্টা করছেন এবং আপনার কয়েকশো সারি রয়েছে, যার প্রত্যেকটিতেই একটি শহর প্রতিনিধিত্ব করে (আলাদা জনসংখ্যা সহ)। যদি আপনি মডেলটি জনসংখ্যার আকারের উপর ভিত্তি করে প্রতিটি পর্যবেক্ষণের আপেক্ষিক প্রভাবকে সামঞ্জস্য করতে চান, আপনি কেবল উল্লেখ করতে পারবেন weights=[the column containing the city's population]? এটা কি ভেক্টর বাছাই করা যেতে পারে weights? অথবা আপনার পুরোপুরি কোনও আলাদা আর ফাংশন / প্যাকেজ / পদ্ধতির ব্যবহার করতে হবে?

লোকেরা কীভাবে এটি মোকাবেলা করে তা শুনতে আগ্রহী - এটি আমি যে লিনিয়ার মডেলিংয়ের টিউটোরিয়ালে দেখেছি তাতে কোনও এটি কভার করা দেখেনি। ধন্যবাদ!

উত্তর:


17

আমি মনে করি lmআপনার প্রশ্নের উত্তরের আর সহায়ক পৃষ্ঠাটি বেশ ভাল। ওজনের একমাত্র প্রয়োজন হ'ল ভেক্টর সরবরাহ করা অবশ্যই ডেটার সমান দৈর্ঘ্য হতে হবে। আপনি এমনকি ডেটা সেটে কেবলমাত্র ভেরিয়েবলের নাম সরবরাহ করতে পারবেন, আর বাকী, এনএ ম্যানেজমেন্ট ইত্যাদির যত্ন নেবে আপনি weightযুক্তিতে সূত্রগুলিও ব্যবহার করতে পারেন । এখানে উদাহরণ:

x <-c(rnorm(10),NA)
df <- data.frame(y=1+2*x+rnorm(11)/2, x=x, wght1=1:11)

## Fancy weights as numeric vector
summary(lm(y~x,data=df,weights=(df$wght1)^(3/4))) 

# Fancy weights as formula on column of the data set
summary(lm(y~x,data=df,weights=I(wght1^(3/4))))

# Mundane weights as the column of the data set
summary(lm(y~x,data=df,weights=wght1))

নোট করুন যে ওজনগুলি অবশ্যই ইতিবাচক হতে হবে, অন্যথায় আর একটি ত্রুটি তৈরি করবে।


তবে ওজন কি এক হতে হবে? আমার lmসংক্ষিপ্তসারগুলিতে আমি আলাদা ফলাফল পেয়েছি যদি সেগুলি বনাম না
প্যালেস চ্যান

না, ওজন একের বেশি হওয়া দরকার না। lmসংক্ষিপ্তসার থেকে আলাদা কী ? সহগ বা মান ত্রুটি?
এমপিক্টাস

অবশিষ্ট এবং তাদের স্ট্যান্ডার্ড ত্রুটি পৃথক তবে সহগ এবং তাদের ত্রুটিগুলি নেই।
প্রাসাদ চান

3

আপনি যা পরামর্শ দেন তা কাজ করা উচিত। দেখুন কি এটি উপলব্ধি করে:

lm(c(8000, 50000, 116000) ~ c(6, 7, 8))
lm(c(8000, 50000, 116000) ~ c(6, 7, 8), weight = c(123, 123, 246))
lm(c(8000, 50000, 116000, 116000) ~ c(6, 7, 8, 8))

দ্বিতীয় লাইন তৃতীয় পর্যবেক্ষণের সদৃশ প্রভাবের অনুরূপ, অন্য দুটি পর্যবেক্ষণের প্রতিটির ওজনের তুলনামূলকভাবে দ্বিগুণ করে একটি পর্যবেক্ষণ করে তৃতীয় লাইনের (প্রথম লাইনের ফলাফলের থেকে পৃথক) হিসাবে একই ইন্টারসেপ্ট এবং opeাল উত্পাদন করে।


আমি চেষ্টা করেছিলাম কিন্তু দেখা গেছে যে summary২ য় এবং ৩ য় লাইনের আউটপুটটি আলাদা, বিশেষত সহগের পি-মানের জন্য, আমি আশ্চর্য হই যে যদি 2 টি স্টেটমেন্ট একই ডেটাসেটকে উল্লেখ করে তবে এটি ঘটবে। আমি এই সম্পর্কে একটি প্রশ্ন পোস্ট stackoverflow.com/questions/10268689/weighted-regression-in-r
lokheart
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.