কাঁচা বা অরথোগোনাল বহুবর্ষীয় রিগ্রেশন?


22

আমি একটি পরিবর্তনশীল প্রত্যাবর্তন করতে চান সম্মুখের । কাঁচা বা অরথোগোনাল বহুপদী ব্যবহার করে আমার এটি করা উচিত? আমি এগুলি নিয়ে সাইটে যে প্রশ্নটি করেছি সেগুলিতে দেখেছি, তবে এগুলি ব্যবহারের মধ্যে পার্থক্য কী তা আমি সত্যিই বুঝতে পারি না। Yx,x2,,x5

কেন আমি শুধু কোফিসিয়েন্টস পেতে একটি "স্বাভাবিক" রিগ্রেশন ব্যবহার করতে পারবেন না এরβiy=i=05βআমিএক্সআমি (P-মূল্যবোধ ও সব অন্যান্য চমৎকার উপাদান সহ) এর পরিবর্তে কাঁচা বা অরথোগোনাল বহুপদী ব্যবহার করে কিনা তা চিন্তা করতে হবে? এই পছন্দটি আমার কাছে মনে হয় আমি যা করতে চাই তার আওতার বাইরে।

স্ট্যাট বইটিতে আমি বর্তমানে পড়ছি (তিবশিরানী এট আল দ্বারা আইএসএলআর) এই বিষয়গুলির উল্লেখ করা হয়নি। আসলে, তারা একরকমভাবে ডাউনপ্লেড হয়েছিল।
কারণটি, এএফএআইকি, lm()আর এর মধ্যে ফাংশনগুলিতে y ~ poly(x, 2)অর্থোগোনাল পলিনোমিয়ালগুলি ব্যবহার করার y ~ x + I(x^2)পরিমাণ এবং কাঁচা ব্যবহারের পরিমাণ ব্যবহার করে। তবে পিপি। ১১6-এ লেখকরা বলেছেন যে আমরা প্রথম বিকল্পটি ব্যবহার করি কারণ পরেরটি "চটজলদি" যা কোনও নির্দেশ দেয় না যে এই আদেশগুলি আসলে সম্পূর্ণ আলাদা জিনিস (এবং ফলাফল হিসাবে বিভিন্ন আউটপুট রয়েছে)।
(তৃতীয় প্রশ্ন) আইএসএলআর এর লেখকরা কেন তাদের পাঠকদের এমনভাবে বিভ্রান্ত করবেন?


1
@ সাইকোরাক্স আমি জানি যে polyঅরথোগোনাল পলিনোমিয়ালগুলির সাথে কিছু করার আছে এবং আমি (x ^ 2) জানি না (যদিও আমি বিশদগুলি জানি না) - তবে এখনও, কেন আইএসএলআরের লেখকরা এমন একটি পদ্ধতির প্রস্তাব দিবেন যা কার্যকর হয় না? ? উভয় কমান্ড একইরকম মনে হয় তবে এটি কেবল একটি বিভ্রান্তিকর বলে মনে হচ্ছে তবে কেবলমাত্র একটি ঠিক আছে।
l7ll7

1
@ গুং আমি polyএই সমস্যার সাথে ডকুমেন্টেশনের দিকে নজর দিয়েছি এবং ইতিমধ্যে কিছুটা সময় ব্যয় করেছি তবে আমি বুঝতে পারি না যে পলি (এক্স, ২) এবং এক্স + আই (এক্স ^ 2) কেন পার্থক্য রাখে? আপনি দয়া করে এখানে মন্তব্যগুলিতে আলোকিত করতে পারেন, যদি প্রশ্নটি অফটোপিক হয়?
l7ll7

1
@ গুং আমি আমার প্রশ্নের সম্পূর্ণ সম্পাদনা করেছি। এই পছন্দটি কাঁচা / অরথোগোনাল আমাকে আরও বিভ্রান্ত করছে - পূর্বে আমি ভেবেছিলাম এটি কেবল একটি সামান্য Rপ্রযুক্তি ছিল, যা আমি বুঝতে পারি নি, তবে এখন এটি একটি পূর্ণাঙ্গ স্ট্যাট সমস্যা বলে মনে হচ্ছে যা আমাকে রিগ্রেশন কোডিং করতে বাধা দেয় যা উচিত নয় should কোড করা যে কঠিন।
l7ll7

2
@ গুং যা আমাকে সাহায্য করেছিল তার চেয়ে বেশি বিভ্রান্ত করেছে। পূর্বে আমি ভেবেছিলাম যে আমার কেবল অर्थোগোনাল বহুবর্ষ নিয়েই যাওয়া উচিত, কারণ এটি সঠিক পথ বলে মনে হয়েছিল, তবে সেই উত্তরে কাঁচা বহুপদী ব্যবহার করা হয়েছে। চমকপ্রদভাবে, নেটের প্রত্যেকে "আরটিএফএম" চিৎকার করছে, তবে আসলে কোনটি ব্যবহার করতে হবে তার স্পষ্ট উত্তর নেই। (আপনার
লিঙ্কটিও এর

2
আপনি যদি কোনও শারীরিক বা ইঞ্জিনিয়ারিং ডোমেনে কাজ না করেন তবে প্রতিক্রিয়াটি এক কুইন্টিক বহুবচন হতে পারে, তবে অবশ্যই অবশ্যই প্রথম স্থানে বহুবর্ষীয় রিগ্রেশন না করাই সঠিক উপায়। আপনার স্বাধীনতার ডিগ্রিগুলি একটি স্প্লাইন বা এমন কিছুতে বিনিয়োগ করুন যা বহুবর্ষীয় ফিটের চেয়ে অনেক বেশি নমনীয় এবং স্থিতিশীল হবে।
whuber

উত্তর:


10

আমি বিশ্বাস করি যে উত্তরটি সংখ্যার স্থায়িত্ব সম্পর্কে কম (যদিও এটি একটি ভূমিকা পালন করে) এবং পারস্পরিক সম্পর্ক হ্রাস সম্পর্কে আরও বেশি।

সংক্ষেপে - বিষয়টি এই বিষয়টিতে ফোটে যে আমরা যখন একগুচ্ছ উচ্চতর অর্ডার পলিনোমিয়ালের বিরুদ্ধে প্রতিক্রিয়া জানাই, তখন আমরা যে সমবায়ীয়দের বিরুদ্ধে প্রতিরোধ করছি তা অত্যন্ত সংযুক্ত হয়ে পড়ে lated নীচের উদাহরণ কোড:

x = rnorm(1000)
raw.poly = poly(x,6,raw=T)
orthogonal.poly = poly(x,6)
cor(raw.poly)
cor(orthogonal.poly)

এটি অত্যন্ত গুরুত্বপূর্ণ। যেহেতু কোভেরিয়েটগুলি আরও সম্পর্কিত হয়, কোনটি গুরুত্বপূর্ণ (এবং তার প্রভাবগুলির আকার কী) তা নির্ধারণ করার জন্য আমাদের ক্ষমতা দ্রুত ক্ষয় হয়। এটি সাধারণত বহুবিধ লাইন সমস্যা হিসাবে চিহ্নিত করা হয়। সীমাতে, যদি আমাদের দুটি ভেরিয়েবল থাকে যা সম্পূর্ণরূপে সম্পর্কিত হয়, যখন আমরা কোনও কিছুর বিরুদ্ধে তাদের প্রতিরোধ করি, তখন দুটির মধ্যে পার্থক্য করা অসম্ভব - আপনি এটিকে সমস্যার চূড়ান্ত সংস্করণ হিসাবে ভাবতে পারেন, তবে এই সমস্যাটির জন্য আমাদের অনুমানকে প্রভাবিত করে পারস্পরিক সম্পর্ক কম ডিগ্রী। সুতরাং প্রকৃত অর্থে - এমনকি সংখ্যাসূচক অস্থিরতা কোনও সমস্যা না হলেও - উচ্চতর ক্রমের বহুপদী থেকে পারস্পরিক সম্পর্ক আমাদের অনুমিতি রুটিনগুলিকে অসাধারণ ক্ষতি করে। এটি বৃহত্তর স্ট্যান্ডার্ড ত্রুটিগুলি (এবং এভাবে ছোট টি-পরিসংখ্যান) হিসাবে প্রকাশ করবে যা আপনি অন্যথায় দেখতে পাবেন (নীচে উদাহরণস্বরূপ রিগ্রেশন দেখুন)।

y = x*2 + 5*x**3 - 3*x**2 + rnorm(1000)
raw.mod = lm(y~poly(x,6,raw=T))
orthogonal.mod = lm(y~poly(x,6))
summary(raw.mod)
summary(orthogonal.mod)

আপনি যদি এই কোডটি চালনা করেন তবে ব্যাখ্যাটি একটি স্পর্শকাতর কারণ সহগের সমস্ত পরিবর্তন হয় এবং তাই জিনিসগুলির তুলনা করা শক্ত। যদিও টি-পরিসংখ্যানগুলির দিকে তাকানো, আমরা দেখতে পাচ্ছি যে গুণফলগুলি নির্ধারণের দক্ষতা অরথোগোনাল বহুবর্ষের সাথে অনেক বড় ছিল। 3 প্রাসঙ্গিক সহগের জন্য, আমি অর্থোগোনাল মডেলটির (560,21,449) টি, এবং কাঁচা বহুবর্ষীয় মডেলের জন্য (28, -38,121) টি স্ট্যাটাস পেয়েছি। এটি কেবলমাত্র কয়েকটি অপেক্ষাকৃত নিম্ন অর্ডারের বহুপদী শর্তাবলী সহ একটি সাধারণ মডেলের জন্য একটি বিশাল পার্থক্য।

এটি ব্যয় ছাড়াই আসে না তা বলে। মনে রাখতে হবে দুটি প্রাথমিক ব্যয়। 1) আমরা অরথোগোনাল বহুবর্ষের সাথে কিছু ব্যাখ্যা হারাতে পারি। সহগের x**3অর্থ কী তা আমরা বুঝতে পারি , তবে সহগের ব্যাখ্যা x**3-3x(তৃতীয় হার্মাইট পলি - আপনি কী ব্যবহার করবেন তা অগত্যা নয়) আরও কঠিন হতে পারে। দ্বিতীয় - যখন আমরা বলি যে এগুলি বহুপথগুলি অরথোগোনাল - তখন আমরা বোঝাতে পারি যে তারা কিছুটা দূরত্বের ক্ষেত্রে সম্মোহক th আপনার অবস্থার সাথে প্রাসঙ্গিক কিছু দূরত্ব বাছাই করা কঠিন হতে পারে। যাইহোক, এই কথাটি বলে, আমি বিশ্বাস করি যে polyফাংশনটি এমনটি বেছে নেওয়ার জন্য ডিজাইন করা হয়েছে যা এটি প্রচলিত সম্মানের সাথে সম্পর্কিত - এটি লিনিয়ার রিগ্রেশনগুলির জন্য দরকারী।


3
-1। আপনি নিম্ন অর্ডার সহগগুলিতে যে বৃহত্তর স্ট্যান্ডার্ড ত্রুটিগুলি দেখেন তা হ'ল একটি লাল রঙের হেরিং। আপনার দুটি মডেলের নিম্নতর ক্রমের সহগগুলি সম্পূর্ণ ভিন্ন জিনিস অনুমান করছে, সুতরাং তাদের স্ট্যান্ডার্ড ত্রুটির তুলনা করা কোনও অর্থহীন নয়। উভয় মডেলের মধ্যে একই জিনিসটির অনুমান কেবলমাত্র সর্বোচ্চ অর্ডার সহগ, এবং আপনি দেখতে পাবেন যে টি স্ট্যাটিস্টিকগুলি বহুভুজগুলি অরথগোনাল কিনা তা অভিন্ন। আপনার দুটি মডেল লাগানো মানগুলি, আর ^ 2 ইত্যাদির ক্ষেত্রে পরিসংখ্যানগতভাবে সমান, তারা মূলত কেবল সহগের ব্যাখ্যাতে আলাদা
জেক ওয়েস্টফল

@ জ্যাকওয়েস্টফল, আমি মনে করি না আমি আপনার সাথে একমত। প্রথমত, কোডটি চালানো মানগুলি উত্পন্ন করে যা বহুপদী আদেশগুলির জন্য পৃথক, সমস্ত এক নয় - মূলত এটি বহুপদী নেয় এবং এটিতে পিসিএ করে। দ্বিতীয়ত, এবং আরও গুরুত্বপূর্ণ, টি-পরিসংখ্যানগুলি যথেষ্ট আলাদা - আমার উত্তরে কোডটি চালানো নিশ্চিত করবে - কার্যত আমরা বহুজাতিক line সমস্যাটি সমাধান করছি। আপনি ঠিক বলেছেন যে মানযুক্ত মান, আর ^ 2, এফ-পরীক্ষা ইত্যাদি পরিবর্তন হয় না। প্রকৃতপক্ষে অরথোগোনালাইজ করার কারণ - এটি বহুবর্ষের শর্তাদি সনাক্ত করার জন্য আমাদের ক্ষমতা ব্যতীত কিছুই পরিবর্তন করে না ।
ব্যবহারকারী5957401

1
পুনঃপ্রথম বিন্দু, দুঃখিত, আমি বোঝাতে চেয়েছি সর্বোচ্চ অর্ডার টার্মের টি-স্ট্যাটকে বোঝানো হয়েছে, এর সহগ নয়। সেই ভবিষ্যদ্বাণীকারীকে ছোট করা হবে + মডেলগুলির মধ্যে স্থানান্তরিত করা হয়েছে, তাই হ্যাঁ কয়ফ পরিবর্তন হয় তবে এটি একই সংক্ষিপ্ত প্রভাব পরীক্ষা করে, যেমন টি
জ্যাক ওয়েস্টফল

পুনরায়: দ্বিতীয় পয়েন্ট, নিম্ন-আদেশের শর্তগুলির জন্য "টি-স্ট্যাটাসগুলি যথেষ্ট আলাদা" কারণটি আবার, কারণ তারা দুটি মডেলের সম্পূর্ণ ভিন্ন জিনিস অনুমান করছে। রৈখিক প্রভাব বিবেচনা করুন: raw.modএটিতে x = 0 এ বক্ররেখার orthogonal.modestimaাল অনুমান করে, এতে প্রান্তিক estimaাল (যেমন lm(y ~ poly(x,1))উচ্চতর-শর্তাবলী বাদ দেওয়া হয় যেখানে সমান ) অনুমান করে । এই সম্পূর্ণ ভিন্ন অনুমানের তুলনায় তুলনীয় মান ত্রুটি থাকা উচিত বলে কোনও কারণ নেই। সহজেই একটি পাল্টা উদাহরণ তৈরি করা যায় যেখানে raw.modআরও উচ্চতর টি-পরিসংখ্যান রয়েছে
জেক ওয়েস্টফল

@JakeWestfall। আমি এখনও মনে করি আপনি বহুবিধ লাইন মিস করছেন। যাইহোক, আমরা একে অপরের অতীত কথা বলে মনে হচ্ছে, এবং সম্ভবত একটি সমাধান আছে। আপনি বলেছেন যে আপনি সহজেই একটি পাল্টা উদাহরণ তৈরি করতে পারেন, দয়া করে করুন। আমি মনে করি আপনার মনে যে ডিজিপি রয়েছে তা আমার জন্য অনেক স্পষ্ট করে দেবে। এই মুহুর্তে আমি কেবলমাত্র এমন জিনিসগুলি সামনে আসতে সক্ষম হয়েছি যার সাথে আপনি আচরণ করতে পারেন এমন আচরণে গুরুতর মডেলের অপব্যবহার জড়িত।
ব্যবহারকারী5957401

8

সহগগুলি পাওয়ার জন্য আমি কেন একটি "সাধারণ" রিগ্রেশন করতে পারি না?

কারণ এটি সংখ্যাগতভাবে স্থিতিশীল নয়। মনে রাখবেন কম্পিউটার একটি ফ্লোট নম্বর উপস্থাপনের জন্য স্থির সংখ্যা বিট ব্যবহার করে। বিশদগুলির জন্য আইইইই 7575 পরীক্ষা করুন, আপনি আশ্চর্য হতে পারেন যে এমনকি সাধারণ সংখ্যা , কম্পিউটারে এটি 0.4000000059604644775390625 হিসাবে সংরক্ষণ করতে হবে । আপনি এখানে অন্যান্য সংখ্যা চেষ্টা করতে পারেন0.40,4000000059604644775390625

কাঁচা বহুপদী ব্যবহার সমস্যার কারণ হতে পারে কারণ আমাদের বিশাল সংখ্যা হবে। এটি একটি ছোট প্রমাণ: আমরা ম্যাট্রিক্স শর্ত নম্বরটি কাঁচা এবং অরথোগোনাল বহুবর্ষের সাথে তুলনা করছি ।

> kappa(model.matrix(mpg~poly(wt,10),mtcars))
[1] 5.575962
> kappa(model.matrix(mpg~poly(wt,10, raw = T),mtcars))
[1] 2.119183e+13

আপনি উদাহরণ হিসাবে এখানে আমার উত্তর চেক করতে পারেন।

উচ্চতর অর্ডার বহুপদী জন্য কেন সেখানে বড় সহগ আছে?


6
আপনি একক নির্ভুলতা ভাসমান ব্যবহার করছেন এবং যথার্থকে চতুর্মুখী করতে উদ্ধৃত করছেন বলে মনে হচ্ছে! তা কীভাবে হল? জিপিইউ ব্যতীত প্রায় সমস্ত পরিসংখ্যানগত গণনা কমপক্ষে ডাবল স্পষ্টতা ব্যবহার করে। যেমন, Rআউটপুট print(0.4, digits=20)হয় 0.40000000000000002
whuber

6

আমি মনে করি এই উত্তরগুলির বেশ কয়েকটি পুরোপুরি বিন্দুটি মিস করে miss Haitao এর উত্তর ঠিকানাগুলি গণনীয় কাঁচা polynomials ঝুলানো সঙ্গে সমস্যা, কিন্তু এটা পরিষ্কার যে ওপি সম্পর্কে জিজ্ঞাসা করা হয় পরিসংখ্যানগত দুটি পার্থক্য। এটি হ'ল, যদি আমাদের কাছে একটি নিখুঁত কম্পিউটার থাকে যা সমস্ত মানকে হুবহু উপস্থাপন করতে পারে তবে আমরা কেন অন্য পদ্ধতির চেয়ে একটি পদ্ধতির পছন্দ করব?

আর2এক্সওয়াইএক্স=0এক্স=0এক্স

data("iris")

#Raw:
fit.raw <- lm(Petal.Length ~ Petal.Width + I(Petal.Width^2) +
                  I(Petal.Width^3), data = iris)
summary(fit.raw)

#> Coefficients:
#>                  Estimate Std. Error t value Pr(>|t|)    
#> (Intercept)        1.1034     0.1304   8.464 2.50e-14 ***
#> Petal.Width        1.1527     0.5836   1.975  0.05013 .  
#> I(Petal.Width^2)   1.7100     0.5487   3.116  0.00221 ** 
#> I(Petal.Width^3)  -0.5788     0.1408  -4.110 6.57e-05 ***
#> ---
#> Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
#> 
#> Residual standard error: 0.3898 on 146 degrees of freedom
#> Multiple R-squared:  0.9522, Adjusted R-squared:  0.9512 
#> F-statistic: 969.9 on 3 and 146 DF,  p-value: < 2.2e-16

#Orthogonal
fit.orth <- lm(Petal.Length ~ stats::poly(Petal.Width, 3), data = iris)

#Marginal effect of X at X=0 from orthogonal model
library(margins)
summary(margins(fit.orth, variables = "Petal.Width", 
                at = data.frame(Petal.Width = 0)))
#> Warning in check_values(data, at): A 'at' value for 'Petal.Width' is
#> outside observed data range (0.1,2.5)!
#>       factor Petal.Width    AME     SE      z      p  lower  upper
#>  Petal.Width      0.0000 1.1527 0.5836 1.9752 0.0482 0.0089 2.2965

2019-10-25 এ ডিপেক্স প্যাকেজ (v0.3.0) দ্বারা তৈরি করা হয়েছে

Petal.Widthঅরথোগোনাল ফিট থেকে 0 এর প্রান্তিক প্রভাব এবং এর মান ত্রুটি কাঁচা বহুমুখী ফিট থেকে ঠিক তার সমান। অরথোগোনাল পলিনোমিয়ালগুলি ব্যবহার করা দুটি মডেলের মধ্যে একই পরিমাণের অনুমানের নির্ভুলতার উন্নতি করে না।

ওয়াইএক্সওয়াইএক্স

library(jtools)
data("iris")

fit.raw3 <- lm(Petal.Length ~ Petal.Width + I(Petal.Width^2) +
                  I(Petal.Width^3), data = iris)
fit.raw1 <- lm(Petal.Length ~ Petal.Width, data = iris)

round(summ(fit.raw3, part.corr = T)$coef, 3)
#>                    Est.  S.E. t val.     p partial.r part.r
#> (Intercept)       1.103 0.130  8.464 0.000        NA     NA
#> Petal.Width       1.153 0.584  1.975 0.050     0.161  0.036
#> I(Petal.Width^2)  1.710 0.549  3.116 0.002     0.250  0.056
#> I(Petal.Width^3) -0.579 0.141 -4.110 0.000    -0.322 -0.074

round(summ(fit.raw1, part.corr = T)$coef, 3)
#>              Est.  S.E. t val. p partial.r part.r
#> (Intercept) 1.084 0.073 14.850 0        NA     NA
#> Petal.Width 2.230 0.051 43.387 0     0.963  0.963

fit.orth3 <- lm(Petal.Length ~ stats::poly(Petal.Width, 3), 
               data = iris)
fit.orth1 <- lm(Petal.Length ~ stats::poly(Petal.Width, 3)[,1], 
               data = iris)

round(summ(fit.orth3, part.corr = T)$coef, 3)
#>                                Est.  S.E.  t val. p partial.r part.r
#> (Intercept)                   3.758 0.032 118.071 0        NA     NA
#> stats::poly(Petal.Width, 3)1 20.748 0.390  53.225 0     0.975  0.963
#> stats::poly(Petal.Width, 3)2 -3.015 0.390  -7.735 0    -0.539 -0.140
#> stats::poly(Petal.Width, 3)3 -1.602 0.390  -4.110 0    -0.322 -0.074

round(summ(fit.orth1, part.corr = T)$coef, 3)
#>                                    Est.  S.E. t val. p partial.r part.r
#> (Intercept)                       3.758 0.039 96.247 0        NA     NA
#> stats::poly(Petal.Width, 3)[, 1] 20.748 0.478 43.387 0     0.963  0.963

2019-10-25 এ ডিপেক্স প্যাকেজ (v0.3.0) দ্বারা তৈরি করা হয়েছে

0.0010,0030.0050,9270,9270,0200.0050,927। অরথোগোনাল বহুবর্ষীয় মডেল থেকে নয় তবে কাঁচা বহুপদী মডেল থেকে, আমরা জানি যে পরিণামে বর্ণিত বেশিরভাগ বৈচিত্রটি লিনিয়ার টার্মের কারণে হয়, বর্গাকার শব্দ থেকে খুব কম আসে এবং কিউবিক শব্দ থেকেও কম হয়। কাঁচা বহুপদী মানগুলি সেই গল্পটি বলে না।

এখন, আপনি যদি মডেলের সহগগুলি বুঝতে সক্ষম হবার জন্য ইন্টারপেশেশনাল বেনিফিটের তুলনায় এই ব্যাখ্যামূলক সুবিধাটি চান তবে আপনার অরথোগোনাল বহুভুজ ব্যবহার করা উচিত। আপনি যদি সহগের দিকে নজর দিতে পছন্দ করেন এবং সেগুলির অর্থ ঠিক কীভাবে জানতে চান (যদিও আমি সন্দেহ করি যে এটি সাধারণত একটি করে)) তবে আপনার কাঁচা বহুপদী ব্যবহার করা উচিত। আপনি যদি যত্ন না করেন (যেমন, আপনি কেবল বিভ্রান্তির জন্য নিয়ন্ত্রণ করতে চান বা পূর্বাভাসিত মানগুলি উত্পন্ন করতে চান), তবে এটি সত্যিকার অর্থে কোনও ব্যাপার নয়; উভয় ফর্মগুলি সেই লক্ষ্যগুলির প্রতি সম্মান সহ একই তথ্য বহন করে। আমি আরও যুক্তি দিয়ে বলব যে নিয়মিতকরণ (যেমন, লাসো) এ অরথগোনাল বহুবৈচিত্র্যকে অগ্রাধিকার দেওয়া উচিত, কারণ উচ্চ-অর্ডার শর্তাদি অপসারণ করা নিম্নতর শর্তাবলীর সহগকে প্রভাবিত করে না, যা কাঁচা বহুবর্ষের সাথে সত্য নয়,


1
দুর্দান্ত অবদান। আমি আপনার প্রান্তিক ফলাফলগুলি প্রতিলিপি করতে পারি না (যখন আমি আপনার কোডের প্রথম ব্লকটি চালানোর চেষ্টা করি তখন মার্জিন ফাংশনটি পলি সম্পর্কে একটি ত্রুটি দেখায় - আমি মার্জিন প্যাকেজটির সাথে পরিচিত নই) - তবে তারা আমার প্রত্যাশাটি ঠিক তাই করে। একটি ছোট পরামর্শ হিসাবে - আপনারও কাঁচা মডেলটিতে মার্জিন বিশ্লেষণের আউটপুট অন্তর্ভুক্ত করা উচিত। আপনার যুক্তি সংক্ষিপ্ত থেকে মার্জিন ফাংশনগুলিতে পি-ভ্যালু পরিবর্তনের মাধ্যমে (সামান্য) হ্রাস পেয়েছে (আমাদের সিদ্ধান্তগুলি আর কম নয়!) - যা বিতরণ করার পরিবর্তে কোনও সাধারণ ব্যবহারের কারণে ঘটেছে বলে মনে হয়। আপনার নিয়মিতকরণ পয়েন্টটি দুর্দান্ত।
ব্যবহারকারী5957401

1
সদয় শব্দগুলির জন্য আপনাকে ধন্যবাদ। আমার মনে হয় আপনি অন্তর্ভুক্ত করা আছে stats::করার কলে poly()মধ্যে lm()জন্য marginsএটি স্বীকার করতে (যা মূঢ়)। আমি আমার যুক্তিটি বিন্দু অনুমান এবং স্ট্যান্ডার্ড ত্রুটিগুলিতে ফোকাস করতে চেয়েছিলাম এবং আমি জানি প্রচুর পরিমাণে বহিরাগত এবং বিভ্রান্তিকর তথ্য উপস্থাপন করা হয়েছে তবে আমি আশা করি পাঠ্যটি আমার পয়েন্টগুলি চিত্রিত করে।
নোয়া

এটা না. আমি আপনার কোডটি ঠিক অনুলিপি করেছি এবং আপনি ব্যবহার করেন stats::poly()। ত্রুটিটি বলে 'degree' must be less than number of unique points- যা আমাকে খুব বেশি উপকার করে না। তবুও, margin()প্রমাণযোগ্য বিবৃতি ব্যাক আপ করা হয় তাই এটি গুরুত্বপূর্ণ নয়।
ব্যবহারকারী5957401

4

আমি @ user5957401 এর থেকে দুর্দান্ত প্রতিক্রিয়াটি সংবিধানিত করি এবং আন্তবিচ্ছিন্নতা, এক্সট্রাপোলেশন এবং প্রতিবেদনের বিষয়ে মন্তব্য যুক্ত করি।

এমনকি স্থিতিশীল প্যারামিটার মানগুলির ডোমেনেও, অরথোগোনাল পলিনোমিয়ালগুলি দ্বারা মডেল করা গুণাগুণগুলি / পরামিতিগুলির কাঁচা পরামিতিগুলির মডেলিং সহগ / পরামিতিগুলির তুলনায় যথেষ্ট ছোট স্ট্যান্ডার্ড ত্রুটি থাকবে। মূলত, অরথোগোনাল বহুবচনগুলি শূন্য-কোভেরিয়েন্স বর্ণনাকারীর একটি মুক্ত সেট। এটি পিসিএ বিনামূল্যে!

একমাত্র সম্ভাব্য ত্রুটিটি এমন ব্যক্তির কাছে এটি ব্যাখ্যা করে যা শূন্য-সমবায় বর্ণনাকারীর গুণাবলী বোঝে না। প্রথম ক্রমের (বেগের মতো) বা দ্বিতীয় ক্রমের (ত্বরণের মতো) প্রভাবগুলির প্রসঙ্গে সহগগুলি তাত্ক্ষণিকভাবে ব্যাখ্যাযোগ্য নয় । এটি ব্যবসায়ের সেটিংয়ে বেশ জঘন্য হতে পারে।

একটি ডিগ্রি -5 বহুপদী, এন = 1000 পয়েন্ট, এলোমেলো প্যারামিটার মানগুলির সাথে একটি দ্রুত সিমুলেশন (এর মাধ্যমে ছোট 10- প্রতিক্রিয়াটি 2 মাত্রার অর্ডারের মধ্যে পরিবর্তনশীল রাখতে) এবং নিরবিচ্ছিন্ন আওয়াজ ~ প্রতিক্রিয়া ভেরিয়েবল অর্ধেক সামগ্রিক প্রকরণ, আর2দুটি মডেলের মধ্যে একই ছিল। তাই ছিলএকটি আর2'S। ভবিষ্যদ্বাণীমূলক শক্তি একই। তবে অরথোগোনাল মডেলের জন্য প্যারামিটার মানগুলির স্ট্যান্ডার্ড ত্রুটিগুলি কাঁচা মডেলের নীচে প্রস্থের সমান বা অর্ডার ছিল।

সুতরাং আমি কাঁচাটির চেয়ে অर्थোগোনাল মডেলটির প্রতিবেদন করা আরও আত্মবিশ্বাসী হয়ে উঠব। বাস্তবে, আমি চাই ঢুকান পারেন মডেলের, কিন্তু আমি চাই দূরদর্শন শুধুমাত্র লম্ব এক সঙ্গে।


1

আমি কেবল এটি উল্লেখ করার জন্য মন্তব্য করব, তবে আমার পর্যাপ্ত প্রতিনিধি নেই, তাই আমি একটি উত্তরে প্রসারিত করার চেষ্টা করব। আপনি দেখতে আগ্রহী হতে পারেন যে "স্ট্যাটিস্টিকাল লার্নিংয়ের ভূমিকা" (জেমস এট। আল।, 2017, সংশোধিত 8 তম মুদ্রণ) এর ল্যাব বিভাগ 7.8.1 এ তারা অরথোগোনাল পলিনোমিয়াল ব্যবহার করার মধ্যে কিছু পার্থক্য নিয়ে আলোচনা করেছেন যা ব্যবহার করছে raw=TRUEবা raw=FALSEpoly()ফাংশন। উদাহরণস্বরূপ, সহগের প্রাক্কলনগুলি পরিবর্তন হবে, তবে উপযুক্ত মানগুলি:

# using the Wage dataset in the ISLR library
fit1 <- lm(wage ~ poly(age, 4, raw=FALSE), data=Wage)
fit2 <- lm(wage ~ poly(age, 4, raw=TRUE), data=Wage)
print(coef(fit1)) # coefficient estimates differ
print(coef(fit2))
all.equal(predict(fit1), predict(fit2)) #returns TRUE    

গ্রন্থটিও আলোচনা করেছে যে কীভাবে অर्थোগোনাল বহুপদী ব্যবহার করা হয়, anova()নেস্টেড এফ-টেস্ট ব্যবহার করে প্রাপ্ত পি-ভ্যালুগুলি (ডিগ্রি বহির্মুখটি কীভাবে সুনির্দিষ্ট হতে পারে তা সন্ধান করতে) স্ট্যান্ডার্ড টি-টেস্ট, আউটপুট দ্বারা ব্যবহার করার সময় প্রাপ্তগুলির মতোই হয় summary(fit)। এটি চিত্রিত করে যে এফ-পরিসংখ্যান নির্দিষ্ট পরিস্থিতিতে টি-পরিসংখ্যানের বর্গের সমান।


মন্তব্যগুলি আপনার খ্যাতি সংখ্যা নির্বিশেষে উত্তর হিসাবে কখনই ব্যবহার করা উচিত নয়।
মাইকেল আর চেরনিক

আপনার শেষ পয়েন্টটি সম্পর্কে, এটি অ-orthogonal বহুবর্ষের ক্ষেত্রেও সত্য। গুণাগুণ টি-টেস্টটি এফ-টেস্টের সমতুল্য একটি মডেলের তুলনায় এটির সহগের সাথে এবং সমস্ত মানের সহগামীদের জন্য কোনও মডেলকে রিগ্রেশন (একবারে একবার নেওয়া) ছাড়াই model
নোয়া
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.