ডেটা ট্রান্সফর্ম করার সময় সমস্যাগুলি এড়াতে হবে?


15

দ্বিগুণ প্রতিক্রিয়ার পরিবর্তনের পরে আমি আমার এবং ভেরিয়েবলের মধ্যে একটি শক্তিশালী রৈখিক সম্পর্ক অর্জন করেছি । মডেলটি তবে আমি এটিকে .১৯ থেকে .76 from থেকে rac উন্নত করে rac ফ্র্যাক্স q স্ক্র্যাট to এ রূপান্তরিত করেছি।XYYXYXXR2

স্পষ্টতই আমি এই সম্পর্কে কিছু শালীন অস্ত্রোপচার করেছি। অতিরিক্ত পরিবর্তনের ঝুঁকি বা পরিসংখ্যানগত নীতিগুলি লঙ্ঘন করার মতো কেউ কি এই সমস্যাগুলি নিয়ে আলোচনা করতে পারে?


1
থেকে আপনি কি আছে, একা বীজগণিত থেকে এটা শুধু দেখে মনে হচ্ছে । আপনি কি ডেটা পোস্ট করতে পারেন বা একটি গ্রাফ প্রদর্শন করতে পারেন? X = 0 হলে কি ওয়াই = 0 আশা করার বৈজ্ঞানিক কারণ রয়েছে ? YX2Y=0X=0
নিক কক্স

1
@NickCox: আমার মনে হয় জন্য রীতিবিরুদ্ধ স্বরলিপি ওয়াই = β 0 + + β 1 এক্স ; সম্ভবত ওপি গণিতের চেয়ে আর বলছে (অবশ্যই কিছুটা নিরুৎসাহিত করার জন্য)। YXEY=β0+β1X
Scortchi - পুনর্বহাল মনিকা

@ স্কোর্টচি আমি আশঙ্কা করি আপনি ঠিক বলেছেন। ডেটা দেখে যে কোনও উপায়ে সহায়তা করবে।
নিক কক্স

এক্ষেত্রে একটি 0 এক্স 0 টি বোঝায় যেহেতু ওয়াই মৃত্যু চালাচ্ছে এবং এক্স সমস্ত ড্রাইভার দ্বারা চালিত মোট কেএম K
ইনফো

2
@ অ্যারোনহল সমীকরণটি প্রয়োজনীয়ভাবে অকেজো নয়, যেহেতু ( দ্বারা গুণিত আবার এটিX, যা কিছু পরিস্থিতিতে সম্ভাব্য প্রশংসনীয় মডেল হতে পারে)। তবেপ্রশ্নে প্রদত্ত সমীকরণের ফর্মেরআর2খুব বেশি ব্যবহার নয় আপনি এটি আলাদা স্কেল লাগানো কোনও কিছুর সাথে তুলনা করতে পারবেন না। (ঘটনাক্রমে, যদি আমার উত্তরটি যদি আপনার নিম্নতম হয়, তবে আপনি যে উত্তরে ভুল বলে মনে করছেন তার একটি ব্যাখ্যা কার্যকর হবে))Y=β0X+β1X+XϵR2
গ্লেন_বি -রিনস্টেট মনিকা

উত্তর:


20

আপনি সত্যিই আগে এবং পরে তুলনা করতে পারবেন না , কারণ ওয়াইয়ের অন্তর্নিহিত পরিবর্তনশীলতা আলাদা। সুতরাং আপনি আর 2 এর পরিবর্তন থেকে আক্ষরিক কোনও আরাম নিতে পারবেন না । এটি আপনাকে দুটি মডেলের তুলনায় মূল্য সম্পর্কে কিছুই বলে না।R2YR2

দুটি মডেল বেশ কয়েকটি উপায়ে পৃথক, সুতরাং তাদের অর্থ ভিন্ন জিনিস - তারা সম্পর্কের আকার এবং ত্রুটি শর্তের পরিবর্তনশীলতা (যখন এবং এক্স এর মধ্যে সম্পর্কের ক্ষেত্রে বিবেচনা করা হয় ) সম্পর্কে খুব আলাদা জিনিস ধরে থাকে । তাই আপনি যদি মডেলিং করতে আগ্রহী হন ওয়াই (যদি ওয়াই নিজেই অর্থপূর্ণ), যে জন্য একটি ভাল মডেল উত্পাদন। আপনি যদি মডেলিং করতে আগ্রহী হন YXYY (/ √)Y অর্থবহ), এর জন্য একটি ভাল মডেল উত্পাদন করুন। যদিY অর্থ বহন করে, তারপরে তার জন্য একটি ভাল মডেল তৈরি করুন। তবে তুলনীয় স্কেলগুলিতে যে কোনও প্রতিদ্বন্দ্বী মডেল তুলনা করুন। আর2বিভিন্ন প্রতিক্রিয়ায় কেবল তুলনামূলক নয়।Y/XR2

যদি আপনি কেবল উচ্চতর - বা 'ভাল ফিট' এর অন্য কোনও পরিমাপের সাথে কোনও রূপান্তর সন্ধানের প্রত্যাশায় বিভিন্ন সম্পর্কের চেষ্টা করছেন - আপনি যে আচরণের পছন্দ করতে পারেন তার বৈশিষ্ট্যের অস্তিত্ব দ্বারা প্রভাবিত হবে যে অনুসন্ধান প্রক্রিয়া।R2

অনুমান শূন্য থেকে দূরে পক্ষপাতদুষ্ট হবে, মান ত্রুটিগুলি খুব ছোট হবে, পি-মানগুলি খুব ছোট হবে, আত্মবিশ্বাসের ব্যবধানগুলি খুব সংকীর্ণ হবে। আপনার মডেলগুলি গড়ে 'খুব ভাল' বলে প্রতীয়মান হবে (এই অর্থে যে তাদের নমুনা বহির্ভূত আচরণটি নমুনা আচরণের তুলনায় হতাশাব্যঞ্জক হবে)।

এই ধরণের ওভারফিটিং এড়ানোর জন্য, আপনার প্রয়োজন, যদি সম্ভব হয় তবে উপাত্তের বিভিন্ন উপধারায় মডেল-সনাক্তকরণ এবং অনুমান করা (এবং তৃতীয়টিতে মডেল মূল্যায়ন) করা দরকার। যদি আপনি এলোমেলোভাবে নেওয়া তথ্যের অনেক "বিভক্ত" উপর এই ধরণের পদ্ধতি পুনরাবৃত্তি করেন তবে আপনার ফলাফলগুলি কতটা পুনরুত্পাদনযোগ্য তা আপনি আরও ভালভাবে উপলব্ধি করতে পারেন।

এই বিষয়গুলিতে প্রাসঙ্গিক পয়েন্ট সহ এখানে অনেকগুলি পোস্ট রয়েছে: এটি কিছু অনুসন্ধানের চেষ্টা করা উপযুক্ত worth

(যদি কোনও নির্দিষ্ট রূপান্তর বাছাই করার জন্য আপনার যদি পূর্বের কোনও ভাল কারণ থাকে তবে এটি একটি আলাদা সমস্যা But তবে রূপান্তরগুলির স্থান অনুসন্ধান করে এমন কিছু সন্ধান করতে পারে যা এতে পুরোপুরি 'ডেটা স্নোপিং' টাইপের সমস্যা বহন করে))


গ্লেন প্রতিক্রিয়া জন্য ধন্যবাদ। আমি এই রূপান্তরটি করার কারণটি হ'ল কারণ এটিই কেবলমাত্র আমাকে পক্ষপাতদুষ্ট অবশিষ্টাংশ দেয় নি। আমি প্রমিত y / x, লগ (y), sqrt (y) এবং সেগুলির বিভিন্ন সংমিশ্রণের চেষ্টা করেছি। সমস্ত একটি slালু অবশিষ্টাংশ প্লট ফলাফল। কেবলমাত্র দুটি পর্যায়ে রূপান্তর করার পরে আমি এলোমেলোভাবে উপস্থিত অবশিষ্টাংশ পেয়েছি। তবে আপনি উল্লেখ করেছেন যে এই মডেলটি স্যাম্পল-আউট-অফ-স্যাম্পল ডেটাগুলির জন্য সম্ভাব্য অজানা, কারণ আমার কাছে কেবলমাত্র ডেটার চেয়ে বেশি উপকার পাওয়া উচিত, তাই না?
ইনফ 5 কে

ওয়েল, হ্যাঁ, তবে ডেটা দেখার সময় এটি কোনও রূপের মডেল-স্পেসিফিকেশনের সমস্যা, তাই এটি অনেক কিছু ঘটে। অনেক পরিস্থিতিতে এটি এড়ানো শক্ত, যেখান থেকে এখানে নমুনা-বিভাজন আসতে পারে ((ক্রস-বৈধকরণ এ জাতীয় পরিস্থিতিতে একটি কার্যকর সরঞ্জাম হতে পারে))
গ্লেন_বি -রিনস্টেট মনিকা

ডাউনভোটের কারণগুলি জানার জন্য এটি দরকারী হবে। উত্তরে কি দোষ? সম্ভবত এটি উন্নত করা যেতে পারে। (যদি এটি উন্নত করা যায় না, তবে
ডাউনটি

1
@ গ্লেন_বি: যদিও একটি অশুভ-সংজ্ঞায়িত পদ্ধতিটি ক্রস-বৈধকরণের কৌশল - প্রতিটি ভাঁজগুলিতে আপনাকে ডায়গনিস্টিকগুলি দেখার প্রক্রিয়াটির পুনরাবৃত্তি করতে হবে, যখন আপনি পছন্দ করেন না তখন অন্য রূপান্তর চিন্তা করে, চেষ্টা করে ইত্যাদি so
স্কর্চচি - মনিকা পুনরায় ইনস্টল করুন

1
@ স্কোর্টচি হ্যাঁ, যদি কিছু সাধারণ নিয়মে প্রার্থীদের পরিচিত পুল থেকে রূপান্তরগুলি নির্বাচন করা না হয় তবে এটি অসম্ভব হতে পারে।
গ্লেন_বি -রাইনস্টেট মনিকা

16

@ গ্লেন_বি দ্বারা চিহ্নিত সমস্যাগুলির চেয়ে বড় সমস্যা রয়েছে।

set.seed(123)
x <- rnorm(100, 20, 2)
y <- rnorm(100, 20, 2)
dv <- (y/x)^.5
iv <- x^.5
m1 <- lm(dv~iv)
summary(m1)

এবং আমি 0.49 এর পাই এবং পি-মান যা 5.5 × 10 - 16 হয়R25.5×1016

সমীকরণের উভয় দিকে আপনার রয়েছে।X


2
নিশ্চিত না যে মডেলটিকে অন্যের চেয়ে একরকমভাবে প্রকাশ করার জন্য প্রাকৃতিক কারণগুলি না থাকার এটি ভিন্ন সমস্যা। যদি আপনি ডব্লু = let দেন জেড=W=YX পরে আপনি ঠিক পাশাপাশি বলতে পারেন যে প্রথম মডেলটির (YX)সমীকরণের উভয় দিকেজেড2রয়েছে। Z=XYXZ2
স্কর্চচি - মনিকা পুনরায় ইনস্টল করুন

4
যদি জেড এলোমেলো আওয়াজ দেয় তবে এক্স উপর ওয়াইকে আবার চাপিয়ে দেওয়া শক্ত সম্পর্ক দেয়। ভেরিয়েবলগুলি কী বোঝায় তা বিবেচনা না করে এমন এক প্রতিসাম্যকে অন্যের তুলনায় উত্সাহী করে তোলে এমন অসমত্ব কোথায়? পিয়ারসন অ্যান্ড ইউল ( অলডরিক (১৯৯৫) ) এবং আমি ইউলের সাথে এই ধরণের বিষয়টি নিয়ে বিতর্ক হয়েছিল : যে উদ্বেগজনক তা পারস্পরিক সম্পর্ক নয় বরং সেই সম্পর্কের ভিত্তিতে একটি কার্যকারণ সম্পর্কের দাবী। WZYX
স্কর্চচি - মনিকা পুনরায় ইনস্টল করুন

1
হ্যাঁ, তবে এখানে, এক্স এবং ওয়াই দিয়ে শুরু হয়েছিল রিগ্রেশন, ভেরিয়েবলগুলির সাথে কথা বলতে গেলে কোন ভেরিয়েবল তা বিবেচনা করে না?
পিটার ফ্লুম - মনিকা পুনরায়

2
@ গ্লেন_ বি তার প্রথম বাক্যে যেমন উল্লেখ করেছেন, ইনসোফার ব্যতীত কেন এটি হওয়া উচিত তা বুঝতে পারছেন না, যদি আপনার লক্ষ্য ভবিষ্যদ্বাণী করা ছিল , তবে ডাব্লু এর জন্য একটি মডেলের দৃ determination় সংকল্পের উচ্চতর গুণফল সম্পর্কে কাক্সিক্ষত হওয়ার কিছু নেই। এবং অবশ্যই যদি ত্রুটি শর্তটি কেমন লাগে সে সম্পর্কে আপনার দৃ strong় ধারণা থাকে তবে একটি মডেল অন্যটির চেয়ে বেশি ট্র্যাকটেবল। YW
স্কর্চচি - মনিকা পুনরায় ইনস্টল করুন

4
আপনি ডাব্লু অ্যান্ড জেড, @ স্কোর্টচি সম্পর্কে একটি ভাল বক্তব্য উত্থাপন করেছেন, তবে আমার কাছে মনে হয় যে আপনি যে ভেরিয়েবলগুলি বিবেচনা করছেন সেগুলি কী বিবেচনা করে তা এবং একটি ভাল মডেল পাওয়ার জন্য আপনি কী পরিবর্তনশীল তৈরি করেছেন তা গুরুত্বপূর্ণ। প্রকৃত ভেরিয়েবলগুলি এক্স এর অর্থ দ্বারা নির্ধারিত হয় সংক্ষিপ্ত প্রশ্নের প্রসঙ্গে। আমি পাঠ্যটি থেকে অনুমান করি যে ওপি সম্পর্কটি বি / টি এক্স ও ওয়াই বুঝতে চায় এবং মডেল ফিটকে উন্নত করতে ডাব্লু ও জেড তৈরি করেছে। অর্থাৎ এই কংক্রিটের ক্ষেত্রে, আমার কাছে মনে হয়েছে পিটার ঠিক আছে, আপনি উভয় পক্ষের এক্স রেখে আপনার মডেলটি উন্নত করতে চেষ্টা করতে পারবেন না।
গুং - মনিকা পুনরায়

4

@ পিটারের উদাহরণে দুটি উপাদান রয়েছে, যা এটি বিকৃত করতে কার্যকর হতে পারে:

(1) মডেল ভুল স্পেসিফিকেশন। মডেল

yi=β0+β1xi+εi(1)

&

wi=γ0+γ1zi+ζi(2)

যেখানে এবংজেআমি=wi=yixi , উভয়ই সত্য হতে পারে না। আপনি যদি একে অপরের প্রতিক্রিয়া বিবেচনা করে প্রত্যেককে পুনরায় প্রকাশ করেন তবে হিটারোস্কেস্টিক ত্রুটিগুলি সহ তারা পরামিতিগুলিতে অ-লিনিয়ার হয়ে যায়।zi=xi

wi=β0zi2+β1+εizi2(1)

yi=(γ0xi+γ1xi+ζixi)2(2)

If Y is assumed to be a Gaussian random variable independent of X, then that's a special case of Model 1 in which β1=0, & you shouldn't be using Model 2. But equally if W is assumed to be a Gaussian random variable independent of Z, you shouldn't be using Model 1. Any preference for one model rather than the other has to come from substantive theory or their fit to data.

(2) Transformation of the response. If you knew Y & X to be independent Gaussian random variables, why should the relation between W & Z still surprise you, or would you call it spurious? The conditional expectation of W can be approximated with the delta method:

EYx=EYzβ0+VarY8β03/2z

It is indeed a function of z.

Following through the example ...

set.seed(123)
x <- rnorm(100, 20, 2)
y <- rnorm(100, 20, 2)
w <- (y/x)^.5
z <- x^.5
wrong.model <- lm(w~z)
right.model <- lm(y~x)
x.vals <- as.data.frame(seq(15,25,by=.1))
names(x.vals) <- "x"
z.vals <- as.data.frame(x.vals^.5)
names(z.vals) <- "z"
plot(x,y)
lines(x.vals$x, predict(right.model, newdata=x.vals), lty=3)
lines(x.vals$x, (predict(wrong.model, newdata=z.vals)*z.vals)^2, lty=2)
abline(h=20)
legend("topright",legend=c("data","y on x fits","w on z fits", "truth"), lty=c(NA,3,2,1), pch=c(1,NA,NA,NA))
plot(z,w)
lines(z.vals$z,sqrt(predict(right.model, newdata=x.vals))/as.matrix(z.vals), lty=3)
lines(z.vals$z,predict(wrong.model, newdata=z.vals), lty=2)
lines(z.vals$z,(sqrt(20) + 2/(8*20^(3/2)))/z.vals$z)
legend("topright",legend=c("data","y on x fits","w on z fits","truth"),lty=c(NA,3,2,1), pch=c(1,NA,NA,NA))

enter image description here

enter image description here

Neither Model 1 nor Model 2 is much use for predicting y from x, but both are all right for predicting w from z: mis-specification hasn't done much harm here (which isn't to say it never will—when it does, it ought to be apparent from the model diagnostics). Model-2-ers will run into trouble sooner as they extrapolate further away from the data—par for the course, if your model's wrong. Some will gain pleasure from contemplation of the little stars they get to put next to their p-values, while some Model-1-ers will bitterly grudge them this—the sum total of human happiness stays about the same. And of course, Model-2-ers, looking at the plot of w against z, might be tempted to think that intervening to increase z will reduce w—we can only hope & pray they don't succumb to a temptation we've all been incessantly warned against; that of confusing correlation with causation.

Aldrich (2005), "Correlations Genuine and Spurious in Pearson and Yule", Statistical Science, 10, 4 provides an interesting historical perspective on these issues.


3

The earlier answer of @Glen_b is all important. Playing with transformations distorts every part of statistical inference and results in R2 that is biased high. In short, not having a parameter in the model for everything you don't know will give a false sense of precision. That's why regression splines are now so popular.

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.