স্বাধীন ভেরিয়েবলগুলির জন্য রূপান্তর করার মতো কোনও বাক্স-কক্স রয়েছে? এটি, এমন একটি রূপান্তর যা পরিবর্তনশীলকে অনুকূল করে তোলে যাতে লিনিয়ার মডেলটির জন্য আরও যুক্তিসঙ্গত ফিট করতে পারে?y~f(x)
যদি তাই হয় তবে এটির সাথে কোন অনুষ্ঠান করার আছে R
?
স্বাধীন ভেরিয়েবলগুলির জন্য রূপান্তর করার মতো কোনও বাক্স-কক্স রয়েছে? এটি, এমন একটি রূপান্তর যা পরিবর্তনশীলকে অনুকূল করে তোলে যাতে লিনিয়ার মডেলটির জন্য আরও যুক্তিসঙ্গত ফিট করতে পারে?y~f(x)
যদি তাই হয় তবে এটির সাথে কোন অনুষ্ঠান করার আছে R
?
উত্তর:
জন টুকি সম্পর্ককে লিনিয়ারাইজ করার জন্য ভেরিয়েবলগুলির পুনঃপ্রকাশের জন্য তার " তিন পয়েন্ট পদ্ধতি " টির পক্ষে ছিলেন।
আমি তাঁর বই এক্সপ্লোরার ডেটা অ্যানালাইসিসের একটি অনুশীলনের মাধ্যমে চিত্রিত করব । এগুলি হ'ল পারদীয় বাষ্পের চাপের ডেটা এমন একটি পরীক্ষার যাতে তাপমাত্রা বৈচিত্রময় ছিল এবং বাষ্পের চাপ পরিমাপ করা হয়েছিল।
pressure <- c(0.0004, 0.0013, 0.006, 0.03, 0.09, 0.28, 0.8, 1.85, 4.4,
9.2, 18.3, 33.7, 59, 98, 156, 246, 371, 548, 790) # mm Hg
temperature <- seq(0, 360, 20) # Degrees C
সম্পর্কটি দৃ strongly়ভাবে অরেখচিহ্নযুক্ত: চিত্রের বাম প্যানেলটি দেখুন।
কারণ এটি একটি অনুসন্ধানের অনুশীলন, আমরা এটি ইন্টারেক্টিভ হওয়ার আশা করি। বিশ্লেষককে প্লটের তিনটি "সাধারণ" পয়েন্ট চিহ্নিত করে শুরু করতে বলা হয় : প্রতিটি প্রান্তের কাছে একটি এবং মাঝখানে একটি। আমি এখানে এটি করেছি এবং তাদের লাল চিহ্নিত করেছি। (আমি যখন প্রথম এই অনুশীলনটি অনেক আগে করেছি, তখন আমি বিভিন্ন পয়েন্টের বিভিন্ন সেট ব্যবহার করেছি তবে একই ফলাফলে পৌঁছেছি))
তিন দফা পদ্ধতিতে, একটি অনুসন্ধান - ব্রুট ফোর্স দ্বারা বা অন্যথায় - একটি বক্স-কক্স রূপান্তরের জন্য যা স্থানাঙ্কগুলির মধ্যে একটিতে প্রয়োগ করা হয় - হয় y বা x - (ক) প্রায় নির্দিষ্ট বিন্দুতে একটি নির্দিষ্ট বিন্দু রাখে লাইন এবং (খ) একটি "দুর্দান্ত" শক্তি ব্যবহার করে, সাধারণত শক্তির "মই" থেকে বেছে নেওয়া হয় যা বিশ্লেষক দ্বারা ব্যাখ্যাযোগ্য হতে পারে।
যে কারণে পরে স্পষ্ট হয়ে উঠবে, আমি বাক্স-কক্স পরিবারকে "অফসেট" দিয়ে বাড়িয়ে দিয়েছি যাতে রূপান্তরগুলি ফর্মে থাকে
এখানে একটি দ্রুত এবং নোংরা R
বাস্তবায়ন। এটি প্রথমে একটি অনুকূল সমাধান সন্ধান করে, তারপরে মইয়ের নিকটতম মানটির সাথে round এবং সেই সীমাবদ্ধতার সাপেক্ষে (যুক্তিসঙ্গত সীমাতে) অনুকূল করে। এটি অবিশ্বাস্যভাবে দ্রুত কারণ সমস্ত গণনাগুলি মূল ডেটাসেটের বাইরে those তিনটি সাধারণ পয়েন্টের উপর ভিত্তি করে। (আপনি এগুলি পেন্সিল এবং কাগজ দিয়ে করতে পেরেছিলেন, এমনকি টুকি ঠিক এটিই করেছিলেন))λ α
box.cox <- function(x, parms=c(1,0)) {
lambda <- parms[1]
offset <- parms[2]
if (lambda==0) log(x+offset) else ((x+offset)^lambda - 1)/lambda
}
threepoint <- function(x, y, ladder=c(1, 1/2, 1/3, 0, -1/2, -1)) {
# x and y are length-three samples from a dataset.
dx <- diff(x)
f <- function(parms) (diff(diff(box.cox(y, parms)) / dx))^2
fit <- nlm(f, c(1,0))
parms <- fit$estimate #$
lambda <- ladder[which.min(abs(parms[1] - ladder))]
if (lambda==0) offset = 0 else {
do <- diff(range(y))
offset <- optimize(function(x) f(c(lambda, x)),
c(max(-min(x), parms[2]-do), parms[2]+do))$minimum
}
c(lambda, offset)
}
যখন পারদীয় বাষ্প ডেটাসেটে চাপ (y) মানগুলিতে তিন-পয়েন্ট পদ্ধতি প্রয়োগ করা হয়, তখন আমরা প্লটের মাঝের প্যানেলটি পাই।
data <- cbind(temperature, pressure)
n <- dim(data)[1]
i3 <- c(2, floor((n+1)/2), n-1)
parms <- threepoint(temperature[i3], pressure[i3])
y <- box.cox(pressure, parms)
এই ক্ষেত্রে, parms
সমান : পদ্ধতিটি চাপকে লগ-ট্রান্সফর্ম করতে নির্বাচন করে।
আমরা প্রশ্নের প্রসঙ্গে অনুরূপ একটি পর্যায়ে পৌঁছেছি: যে কোনও কারণেই (সাধারণত অবশিষ্টাংশগুলি স্থিতিশীল করার জন্য), আমরা নির্ভরশীল পরিবর্তনশীলটিকে পুনরায় প্রকাশ করেছি , তবে আমরা দেখতে পেলাম যে একটি স্বাধীন ভেরিয়েবলের সাথে সম্পর্ক নৈখিক। সুতরাং এখন আমরা সম্পর্কটিকে রৈখিক করার প্রয়াসে স্বতন্ত্র পরিবর্তনশীলটিকে পুনরায় প্রকাশের দিকে ঘুরে দেখি । এটি কেবল x এবং y এর ভূমিকাগুলি বিপরীত করে একইভাবে করা হয়:
parms <- threepoint(y[i3], temperature[i3])
x <- box.cox(temperature, parms)
মান parms
স্বতন্ত্র ভেরিয়েবলের (তাপমাত্রা) হতে পাওয়া যায় : অন্য কথায়, আমরা তাপমাত্রা উপরে ডিগ্রী সেলসিয়াস, যেমন প্রকাশ করা উচিত নয় সি এবং তার ব্যবহার পারস্পরিক ( ক্ষমতা)। (প্রযুক্তিগত কারণে, বাক্স-কক্স রূপান্তর আরও করে ফলাফল)) ফলাফলটি সঠিক প্যানেলে প্রদর্শিত হবে।- 254 - 1 1
এখন অবধি , ন্যূনতম বিজ্ঞানের পটভূমি সহ যে কেউ সনাক্ত করেছেন যে ডেটা আমাদের " নিরঙ্কুশ তাপমাত্রা " ব্যবহার করতে বলছে - যেখানে অফসেটটি পরিবর্তে - কারণ এটি শারীরিকভাবে অর্থবহ হবে। (শেষ কবে চক্রান্ত পুনরায় টানা একটি অফসেট ব্যবহার পরিবর্তে , সেখানে সামান্য দৃশ্যমান পরিবর্তন একটি পদার্থবিজ্ঞানী তারপর x- অক্ষ লেবেল হবে। । অর্থাৎ, পারস্পরিক পরম তাপমাত্রা)254 273 254 1 / ( 1 - এক্স )
এটি কীভাবে পরিসংখ্যান সংক্রান্ত অনুসন্ধানের তদন্তের বিষয়টিকে বোঝার জন্য ইন্টারঅ্যাক্ট করতে হবে তার একটি দুর্দান্ত উদাহরণ । প্রকৃতপক্ষে, পারস্পরিক নিরঙ্কুশ তাপমাত্রা শারীরিক আইনগুলিতে সমস্ত সময় প্রদর্শিত হয়। ফলস্বরূপ, এই শতাব্দী প্রাচীন, সাধারণ, ডেটাসেটটি অন্বেষণ করতে একমাত্র সাধারণ EDA পদ্ধতি ব্যবহার করে আমরা ক্লোসিয়াস-ক্ল্যাপাইরন সম্পর্কটি পুনরায় আবিষ্কার করেছি : বাষ্পের চাপের লোগারিদম পারস্পরিক পরম তাপমাত্রার লিনিয়ার ফাংশন। কেবল নয়, আমাদের কাছে পরম শূন্যের একটি খুব খারাপ (0ডিগ্রি সি), ডানহান চক্রান্তের opeাল থেকে আমরা বাষ্পীয়করণের নির্দিষ্ট এনথ্যালপি গণনা করতে পারি, এবং - যেমনটি দেখা যাচ্ছে - অবশিষ্টাংশগুলির একটি সতর্ক বিশ্লেষণ একটি বহিরাগতকে চিহ্নিত করে ( ডিগ্রি সেলসিয়াস তাপমাত্রায় মান ), আমাদের দেখায় যে কীভাবে তাপমাত্রার সাথে বাষ্পীকরণের এনথ্যালফি (খুব সামান্য) পরিবর্তিত হয় (এর মাধ্যমে আদর্শ গ্যাস আইন লঙ্ঘন করা হয়) এবং শেষ পর্যন্ত পারদ গ্যাসের অণুগুলির কার্যকর ব্যাসার্ধ সম্পর্কে সঠিক তথ্য দিতে পারে! ১৯ টি ডেটা পয়েন্ট এবং ইডিএর কিছু প্রাথমিক দক্ষতা থেকে সমস্ত।
data <- cbind(temperature, pressure)
R
জন ফক্স ( " এখান থেকে উপলব্ধ , রেফারেন্স সহ সম্পূর্ণ) " রেগ্রেশন ডায়াগনস্টিকস এ এই স্লাইডগুলি একবার দেখুন , যা অরৈখিকতার রূপান্তরকরণের বিষয়টি সংক্ষেপে আলোচনা করে। এটি পাওয়ার ট্রান্সফরমেশন বাছাই করার জন্য টুকির "বুলিং বিধি" কভার করেছে (স্বীকৃত উত্তর দ্বারা সম্বোধন করা হয়েছে), তবে বাক্স-কক্স এবং ইয়েও-জনসন পরিবারগুলিকে রূপান্তরগুলিরও উল্লেখ করেছে। স্লাইডগুলির বিভাগ 3.6 দেখুন। একই লেখকের আরও আনুষ্ঠানিক গ্রহণের জন্য দেখুন জে। ফক্স, প্রয়োগিত রিগ্রেশন অ্যানালাইসিস এবং জেনারালাইজড লিনিয়ার মডেলস, দ্বিতীয় সংস্করণ (সেজ, ২০০৮) ।
প্রকৃত আর প্যাকেজগুলি যা এর সাথে সহায়তা করে তাদের জন্য, জ ফক্স এবং এস ওয়েইসবার্গের রচিত কার প্যাকেজটি একেবারে দেখুন । এই প্যাকেজটি জে ফক্স এবং এস ওয়েইসবার্গের সাথে রয়েছে, একটি আর কম্পিয়ন টু অ্যাপ্লাইড রেজগ্রেশন, দ্বিতীয় সংস্করণ, (সেজে, ২০১১) , অন্য একটি পড়তে হবে। সেই প্যাকেজটি ব্যবহার করে আপনি basicPower()
(সাধারণ পাওয়ার ট্রান্সফর্মেশন), bcPower()
(বক্স-কক্স ট্রান্সফর্মেশন) এবং yjPower()
(ইয়ে-জনসন রূপান্তর) থেকে শুরু করতে পারেন । পাওয়ার ট্রান্সফর্ম () রয়েছে :
অবিবাহিত বা মাল্টিভারিয়েট এলোমেলো ভেরিয়েবলের রূপান্তরকরণকে স্বাভাবিক করার অনুমানের জন্য ফাংশন পাওয়ার ট্রান্সফর্মটি ব্যবহৃত হয়।
এই রূপান্তরগুলির পিছনে তত্ত্ব এবং গণনীয় পদ্ধতির উপর আরও বিশদ জন্য উভয় বই পরীক্ষা করুন।
কোভারিয়েট রূপান্তরগুলি অনুমান প্রক্রিয়াটির একটি আনুষ্ঠানিক অংশ অনুমান করার অনেক সুবিধা রয়েছে। এটি জড়িত প্যারামিটারগুলির সংখ্যা স্বীকৃতি দেবে এবং ভাল আত্মবিশ্বাসের ব্যবধান কভারেজ তৈরি করবে এবং I ত্রুটি সংরক্ষণ সংরক্ষণ করবে। রিগ্রেশন স্প্লাইজগুলি কয়েকটি সেরা পন্থা। এবং স্প্লাইনগুলি লোগারিদমিক পদ্ধতির বিপরীতে শূন্য এবং নেতিবাচক মানগুলির সাথে কাজ করবে ।
R
সম্পর্কে জানি না এবং এক মুহূর্তের জন্য এটি চিন্তা করে, কেউ ঠিক কীভাবে এটি করবে তা আমি নিশ্চিত নই । "সর্বাধিক রৈখিক" রূপান্তরটি নিশ্চিত করতে আপনি কোন মানদণ্ডটি অনুকূলিত করবেন? লোভনীয় তবে এখানে আমার উত্তর হিসাবে দেখা গেছে , কোনও মডেলের লিনিয়ারিটি অনুমান সন্তুষ্ট কিনা তা দেখতে একা ব্যবহার করা যায় না। আপনার মনে কিছু মানদণ্ড ছিল? আর 2