বাক্স-কক্স স্বাধীন ভেরিয়েবলের রূপান্তরের মতো?


53

স্বাধীন ভেরিয়েবলগুলির জন্য রূপান্তর করার মতো কোনও বাক্স-কক্স রয়েছে? এটি, এমন একটি রূপান্তর যা পরিবর্তনশীলকে অনুকূল করে তোলে যাতে লিনিয়ার মডেলটির জন্য আরও যুক্তিসঙ্গত ফিট করতে পারে?xy~f(x)

যদি তাই হয় তবে এটির সাথে কোন অনুষ্ঠান করার আছে R?


1
আমি এটি করার জন্য কোনও সুবিধা Rসম্পর্কে জানি না এবং এক মুহূর্তের জন্য এটি চিন্তা করে, কেউ ঠিক কীভাবে এটি করবে তা আমি নিশ্চিত নই । "সর্বাধিক রৈখিক" রূপান্তরটি নিশ্চিত করতে আপনি কোন মানদণ্ডটি অনুকূলিত করবেন? লোভনীয় তবে এখানে আমার উত্তর হিসাবে দেখা গেছে , কোনও মডেলের লিনিয়ারিটি অনুমান সন্তুষ্ট কিনা তা দেখতে একা ব্যবহার করা যায় না। আপনার মনে কিছু মানদণ্ড ছিল? আর 2R2R2
ম্যাক্রো

1
আমি ইতিমধ্যে আমি ইতিমধ্যে একটি কাগজ সম্পর্কে কথা বলতে দেখেছি ছাপ অধীন। হতে পারে "স্বাধীন ভেরিয়েবল" এর পরিবর্তে "কোভারিয়েট" দিয়ে গুগল করা আরও বিচার্য jud
স্টাফেন লরেন্ট

আমি মনে করি (স্মৃতি থেকে ...) গাড়ি প্যাকেজ (আর) এ এর ​​কিছু প্রয়োগ রয়েছে। আপনি প্যাকেজ জিএমসিভিতে গেমের মতো পরীক্ষা করতে পারেন।
কেজেটিল বি হালওয়ারসেন

একটি থ্রেড যা বাক্স-কক্স প্যারামিটারের স্বয়ংক্রিয়ভাবে অনুক্রমের আলোচনা করে ( একই সাথে নির্ভরশীল ভেরিয়েবলের সাথে সমস্ত স্বতন্ত্র ভেরিয়েবলগুলি রূপান্তর করে) stats.stackexchange.com/questions/60431/… এ উপস্থিত হয়েছে ।
হোবার

উত্তর:


72

জন টুকি সম্পর্ককে লিনিয়ারাইজ করার জন্য ভেরিয়েবলগুলির পুনঃপ্রকাশের জন্য তার " তিন পয়েন্ট পদ্ধতি " টির পক্ষে ছিলেন।

আমি তাঁর বই এক্সপ্লোরার ডেটা অ্যানালাইসিসের একটি অনুশীলনের মাধ্যমে চিত্রিত করব । এগুলি হ'ল পারদীয় বাষ্পের চাপের ডেটা এমন একটি পরীক্ষার যাতে তাপমাত্রা বৈচিত্রময় ছিল এবং বাষ্পের চাপ পরিমাপ করা হয়েছিল।

pressure <- c(0.0004, 0.0013, 0.006, 0.03, 0.09, 0.28, 0.8, 1.85, 4.4, 
              9.2, 18.3, 33.7, 59, 98, 156, 246, 371, 548, 790) # mm Hg
temperature <- seq(0, 360, 20) # Degrees C

সম্পর্কটি দৃ strongly়ভাবে অরেখচিহ্নযুক্ত: চিত্রের বাম প্যানেলটি দেখুন।

প্লট

কারণ এটি একটি অনুসন্ধানের অনুশীলন, আমরা এটি ইন্টারেক্টিভ হওয়ার আশা করি। বিশ্লেষককে প্লটের তিনটি "সাধারণ" পয়েন্ট চিহ্নিত করে শুরু করতে বলা হয় : প্রতিটি প্রান্তের কাছে একটি এবং মাঝখানে একটি। আমি এখানে এটি করেছি এবং তাদের লাল চিহ্নিত করেছি। (আমি যখন প্রথম এই অনুশীলনটি অনেক আগে করেছি, তখন আমি বিভিন্ন পয়েন্টের বিভিন্ন সেট ব্যবহার করেছি তবে একই ফলাফলে পৌঁছেছি))

তিন দফা পদ্ধতিতে, একটি অনুসন্ধান - ব্রুট ফোর্স দ্বারা বা অন্যথায় - একটি বক্স-কক্স রূপান্তরের জন্য যা স্থানাঙ্কগুলির মধ্যে একটিতে প্রয়োগ করা হয় - হয় y বা x - (ক) প্রায় নির্দিষ্ট বিন্দুতে একটি নির্দিষ্ট বিন্দু রাখে লাইন এবং (খ) একটি "দুর্দান্ত" শক্তি ব্যবহার করে, সাধারণত শক্তির "মই" থেকে বেছে নেওয়া হয় যা বিশ্লেষক দ্বারা ব্যাখ্যাযোগ্য হতে পারে।

যে কারণে পরে স্পষ্ট হয়ে উঠবে, আমি বাক্স-কক্স পরিবারকে "অফসেট" দিয়ে বাড়িয়ে দিয়েছি যাতে রূপান্তরগুলি ফর্মে থাকে

x(x+α)λ1λ.

এখানে একটি দ্রুত এবং নোংরা Rবাস্তবায়ন। এটি প্রথমে একটি অনুকূল সমাধান সন্ধান করে, তারপরে মইয়ের নিকটতম মানটির সাথে round এবং সেই সীমাবদ্ধতার সাপেক্ষে (যুক্তিসঙ্গত সীমাতে) অনুকূল করে। এটি অবিশ্বাস্যভাবে দ্রুত কারণ সমস্ত গণনাগুলি মূল ডেটাসেটের বাইরে those তিনটি সাধারণ পয়েন্টের উপর ভিত্তি করে। (আপনি এগুলি পেন্সিল এবং কাগজ দিয়ে করতে পেরেছিলেন, এমনকি টুকি ঠিক এটিই করেছিলেন))λ α(λ,α)λα

box.cox <- function(x, parms=c(1,0)) {
  lambda <- parms[1]
  offset <- parms[2]
  if (lambda==0) log(x+offset) else ((x+offset)^lambda - 1)/lambda
}
threepoint <- function(x, y, ladder=c(1, 1/2, 1/3, 0, -1/2, -1)) {
  # x and y are length-three samples from a dataset.
  dx <- diff(x)
  f <- function(parms) (diff(diff(box.cox(y, parms)) / dx))^2
  fit <- nlm(f, c(1,0))
  parms <- fit$estimate #$
  lambda <- ladder[which.min(abs(parms[1] - ladder))]
  if (lambda==0) offset = 0 else {
    do <- diff(range(y))
    offset <- optimize(function(x) f(c(lambda, x)), 
                       c(max(-min(x), parms[2]-do), parms[2]+do))$minimum    
  }
  c(lambda, offset)
}

যখন পারদীয় বাষ্প ডেটাসেটে চাপ (y) মানগুলিতে তিন-পয়েন্ট পদ্ধতি প্রয়োগ করা হয়, তখন আমরা প্লটের মাঝের প্যানেলটি পাই।

data <- cbind(temperature, pressure)
n <- dim(data)[1]
i3 <- c(2, floor((n+1)/2), n-1)
parms <- threepoint(temperature[i3], pressure[i3])
y <- box.cox(pressure, parms)

এই ক্ষেত্রে, parmsসমান : পদ্ধতিটি চাপকে লগ-ট্রান্সফর্ম করতে নির্বাচন করে।(0,0)

আমরা প্রশ্নের প্রসঙ্গে অনুরূপ একটি পর্যায়ে পৌঁছেছি: যে কোনও কারণেই (সাধারণত অবশিষ্টাংশগুলি স্থিতিশীল করার জন্য), আমরা নির্ভরশীল পরিবর্তনশীলটিকে পুনরায় প্রকাশ করেছি , তবে আমরা দেখতে পেলাম যে একটি স্বাধীন ভেরিয়েবলের সাথে সম্পর্ক নৈখিক। সুতরাং এখন আমরা সম্পর্কটিকে রৈখিক করার প্রয়াসে স্বতন্ত্র পরিবর্তনশীলটিকে পুনরায় প্রকাশের দিকে ঘুরে দেখি । এটি কেবল x এবং y এর ভূমিকাগুলি বিপরীত করে একইভাবে করা হয়:

parms <- threepoint(y[i3], temperature[i3])
x <- box.cox(temperature, parms)

মান parmsস্বতন্ত্র ভেরিয়েবলের (তাপমাত্রা) হতে পাওয়া যায় : অন্য কথায়, আমরা তাপমাত্রা উপরে ডিগ্রী সেলসিয়াস, যেমন প্রকাশ করা উচিত নয় সি এবং তার ব্যবহার পারস্পরিক ( ক্ষমতা)। (প্রযুক্তিগত কারণে, বাক্স-কক্স রূপান্তর আরও করে ফলাফল)) ফলাফলটি সঠিক প্যানেলে প্রদর্শিত হবে।- 254 - 1 1(1,253.75)25411


এখন অবধি , ন্যূনতম বিজ্ঞানের পটভূমি সহ যে কেউ সনাক্ত করেছেন যে ডেটা আমাদের " নিরঙ্কুশ তাপমাত্রা " ব্যবহার করতে বলছে - যেখানে অফসেটটি পরিবর্তে - কারণ এটি শারীরিকভাবে অর্থবহ হবে। (শেষ কবে চক্রান্ত পুনরায় টানা একটি অফসেট ব্যবহার পরিবর্তে , সেখানে সামান্য দৃশ্যমান পরিবর্তন একটি পদার্থবিজ্ঞানী তারপর x- অক্ষ লেবেল হবে। । অর্থাৎ, পারস্পরিক পরম তাপমাত্রা)254 273 254 1 / ( 1 - এক্স )2732542732541/(1x)

এটি কীভাবে পরিসংখ্যান সংক্রান্ত অনুসন্ধানের তদন্তের বিষয়টিকে বোঝার জন্য ইন্টারঅ্যাক্ট করতে হবে তার একটি দুর্দান্ত উদাহরণ । প্রকৃতপক্ষে, পারস্পরিক নিরঙ্কুশ তাপমাত্রা শারীরিক আইনগুলিতে সমস্ত সময় প্রদর্শিত হয়। ফলস্বরূপ, এই শতাব্দী প্রাচীন, সাধারণ, ডেটাসেটটি অন্বেষণ করতে একমাত্র সাধারণ EDA পদ্ধতি ব্যবহার করে আমরা ক্লোসিয়াস-ক্ল্যাপাইরন সম্পর্কটি পুনরায় আবিষ্কার করেছি : বাষ্পের চাপের লোগারিদম পারস্পরিক পরম তাপমাত্রার লিনিয়ার ফাংশন। কেবল নয়, আমাদের কাছে পরম শূন্যের একটি খুব খারাপ (0254ডিগ্রি সি), ডানহান চক্রান্তের opeাল থেকে আমরা বাষ্পীয়করণের নির্দিষ্ট এনথ্যালপি গণনা করতে পারি, এবং - যেমনটি দেখা যাচ্ছে - অবশিষ্টাংশগুলির একটি সতর্ক বিশ্লেষণ একটি বহিরাগতকে চিহ্নিত করে ( ডিগ্রি সেলসিয়াস তাপমাত্রায় মান ), আমাদের দেখায় যে কীভাবে তাপমাত্রার সাথে বাষ্পীকরণের এনথ্যালফি (খুব সামান্য) পরিবর্তিত হয় (এর মাধ্যমে আদর্শ গ্যাস আইন লঙ্ঘন করা হয়) এবং শেষ পর্যন্ত পারদ গ্যাসের অণুগুলির কার্যকর ব্যাসার্ধ সম্পর্কে সঠিক তথ্য দিতে পারে! ১৯ টি ডেটা পয়েন্ট এবং ইডিএর কিছু প্রাথমিক দক্ষতা থেকে সমস্ত।0


2
হ্যালো প্রিয় ভুবার কি আকর্ষণীয় উত্তর, আমি আনন্দের সাথে এটি পড়েছি, আপনাকে ধন্যবাদ! (এবং আমি যে বিষয়টি নিয়ে কাজ করছি তাতে কীভাবে এটি ফিট হতে পারে তা দেখার জন্য আমি এটির সাথে কিছুটা খেলব)
তাল গালিলি

3
@Andre এই কোড আপনি একটি মধ্যে x এবং y ভেরিয়েবল জুড়তে অনুমতি প্রয়োজন শেষ অংশ ব্যবহার করার জন্য দ্বারা , ম্যাট্রিক্স হিসেবে । (এটি সাধারণত ম্যাট্রিক্স বা ডেটা ফ্রেম হিসাবে (x, y) ডেটা সংরক্ষণ করা হয় এমনভাবে মেলে যাতে এই পদক্ষেপটি বাদ দেওয়া হয়েছিল) এই পদক্ষেপটি বাদ দেওয়ার জন্য আমি ক্ষমা চেয়েছি এবং এর উত্তর অন্তর্ভুক্ত করার জন্য সম্পাদনা করেছি - দেখুন কিনা ওই কাজগুলো. 2n2data <- cbind(temperature, pressure)R
whuber

2
@ল্যান্ড্রোনি ইন্টিগ্রাল এবং ছোট ভগ্নাংশ শক্তি প্রায়শই শারীরিক, রাসায়নিক এবং জৈবিক তত্ত্বগুলির পাশাপাশি জ্যামিতিক বিবেচনার মাধ্যমে উত্থিত হয়। (উদাহরণস্বরূপ, যখন কোনও ভেরিয়েবল একটি ভলিউম হয়, তখন এর ঘনক মূলটি একটি দৈর্ঘ্য - যা ব্যাখ্যাযোগ্য whereas তবে, বলুন, এর সপ্তম মূলের কোনও জ্যামিতিক ব্যাখ্যা নেই)) অন্যান্য শক্তির খুব কমই এরকম কোনও ব্যাখ্যা থাকে।
whuber

3
@ ফ্র্যাঙ্ক এটা ঠিক; এটি স্পষ্টত এবং অবিশ্বাস্যভাবে একটি অনুসন্ধানের কৌশল। মনে রাখবেন এটি এমনকি ভবিষ্যদ্বাণীপূর্ণ বলে দাবি করে না। অনুসন্ধান কেবল অগ্রসর হওয়ার উপায়গুলিই বলতে পারে। এই রূপান্তরগুলি অনুমান করার জন্য আপনার মডেলিংয়ের বাজেটের চার df বরাদ্দ করা কল্পনা করা সম্ভব, যদিও - এবং অনুমানটি টুয়ের পদ্ধতির ব্যবহার করে বা অন্যথায় (এমএল একটি স্পষ্ট সম্ভাবনা) ব্যবহার করে স্বয়ংক্রিয়ভাবে ফিটিং অ্যালগরিদমে অন্তর্ভুক্ত হতে পারে।
whuber

5
ট্রান্সফর্মের মধ্যে অনিশ্চয়তা (খুব উল্লেখযোগ্য পরিমাণের) বিবেচনায় নেই যদি না কেন্দ্রবিন্দু এবং ল্যাম্বদা অনুমান তথ্য ম্যাট্রিক্সের স্পষ্ট অংশ না হয়। Y λYYλ
ফ্রাঙ্ক হ্যারেল

11

জন ফক্স ( " এখান থেকে উপলব্ধ , রেফারেন্স সহ সম্পূর্ণ) " রেগ্রেশন ডায়াগনস্টিকস এ এই স্লাইডগুলি একবার দেখুন , যা অরৈখিকতার রূপান্তরকরণের বিষয়টি সংক্ষেপে আলোচনা করে। এটি পাওয়ার ট্রান্সফরমেশন বাছাই করার জন্য টুকির "বুলিং বিধি" কভার করেছে (স্বীকৃত উত্তর দ্বারা সম্বোধন করা হয়েছে), তবে বাক্স-কক্স এবং ইয়েও-জনসন পরিবারগুলিকে রূপান্তরগুলিরও উল্লেখ করেছে। স্লাইডগুলির বিভাগ 3.6 দেখুন। একই লেখকের আরও আনুষ্ঠানিক গ্রহণের জন্য দেখুন জে। ফক্স, প্রয়োগিত রিগ্রেশন অ্যানালাইসিস এবং জেনারালাইজড লিনিয়ার মডেলস, দ্বিতীয় সংস্করণ (সেজ, ২০০৮)

প্রকৃত আর প্যাকেজগুলি যা এর সাথে সহায়তা করে তাদের জন্য, জ ফক্স এবং এস ওয়েইসবার্গের রচিত কার প্যাকেজটি একেবারে দেখুন । এই প্যাকেজটি জে ফক্স এবং এস ওয়েইসবার্গের সাথে রয়েছে, একটি আর কম্পিয়ন টু অ্যাপ্লাইড রেজগ্রেশন, দ্বিতীয় সংস্করণ, (সেজে, ২০১১) , অন্য একটি পড়তে হবে। সেই প্যাকেজটি ব্যবহার করে আপনি basicPower()(সাধারণ পাওয়ার ট্রান্সফর্মেশন), bcPower()(বক্স-কক্স ট্রান্সফর্মেশন) এবং yjPower()(ইয়ে-জনসন রূপান্তর) থেকে শুরু করতে পারেন । পাওয়ার ট্রান্সফর্ম () রয়েছে :

অবিবাহিত বা মাল্টিভারিয়েট এলোমেলো ভেরিয়েবলের রূপান্তরকরণকে স্বাভাবিক করার অনুমানের জন্য ফাংশন পাওয়ার ট্রান্সফর্মটি ব্যবহৃত হয়।

এই রূপান্তরগুলির পিছনে তত্ত্ব এবং গণনীয় পদ্ধতির উপর আরও বিশদ জন্য উভয় বই পরীক্ষা করুন।


9

কোভারিয়েট রূপান্তরগুলি অনুমান প্রক্রিয়াটির একটি আনুষ্ঠানিক অংশ অনুমান করার অনেক সুবিধা রয়েছে। এটি জড়িত প্যারামিটারগুলির সংখ্যা স্বীকৃতি দেবে এবং ভাল আত্মবিশ্বাসের ব্যবধান কভারেজ তৈরি করবে এবং I ত্রুটি সংরক্ষণ সংরক্ষণ করবে। রিগ্রেশন স্প্লাইজগুলি কয়েকটি সেরা পন্থা। এবং স্প্লাইনগুলি লোগারিদমিক পদ্ধতির বিপরীতে শূন্য এবং নেতিবাচক মানগুলির সাথে কাজ করবে ।X

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.