আর-তে আমার ডেটাতে কীভাবে মসৃণ বাঁকানো যায়?

Question 1

আমি একটি মসৃণ বক্ররেখা আঁকতে চেষ্টা করছি R। আমার কাছে নিম্নলিখিত সহজ খেলনা তথ্য রয়েছে:

> x
 [1]  1  2  3  4  5  6  7  8  9 10
> y
 [1]  2  4  6  8  7 12 14 16 18 20

এখন যখন আমি এটি একটি স্ট্যান্ডার্ড কমান্ড দিয়ে প্লট করি তবে এটি অবশ্যই কৃপণ এবং দুষ্টু দেখাচ্ছে, অবশ্যই:

> plot(x,y, type='l', lwd=2, col='red')

আনুমানিক মানগুলি ব্যবহার করে 3 প্রান্তটি বৃত্তাকারে আমি কীভাবে বক্ররেখাটি মসৃণ করতে পারি? আমি জানি যে একটি মসৃণ বক্ররেখার ফিট করার জন্য অনেকগুলি পদ্ধতি রয়েছে তবে আমি নিশ্চিত নই যে এই জাতীয় বক্ররেখার জন্য কোনটি সবচেয়ে উপযুক্ত এবং আপনি এটি কীভাবে লিখবেন R।

Question 2

আমি loess()স্মুথ জন্য অনেক পছন্দ :

x <- 1:10
y <- c(2,4,6,8,7,12,14,16,18,20)
lo <- loess(y~x)
plot(x,y)
lines(predict(lo), col='red', lwd=2)

ভেনেবলস এবং রিপলির এমএএসএস বইয়ের স্মুথিংয়ের পুরো বিভাগ রয়েছে যা স্প্লাইজ এবং বহুবর্ষগুলিও কভার করে - তবে loess()এটি সবার পছন্দের বিষয়।

Question 3

সম্ভবত স্মাইল.স্প্লাইন একটি বিকল্প, আপনি এখানে স্মুথিং প্যারামিটার সেট করতে পারেন (সাধারণত 0 এবং 1 এর মধ্যে)

smoothingSpline = smooth.spline(x, y, spar=0.35)
plot(x,y)
lines(smoothingSpline)

আপনি মসৃণ.স্প্লাইন বস্তুগুলির উপর পূর্বাভাসও ব্যবহার করতে পারেন। ফাংশনটি বেস বেসের সাথে আসে, দেখুন বিস্তারিত জন্য মসৃণ.স্প্লাইন।

Question 4

এটি সত্যই স্মুথ পেতে ...

x <- 1:10
y <- c(2,4,6,8,7,8,14,16,18,20)
lo <- loess(y~x)
plot(x,y)
xl <- seq(min(x),max(x), (max(x) - min(x))/1000)
lines(xl, predict(lo,xl), col='red', lwd=2)

এই শৈলীটি প্রচুর অতিরিক্ত পয়েন্টগুলিকে বিভক্ত করে এবং আপনাকে একটি খুব বাঁকানো বাঁক দেয়। এটি ggplot গ্রহণ করার পদ্ধতি হিসাবেও উপস্থিত হয়। মসৃণতার মানক স্তরটি যদি ঠিক থাকে তবে আপনি কেবল ব্যবহার করতে পারেন।

scatter.smooth(x, y)

Question 5

qplot () ggplot2 প্যাকেজের মধ্যে ফাংশন ব্যবহার করতে খুবই সহজ এবং একটি মার্জিত সমাধান আস্থা ব্যান্ড অন্তর্ভুক্ত প্রদান করে। এই ক্ষেত্রে,

qplot(x,y, geom='smooth', span =0.5)

উত্পাদন এখানে চিত্র বর্ণনা লিখুন

Question 6

ডার্ক যেমন বলেছিলেন তেমন হ্রাস একটি খুব ভাল পদ্ধতি।

আরেকটি বিকল্প বেজিয়ার স্প্লাইস ব্যবহার করছে, যা আপনার কাছে অনেকগুলি ডেটা পয়েন্ট না থাকলে কিছু ক্ষেত্রে LOESS এর চেয়ে আরও ভাল কাজ করতে পারে।

এখানে আপনি একটি উদাহরণ পাবেন: http://rosettacode.org/wiki/Cubic_bezier_curves#R

# x, y: the x and y coordinates of the hull points
# n: the number of points in the curve.
bezierCurve <- function(x, y, n=10)
    {
    outx <- NULL
    outy <- NULL

    i <- 1
    for (t in seq(0, 1, length.out=n))
        {
        b <- bez(x, y, t)
        outx[i] <- b$x
        outy[i] <- b$y

        i <- i+1
        }

    return (list(x=outx, y=outy))
    }

bez <- function(x, y, t)
    {
    outx <- 0
    outy <- 0
    n <- length(x)-1
    for (i in 0:n)
        {
        outx <- outx + choose(n, i)*((1-t)^(n-i))*t^i*x[i+1]
        outy <- outy + choose(n, i)*((1-t)^(n-i))*t^i*y[i+1]
        }

    return (list(x=outx, y=outy))
    }

# Example usage
x <- c(4,6,4,5,6,7)
y <- 1:6
plot(x, y, "o", pch=20)
points(bezierCurve(x,y,20), type="l", col="red")

Question 7

অন্যান্য উত্তরগুলি সমস্ত ভাল পন্থা। তবে আর-তে আরও কয়েকটি অপশন রয়েছে যা উল্লেখ করা হয়নি lowessএবং এর সাথে approxআরও ভাল ফিট বা দ্রুত পারফরম্যান্স দিতে পারে।

বিকল্প ডেটাসেটের সাহায্যে সুবিধাগুলি আরও সহজেই প্রদর্শিত হয়:

sigmoid <- function(x)
{
  y<-1/(1+exp(-.15*(x-100)))
  return(y)
}

dat<-data.frame(x=rnorm(5000)*30+100)
dat$y<-as.numeric(as.logical(round(sigmoid(dat$x)+rnorm(5000)*.3,0)))

সিগময়েড বক্ররেখা যা এটি উত্পন্ন করে তা এখানে দেওয়া তথ্য রয়েছে:

জনসংখ্যার মধ্যে বাইনারি আচরণ দেখার সময় এই ধরণের ডেটা সাধারণ। উদাহরণস্বরূপ, কোনও গ্রাহক সাইটে কিছু পরিমাণ সময় (x- অক্ষ) ব্যয় করেছেন তার বিপরীতে কোনও কিছু (y- অক্ষের উপর বাইনারি 1/0) কিনেছিল কিনা তা এই প্লট হতে পারে।

এই ফাংশনগুলির পারফরম্যান্স পার্থক্যগুলি আরও ভালভাবে প্রদর্শন করতে প্রচুর পরিমাণে পয়েন্ট ব্যবহার করা হয়।

Smooth, splineএবং smooth.splineআমি চেষ্টা করেছি এমন কোনও পরামিতিগুলির সেট সহ এই জাতীয় ডেটাসেটে জিব্বারিশ উত্পাদন করে, সম্ভবত প্রতিটি পয়েন্টে মানচিত্রের প্রবণতার কারণে, যা কোলাহলযুক্ত ডেটার জন্য কাজ করে না।

loess, lowess, এবং approxফাংশন সব ব্যবহারযোগ্য ফল, যদিও মাত্র সবে জন্য approx। হালকা অপ্টিমাইজড প্যারামিটার ব্যবহারের জন্য এটির জন্য কোড:

loessFit <- loess(y~x, dat, span = 0.6)
loessFit <- data.frame(x=loessFit$x,y=loessFit$fitted)
loessFit <- loessFit[order(loessFit$x),]

approxFit <- approx(dat,n = 15)

lowessFit <-data.frame(lowess(dat,f = .6,iter=1))

এবং ফলাফল:

plot(dat,col='gray')
curve(sigmoid,0,200,add=TRUE,col='blue',)
lines(lowessFit,col='red')
lines(loessFit,col='green')
lines(approxFit,col='purple')
legend(150,.6,
       legend=c("Sigmoid","Loess","Lowess",'Approx'),
       lty=c(1,1),
       lwd=c(2.5,2.5),col=c("blue","green","red","purple"))

আপনি দেখতে পাচ্ছেন, lowessআসল উত্পন্ন কার্ভটির জন্য একটি নিখুঁত নিখুঁত ফিট উত্পাদন করে। Loessকাছাকাছি, তবে উভয় লেজতে একটি অদ্ভুত বিচ্যুতি অনুভব করে।

যদিও আপনার ডেটা সেটটি খুব আলাদা হতে হবে, আমি খুঁজে পেয়েছি যে অন্য ডেটাসেট উভয় সঙ্গে, একভাবে সঞ্চালন loessএবং lowessভালো ফল উৎপাদন করতে সক্ষম। আপনি মাপদণ্ডের দিকে তাকালে পার্থক্যগুলি আরও তাত্পর্যপূর্ণ হয়ে ওঠে:

> microbenchmark::microbenchmark(loess(y~x, dat, span = 0.6),approx(dat,n = 20),lowess(dat,f = .6,iter=1),times=20)
Unit: milliseconds
                           expr        min         lq       mean     median        uq        max neval cld
  loess(y ~ x, dat, span = 0.6) 153.034810 154.450750 156.794257 156.004357 159.23183 163.117746    20   c
            approx(dat, n = 20)   1.297685   1.346773   1.689133   1.441823   1.86018   4.281735    20 a  
 lowess(dat, f = 0.6, iter = 1)   9.637583  10.085613  11.270911  11.350722  12.33046  12.495343    20  b

Loessযতক্ষণ পর্যন্ত 100x নিচ্ছে তা অত্যন্ত ধীর approx। এখনও Lowessতুলনামূলকভাবে approxদ্রুত চলার সময় (লসের চেয়ে 15x দ্রুত) এর চেয়ে ভাল ফলাফল তৈরি করে ।

Loess পয়েন্ট সংখ্যা বৃদ্ধি পাওয়ায় ক্রমশ বোকা হয়ে যায়, প্রায় ৫০,০০০ অব্যবহৃত হয়ে পড়ে।

সম্পাদনা: অতিরিক্ত গবেষণা দেখায় যে loessনির্দিষ্ট ডেটাসেটের জন্য আরও ভাল ফিট করে। আপনি যদি একটি ছোট ডেটাसेट নিয়ে কাজ করছেন বা পারফরম্যান্স বিবেচনা না করে থাকেন তবে উভয় ফাংশন চেষ্টা করে ফলাফলের তুলনা করুন।

Question 8

Ggplot2 এ আপনি বেশ কয়েকটি উপায়ে মসৃণ করতে পারেন, উদাহরণস্বরূপ:

library(ggplot2)
ggplot(mtcars, aes(wt, mpg)) + geom_point() +
  geom_smooth(method = "gam", formula = y ~ poly(x, 2)) 
ggplot(mtcars, aes(wt, mpg)) + geom_point() +
  geom_smooth(method = "loess", span = 0.3, se = FALSE)

Question 9

আমি এই পদ্ধতিটি দেখায়নি, তাই অন্য কেউ যদি এটির সন্ধান করে তবে আমি দেখতে পেলাম যে ggplot ডকুমেন্টেশন এমন gamপদ্ধতি ব্যবহারের জন্য একটি কৌশল প্রস্তাব করেছিল loessযা ছোট ডেটা সেটগুলির সাথে কাজ করার সময় অনুরূপ ফলাফল তৈরি করে।

library(ggplot2)
x <- 1:10
y <- c(2,4,6,8,7,8,14,16,18,20)

df <- data.frame(x,y)
r <- ggplot(df, aes(x = x, y = y)) + geom_smooth(method = "gam", formula = y ~ s(x, bs = "cs"))+geom_point()
r

প্রথমে লোস পদ্ধতি এবং অটো সূত্রে দ্বিতীয় প্রস্তাবিত সূত্রের সাথে গ্যাম পদ্ধতিটি