এক্সফেনশনিয়াল স্মুথিং এমন একটি ক্লাসিক কৌশল যা ননকসাল সময় সিরিজের পূর্বাভাসে ব্যবহৃত হয়। যতক্ষণ আপনি কেবল এটি সহজ সরল পূর্বাভাসে ব্যবহার করেন এবং নমুনা স্মুথড ফিটগুলি অন্য কোনও ডেটা মাইনিং বা স্ট্যাটিস্টিকাল অ্যালগরিদমের ইনপুট হিসাবে ব্যবহার করবেন না ততক্ষণ ব্রিগসের সমালোচনা প্রযোজ্য না। (তদনুসারে, আমি এটি "উপস্থাপনের জন্য স্মুথড ডেটা উত্পাদন করার জন্য" ব্যবহার করার বিষয়ে সন্দেহ করি, যেমন উইকিপিডিয়া বলেছে - স্মুথড-অ্যাওর ভেরিয়েবিলিটি গোপন করে এটি বিভ্রান্তিকর হতে পারে))
এক্সপেনশনাল স্মুথিংয়ের জন্য এখানে একটি পাঠ্যপুস্তকের ভূমিকা রয়েছে।
এবং এখানে একটি (10 বছর বয়সী, তবে এখনও প্রাসঙ্গিক) পর্যালোচনা নিবন্ধ রয়েছে।
সম্পাদনা: ব্রিগসের সমালোচনার বৈধতা সম্পর্কে কিছুটা সন্দেহ রয়েছে বলে মনে হচ্ছে , সম্ভবত এটির প্যাকেজিং দ্বারা কিছুটা প্রভাবিত । আমি সম্পূর্ণরূপে সম্মত হই যে ব্রিগসের সুরটি ক্ষয়কর হতে পারে। যাইহোক, আমি ব্যাখ্যা করতে চাই কেন আমি মনে করি কেন তার একটি বক্তব্য রয়েছে।
নীচে, আমি প্রতিটি 10,000 টি পর্যবেক্ষণের 10,000 জোড়া টাইম সিরিজ সিমুলেট করছি। সমস্ত সিরিজ সাদা গোলমাল, যা কোনও সম্পর্ক নেই। সুতরাং একটি স্ট্যান্ডার্ড পারস্পরিক সম্পর্ক পরীক্ষা চালানোর মাধ্যমে পি মানগুলি পাওয়া উচিত যা [0,1] এ অভিন্নভাবে বিতরণ করা হয়। যেমনটি হয় (নীচে বাম দিকে হিস্টোগ্রাম)।
তবে, ধরুন আমরা প্রথমে প্রতিটি সিরিজ মসৃণ করি এবং স্মুথড ডেটার সাথে সম্পর্কিত পরীক্ষা প্রয়োগ করি । অবাক করার মতো কিছু উপস্থিত রয়েছে: যেহেতু আমরা ডেটা থেকে প্রচুর পরিবর্তনশীলতা সরিয়ে নিয়েছি, আমরা পি মানগুলি যে খুব ছোট । আমাদের পারস্পরিক সম্পর্ক পরীক্ষা ভারী পক্ষপাতদুষ্ট। সুতরাং আমরা মূল সিরিজের মধ্যে যে কোনও সম্পর্ক সম্পর্কে খুব নিশ্চিত থাকব, যা ব্রিগেস বলছে।
প্রশ্নটি সত্যই ঝুলে আছে যে আমরা পূর্বাভাসের জন্য স্মুটেড ডেটা ব্যবহার করি, কোন ক্ষেত্রে স্মুথিং বৈধ হয়, বা আমরা কিছু বিশ্লেষণাত্মক অ্যালগরিদমের ইনপুট হিসাবে অন্তর্ভুক্ত করি কিনা, সেক্ষেত্রে পরিবর্তনশীলতা অপসারণ করা আমাদের ডেটাগুলিতে ওয়্যারেন্টেড হওয়ার চেয়ে উচ্চতর নিশ্চিততার অনুকরণ করবে। ইনপুট ডেটাতে এই অনিয়ন্ত্রিত নিশ্চিততাটি শেষের ফলাফলগুলি বহন করে এবং এর জন্য অ্যাকাউন্টিং করা দরকার, অন্যথায় সমস্ত অনুমানগুলি খুব নিশ্চিত হবে। (এবং অবশ্যই যদি আমরা পূর্বাভাসের জন্য "স্ফীত সুনিশ্চিত" ভিত্তিক কোনও মডেল ব্যবহার করি তবে আমরা খুব সামান্য ভবিষ্যদ্বাণী অন্তরও পাই))
n.series <- 1e4
n.time <- 1e2
p.corr <- p.corr.smoothed <- rep(NA,n.series)
set.seed(1)
for ( ii in 1:n.series ) {
A <- rnorm(n.time)
B <- rnorm(n.time)
p.corr[ii] <- cor.test(A,B)$p.value
p.corr.smoothed[ii] <- cor.test(lowess(A)$y,lowess(B)$y)$p.value
}
par(mfrow=c(1,2))
hist(p.corr,col="grey",xlab="",main="p values\nunsmoothed data")
hist(p.corr.smoothed,col="grey",xlab="",main="p values\nsmoothed data")