স্মুথিং - কখন এটি ব্যবহার করবেন এবং কখন করবেন না?


18

উইলিয়াম ব্রিগসের ব্লগে বেশ পুরাতন পোস্ট রয়েছে যা তথ্য স্মুথ করার অসুবিধাগুলি দেখে এবং সেই স্মুথড ডেটা বিশ্লেষণের মাধ্যমে নিয়ে যায়। মূল যুক্তিটি হ'ল:

যদি, ক্ষিপ্ততার মুহুর্তে, আপনি মসৃণ সময় সিরিজের ডেটা করেন এবং আপনি অন্যান্য বিশ্লেষণের ইনপুট হিসাবে এটি ব্যবহার করেন, আপনি নিজেকে বোকা হওয়ার সম্ভাবনা নাটকীয়ভাবে বাড়িয়ে তোলেন! এর কারণ হ'ল স্মুথিং প্রফুল্ল সংকেতকে প্ররোচিত করে — এমন সংকেতগুলি যা অন্যান্য বিশ্লেষণাত্মক পদ্ধতির কাছে বাস্তব দেখায়। আপনার চূড়ান্ত ফলাফল সম্পর্কে আপনি কী নিশ্চিত হন তা বিবেচনাধীন!

যাইহোক, কখন মসৃণ করা যায় এবং কখন না হয় সে সম্পর্কে আমি বিস্তৃত আলোচনার জন্য লড়াই করছি।

সেই স্মুটেড ডেটা অন্যান্য বিশ্লেষণের ইনপুট হিসাবে ব্যবহার করার সময় কি মসৃণ হওয়ার বিষয়টি কেবলই অস্বীকার করা হয় বা যখন স্মুথিংয়ের পরামর্শ দেওয়া হয় না তখন কি অন্যান্য পরিস্থিতি রয়েছে? বিপরীতে, এমন পরিস্থিতি রয়েছে যেখানে ধূমপানের পরামর্শ দেওয়া হয়?


1
টাইম সিরিজ বিশ্লেষণের বেশিরভাগ অ্যাপ্লিকেশনগুলি এক ধরণের স্মুথযুক্ত, এমনকি যখন এটি বর্ণিত হয় না। স্মোথিং অনুসন্ধান বা সংক্ষিপ্ত ডিভাইস হিসাবে ব্যবহার করা যেতে পারে - কিছু ক্ষেত্রে, এটি এমনকি মূল বা কেবল ব্যবহৃত পদ্ধতি - বা কোনও উদ্দেশ্যে উপদ্রব বা গৌণ স্বার্থ হিসাবে বিবেচিত বৈশিষ্ট্যগুলি অপসারণের জন্য।
নিক কক্স

4
দাবি অস্বীকার: উদ্ধৃত পুরো ব্লগ পোস্টটি আমি পড়িনি। আমি প্রাথমিক টাইপগুলি ("টাইম সিরিজ", "মন্টি ক্যারল") পেরিয়ে যেতে পারি না এবং এর স্বর এবং স্টাইলটি আকর্ষণীয় ছিল না। তবে আমি কারও ব্লগের মাধ্যমে সময় সিরিজ বিশ্লেষণের নীতিগুলি বা সাধারণত পরিসংখ্যান শেখার চেষ্টা করার পরামর্শ দেব না।
নিক কক্স

@ নিককক্স সম্মত হয়েছে, এবং বিশেষত এমন কোনও ব্লগ থেকে নয় যা কল্পনা করার জন্য কুড়াল রয়েছে বলে মনে হচ্ছে।
হংক ওওই

@ হংসওই হ্যাঁ! আমি আমার মন্তব্যের খসড়া থেকে কিছু পছন্দ বাক্যাংশ মুছে ফেলেছি যা সম্ভবত ব্লগের চেয়ে কম মতামত বলে মনে হচ্ছে।
নিক কক্স

1
ব্রিগস নুনের দানা দিয়ে যা লিখেছিল তা আমি নিয়ে যাব।
মোমো

উত্তর:


16

এক্সফেনশনিয়াল স্মুথিং এমন একটি ক্লাসিক কৌশল যা ননকসাল সময় সিরিজের পূর্বাভাসে ব্যবহৃত হয়। যতক্ষণ আপনি কেবল এটি সহজ সরল পূর্বাভাসে ব্যবহার করেন এবং নমুনা স্মুথড ফিটগুলি অন্য কোনও ডেটা মাইনিং বা স্ট্যাটিস্টিকাল অ্যালগরিদমের ইনপুট হিসাবে ব্যবহার করবেন না ততক্ষণ ব্রিগসের সমালোচনা প্রযোজ্য না। (তদনুসারে, আমি এটি "উপস্থাপনের জন্য স্মুথড ডেটা উত্পাদন করার জন্য" ব্যবহার করার বিষয়ে সন্দেহ করি, যেমন উইকিপিডিয়া বলেছে - স্মুথড-অ্যাওর ভেরিয়েবিলিটি গোপন করে এটি বিভ্রান্তিকর হতে পারে))

এক্সপেনশনাল স্মুথিংয়ের জন্য এখানে একটি পাঠ্যপুস্তকের ভূমিকা রয়েছে।

এবং এখানে একটি (10 বছর বয়সী, তবে এখনও প্রাসঙ্গিক) পর্যালোচনা নিবন্ধ রয়েছে।


সম্পাদনা: ব্রিগসের সমালোচনার বৈধতা সম্পর্কে কিছুটা সন্দেহ রয়েছে বলে মনে হচ্ছে , সম্ভবত এটির প্যাকেজিং দ্বারা কিছুটা প্রভাবিত । আমি সম্পূর্ণরূপে সম্মত হই যে ব্রিগসের সুরটি ক্ষয়কর হতে পারে। যাইহোক, আমি ব্যাখ্যা করতে চাই কেন আমি মনে করি কেন তার একটি বক্তব্য রয়েছে।

নীচে, আমি প্রতিটি 10,000 টি পর্যবেক্ষণের 10,000 জোড়া টাইম সিরিজ সিমুলেট করছি। সমস্ত সিরিজ সাদা গোলমাল, যা কোনও সম্পর্ক নেই। সুতরাং একটি স্ট্যান্ডার্ড পারস্পরিক সম্পর্ক পরীক্ষা চালানোর মাধ্যমে পি মানগুলি পাওয়া উচিত যা [0,1] এ অভিন্নভাবে বিতরণ করা হয়। যেমনটি হয় (নীচে বাম দিকে হিস্টোগ্রাম)।

তবে, ধরুন আমরা প্রথমে প্রতিটি সিরিজ মসৃণ করি এবং স্মুথড ডেটার সাথে সম্পর্কিত পরীক্ষা প্রয়োগ করি । অবাক করার মতো কিছু উপস্থিত রয়েছে: যেহেতু আমরা ডেটা থেকে প্রচুর পরিবর্তনশীলতা সরিয়ে নিয়েছি, আমরা পি মানগুলি যে খুব ছোট । আমাদের পারস্পরিক সম্পর্ক পরীক্ষা ভারী পক্ষপাতদুষ্ট। সুতরাং আমরা মূল সিরিজের মধ্যে যে কোনও সম্পর্ক সম্পর্কে খুব নিশ্চিত থাকব, যা ব্রিগেস বলছে।

প্রশ্নটি সত্যই ঝুলে আছে যে আমরা পূর্বাভাসের জন্য স্মুটেড ডেটা ব্যবহার করি, কোন ক্ষেত্রে স্মুথিং বৈধ হয়, বা আমরা কিছু বিশ্লেষণাত্মক অ্যালগরিদমের ইনপুট হিসাবে অন্তর্ভুক্ত করি কিনা, সেক্ষেত্রে পরিবর্তনশীলতা অপসারণ করা আমাদের ডেটাগুলিতে ওয়্যারেন্টেড হওয়ার চেয়ে উচ্চতর নিশ্চিততার অনুকরণ করবে। ইনপুট ডেটাতে এই অনিয়ন্ত্রিত নিশ্চিততাটি শেষের ফলাফলগুলি বহন করে এবং এর জন্য অ্যাকাউন্টিং করা দরকার, অন্যথায় সমস্ত অনুমানগুলি খুব নিশ্চিত হবে। (এবং অবশ্যই যদি আমরা পূর্বাভাসের জন্য "স্ফীত সুনিশ্চিত" ভিত্তিক কোনও মডেল ব্যবহার করি তবে আমরা খুব সামান্য ভবিষ্যদ্বাণী অন্তরও পাই))

n.series <- 1e4
n.time <- 1e2

p.corr <- p.corr.smoothed <- rep(NA,n.series)
set.seed(1)
for ( ii in 1:n.series ) {
    A <- rnorm(n.time)
    B <- rnorm(n.time)
    p.corr[ii] <- cor.test(A,B)$p.value
	p.corr.smoothed[ii] <- cor.test(lowess(A)$y,lowess(B)$y)$p.value
}

par(mfrow=c(1,2))
hist(p.corr,col="grey",xlab="",main="p values\nunsmoothed data")
hist(p.corr.smoothed,col="grey",xlab="",main="p values\nsmoothed data")

পি মান


1
ভাল সময় সিরিজ বিশ্লেষণের জন্য আমি এটিকে অ্যাকোরিমেটিক হিসাবে গ্রহণ করব যে কাঁচা ডেটাও দেখানো ছাড়া কোনও মসৃণতা প্রদর্শিত হয় না।
নিক কক্স

1

কোনও মডেলিং বিশ্লেষণের জন্য ধূমপান করা অনুপযুক্ত দাবি করা অন্যথায় যেমন হতে পারে তার চেয়ে উচ্চতর বর্গক্ষেত্র ত্রুটি থাকার জন্য এটি নিন্দা করে। গড় বর্গ ত্রুটি বা এমএসই তিনটি পদে বিভক্ত করা যেতে পারে, value ias পক্ষপাত '' নামে একটি মানের একটি বর্গ, একটি বৈকল্পিক এবং কিছু অপ্রতুল্য ত্রুটি। (এটি নীচের উদ্ধৃতিগুলিতে দেখানো হয়েছে)) খুব ধীরে ধীরে ধীরে ধীরে ধীরে ধীরে ধীরে ধীরে ধীরে ধীরে ধীরে ধীরে ধীরে ধীরে ধীরে ধীরে ধীরে নেমে আসা মডেলগুলিতে উচ্চ বৈকল্পিকতা থাকে, এবং খুব রুক্ষ মডেলের উচ্চতম বৈকল্পিক থাকে এবং কম পক্ষপাত হয়।

এ নিয়ে দার্শনিক কিছু নেই। এটি গাণিতিক বৈশিষ্ট্য। এটি গোলমাল বা সিস্টেমের চরিত্রের উপর নির্ভর করে না।

দেখা:

http://scott.fortmann-roe.com/docs/BiasVariance.html

https://galton.uchicago.edu/~lafferty/pdf/nonparam.pdf

http://www.inf.ed.ac.uk/teaching/courses/mlsc/Notes/Lecture4/BiasVariance.pdf (এটি পচন থেকে উদ্ভূত হয়েছে))

http://www.cs.columbia.edu/~blei/fogm/2015F/notes/regularized-regression.pdf (ব্লি অন্যরকমভাবে একই কাজ করে এবং যখন কেউ ভবিষ্যদ্বাণী করার চেষ্টা করে তখন কী ঘটেছিল তা নিয়ে আসে।)

শাস্ত্রীয় পরিসংখ্যান প্রায় সর্বদা নিরপেক্ষ অনুমানের উপর জোর দিয়েছিল। ১৯৫৫ সালে স্ট্যানফোর্ডের পরিসংখ্যানবিদ চার্লস স্টেইন দেখিয়েছিলেন যে গুরুত্বপূর্ণ বিশেষ মামলার ক্ষেত্রে নিরপেক্ষ অনুমানকগুলির সংমিশ্রণ রয়েছে যা বিশেষত জ্যামেস-স্টেইন ইস্টিমিটারস নামে পরিচিত called ব্র্যাডলি এফ্রন অন্তর্দৃষ্টি দিয়ে এই বিপ্লব সম্পর্কে খুব সহজলভ্য একটি লেখা লিখেছেন: http://statweb.stanford.edu/~ckirby/brad/other/Article1977.pdf

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.