স্প্লাইসগুলি কি ডেটাটিকে উপচে ফেলেছে?


47

আমার সমস্যা : আমি সম্প্রতি একজন পরিসংখ্যানবিদের সাথে সাক্ষাত করেছিলাম যা আমাকে জানিয়েছিল যে স্প্লাইনগুলি কেবল ডেটা অন্বেষণের জন্য কার্যকর এবং অতিরিক্ত মানানসইয়ের শিকার হয়, সুতরাং ভবিষ্যদ্বাণীতে এটি কার্যকর নয়। তিনি সরল বহুবর্ষের সাথে অন্বেষণকে পছন্দ করেছেন ... যেহেতু আমি স্প্লাইনের একটি বড় অনুরাগী, এবং এটি আমার অন্তর্নিহিতের বিপরীতে যায় আমি এই যুক্তিগুলি কতটা বৈধ তা খুঁজে পেতে আগ্রহী এবং যদি অ্যান্টি-স্প্লাইন- এর একটি বৃহত গ্রুপ থাকে সেখানে কর্মীরা ?

পটভূমি : আমি যখন আমার মডেলগুলি তৈরি করি তখন ফ্র্যাঙ্ক হ্যারেল, রেগ্রেশন মডেলিং কৌশলগুলি (1) অনুসরণ করার চেষ্টা করি। তিনি যুক্তি দিয়েছিলেন যে নিয়মিত ঘন স্প্লাইজগুলি অবিচ্ছিন্ন ভেরিয়েবলগুলি অন্বেষণের জন্য একটি বৈধ সরঞ্জাম। তিনি আরও যুক্তি দিয়েছিলেন যে থ্রোসোল্ডস, লোগারিথমিক (২) এর মতো নির্দিষ্ট সম্পর্কের মডেলিংয়ে বহুভুজগুলি দুর্বল। মডেলের লিনিয়ারিটি পরীক্ষার জন্য তিনি স্প্লাইনের জন্য একটি আনোভা পরীক্ষার পরামর্শ দেন:

H0:β2=β3==βk1=0

আমি স্প্লিংসের সাথে ওভার ফিট করার জন্য গুগল করেছি তবে খুব বেশি কার্যকর খুঁজে পেলাম না (খুব বেশি নট ব্যবহার না করার বিষয়ে সাধারণ সতর্কতা বাদে)। এই ফোরামে সেখানে স্প্লাইন মডেলিং, জন্য একটি পক্ষপাত আছে বলে মনে হয় Kolassa , Harrell , gung

পলিনোমিয়াল সম্পর্কে একটি ব্লগ পোস্ট পেয়েছি, অতিপরিচয়টির শয়তান যা বহুবচনগুলির পূর্বাভাস দেওয়ার বিষয়ে কথা বলে। পোস্টটি এই মন্তব্যগুলির সাথে শেষ হয়:

কিছু উপায়ে এখানে উপস্থাপিত উদাহরণগুলি প্রতারণা করছে - বহুবর্ষীয় রিগ্রেশন অত্যন্ত উচ্চ-শক্তিশালী হিসাবে পরিচিত। অনুশীলনে আরও ভাল হ'ল বহুত্বের পরিবর্তে স্প্লাইন ব্যবহার করা।

এখন এটি আমাকে উদাহরণগুলির সাথে কীভাবে স্প্লাইমগুলি সম্পাদন করবে তা পরীক্ষা করতে অনুরোধ করেছে:

library(rms)
p4 <- poly(1:100, degree=4)
true4 <- p4 %*% c(1,2,-6,9)
days <- 1:70

set.seed(7987)
noise4 <- true4 + rnorm(100, sd=.5)
reg.n4.4 <- lm(noise4[1:70] ~ poly(days, 4))
reg.n4.4ns <- lm(noise4[1:70] ~ ns(days,4))
dd <- datadist(noise4[1:70], days)
options("datadist" = "dd")
reg.n4.4rcs_ols <- ols(noise4[1:70] ~ rcs(days,5))

plot(1:100, noise4)
nd <- data.frame(days=1:100)
lines(1:100, predict(reg.n4.4, newdata=nd), col="orange", lwd=3)
lines(1:100, predict(reg.n4.4ns, newdata=nd), col="red", lwd=3)
lines(1:100, predict(reg.n4.4rcs_ols, newdata=nd), col="darkblue", lwd=3)

legend("top", fill=c("orange", "red","darkblue"), 
       legend=c("Poly", "Natural splines", "RCS - ols"))

নিম্নলিখিত চিত্র দেয়: স্প্লাইজ এবং বহুভুজের একটি তুলনা

উপসংহারে আমি এতটা খুঁজে পাইনি যা আমাকে স্প্লাইসগুলি পুনর্বিবেচনার বিষয়ে বিশ্বাস করবে, আমি কী মিস করছি?

  1. এফই হ্যারেল, রিগ্রেশন মডেলিং কৌশলগুলি: লিনিয়ার মডেলগুলিতে অ্যাপ্লিকেশন সহ, লজিস্টিক রিগ্রেশন এবং বেঁচে থাকা বিশ্লেষণ, হার্ডকভার 1 ম এডের সফটকভার পুনর্মুদ্রণ। 2001. স্প্রিংগার, 2010।
  2. এফই হ্যারেল, কেএল লি, এবং বিজি পোলক, "ক্লিনিকাল স্টাডিজের রিগ্রেশন মডেল: ভবিষ্যদ্বাণীকারী এবং প্রতিক্রিয়ার মধ্যে সম্পর্ক নির্ধারণ," জেএনসিআই জে নটল ক্যান্সার ইনস্টিটিউট, খণ্ড। 80, না। 15, পৃষ্ঠা 1198–1202, অক্টোবর 1988।

হালনাগাদ

মন্তব্যগুলি আমাকে বিস্মিত করেছিল যে ডেটা স্প্যানের মধ্যে কিন্তু অস্বস্তিকর কার্ভগুলির সাথে কী ঘটে। বেশিরভাগ পরিস্থিতিতে আমি তথ্য সীমার বাইরে যাচ্ছি না, যেমন উপরের উদাহরণটি সূচিত করে indicates আমি নিশ্চিত নই যে এটি পূর্বাভাস হিসাবে যোগ্যতা অর্জন করেছে ...

যাইহোক এখানে একটি উদাহরণ যেখানে আমি আরও জটিল লাইন তৈরি করি যা বহুবর্ষে অনুবাদ করা যায় না। যেহেতু বেশিরভাগ পর্যবেক্ষণগুলি ডেটার কেন্দ্রে থাকে আমি সেগুলিও অনুকরণ করার চেষ্টা করেছি:

library(rms)
cmplx_line <-  1:200/10
cmplx_line <- cmplx_line + 0.05*(cmplx_line - quantile(cmplx_line, .7))^2
cmplx_line <- cmplx_line - 0.06*(cmplx_line - quantile(cmplx_line, .3))^2
center <- (length(cmplx_line)/4*2):(length(cmplx_line)/4*3)
cmplx_line[center] <- cmplx_line[center] + 
    dnorm(6*(1:length(center)-length(center)/2)/length(center))*10

ds <- data.frame(cmplx_line, x=1:200)

days <- 1:140/2

set.seed(1234)
sample <- round(rnorm(600, mean=100, 60))
sample <- sample[sample <= max(ds$x) & 
                     sample >= min(ds$x)]
sample_ds <- ds[sample, ]

sample_ds$noise4 <- sample_ds$cmplx_line + rnorm(nrow(sample_ds), sd=2)
reg.n4.4 <- lm(noise4 ~ poly(x, 6), data=sample_ds)
dd <- datadist(sample_ds)
options("datadist" = "dd")
reg.n4.4rcs_ols <- ols(noise4 ~ rcs(x, 7), data=sample_ds)
AIC(reg.n4.4)

plot(sample_ds$x, sample_ds$noise4, col="#AAAAAA")
lines(x=ds$x, y=ds$cmplx_line, lwd=3, col="black", lty=4)

nd <- data.frame(x=ds$x)
lines(ds$x, predict(reg.n4.4, newdata=ds), col="orange", lwd=3)
lines(ds$x, predict(reg.n4.4rcs_ols, newdata=ds), col="lightblue", lwd=3)

legend("bottomright", fill=c("black", "orange","lightblue"), 
       legend=c("True line", "Poly", "RCS - ols"), inset=.05)

এটি নিম্নলিখিত প্লট দেয়:

আরও জটিল অ-বহুপদী রেখার প্লট

আপডেট 2

যেহেতু এই পোস্টটি আমি একটি নিবন্ধ প্রকাশ করেছি যা একটি বড় ডেটাসেটে বয়সের জন্য অ-লিনিয়ারিটি দেখায়। পরিপূরকটি বিভিন্ন পদ্ধতির তুলনা করে এবং আমি এটি সম্পর্কে একটি ব্লগ পোস্ট লিখেছি ।


16
সত্যি বলতে আমি দেখতে পাচ্ছি না যে আপনার পরিসংখ্যানবিদ বন্ধুটি কোথা থেকে আসছেন, সত্যি কথা বলতে। আপনি পলিনোমায়ালগুলি এবং স্প্ল্লিংগুলির সাথে একই উপকার করতে পারেন। ওভারফিটিং আপনার ক্লাসের মডেলগুলির অত্যধিক ক্ষমতা সহ আসে; বিভিন্ন মডেলের পারফরম্যান্সকে কী আলাদা করে তা হ'ল তারা কীভাবে তাদের ক্ষমতা সীমাবদ্ধ করে। (প্রাকৃতিক) স্প্লাইজের জন্য, এটি গিঁটের স্থান এবং সংখ্যা, বহুবচনগুলির জন্য এটি ডিগ্রি।
লোক

1
@ গুই: এটি আমার বিশ্বাসও, আপনি যে পদ্ধতি ব্যবহার করুন না কেন আপনি সর্বদা আপনার ডেটাকে উপভোগ করতে পারেন। আমার রিগ্রেশন ক্লাস চলাকালীন আমার প্রফেসর আমাকে বলেছিলেন যে পলিনোমিয়ালগুলি বাঁক দেয় যেখানে বেশিরভাগ ডেটা ঘটে থাকে, ফলে চূড়ান্তটিকে আরও অবিশ্বস্ত করে তোলে। যদিও আমি এই দাবিকে সমর্থন করে কোনও নিবন্ধ পাইনি।
ম্যাক্স গর্ডন

আপনার প্রথম গ্রাফের সমস্ত বক্ররেখা ডানদিকের ডানদিকে ডেটা ফিট করতে ব্যর্থ।
এমিল ফ্রিডম্যান

1
উপরের গ্রাফের সময়টিতে কি 'এক্স' মাত্রা সম্পর্কিত? যদি এটি হয় তবে এই পদ্ধতির কোনওটিই যথাযথ নয়, কারণ উভয়ই 'ফরওয়ার্ডিং' এই অর্থে যে তারা প্রতিবেশী পয়েন্টগুলি (উভয় পক্ষের) মডেল হিসাবে ব্যবহার করে।
আরিফেল

@ আরিফাল: কোনও এক্স সময় পরিবর্তনশীল হিসাবে চিহ্নিত নয়। আমি এটিকে কিছু পরিবর্তনশীল হিসাবে ভেবেছিলাম যেখানে আমরা কেন্দ্রের সর্বাধিক সংখ্যক পর্যবেক্ষণের নমুনা করি। আমার গবেষণায় আমরা ভবিষ্যতের তেমন কিছু লক্ষ্য করি না, আমার ধারণা এটি অনুমানের চেয়ে অনুমানের ক্ষেত্রে বেশি। পরিবর্তনশীলটি হ'ল কোলেস্টেরল, রক্তচাপ, বিএমআই বা অন্য কোনও সাধারণ অবিচ্ছিন্ন পরিবর্তনশীল হতে পারে।
ম্যাক্স গর্ডন

উত্তর:


18

ওভারফিটিং অনেক বড় মডেলের একটি শ্রেণির মঞ্জুরি দিয়ে আসে। এটি অবিচ্ছিন্ন প্যারামিটারগুলির (যেমন স্প্লাইনস এবং পলিনোমিয়ালস) মডেলগুলির সাথে কিছুটা জটিল হয়ে ওঠে তবে আপনি যদি প্যারামিটারগুলিকে কিছু স্বতন্ত্র মান হিসাবে বিবেচনা করেন তবে আপনি দেখতে পাবেন যে নট / গুণফলের সংখ্যা বাড়িয়ে তুলতে উপলব্ধ মডেলগুলির সংখ্যা তাত্পর্যপূর্ণভাবে বাড়িয়ে তুলবে । প্রতিটি ডেটাসেটের জন্য একটি স্প্লাইন এবং একটি বহুভুজ রয়েছে যা যথাযথভাবে ফিট করে, যতক্ষণ আপনি পর্যাপ্ত সহগ / নটকে অনুমতি দেন allow এটি হতে পারে যে তিনটি নটযুক্ত একটি স্প্লিন তিনটি সহগের সাথে বহুবর্ষের চেয়ে বেশি সাফ করে, তবে এটি খুব কমই তুলনাযোগ্য comparison

আপনার যদি কম সংখ্যক প্যারামিটার এবং একটি বড় ডেটাসেট থাকে তবে আপনি যুক্তিসঙ্গতভাবে নিশ্চিত হতে পারেন যে আপনি অত্যধিক উপযোগী নন। আপনি যদি বেশি সংখ্যক প্যারামিটার চেষ্টা করতে চান তবে সেরা নম্বর খুঁজতে আপনি নিজের পরীক্ষার সেটের মধ্যে ক্রস যাচাইয়ের চেষ্টা করতে পারেন, বা আপনি ন্যূনতম বিবরণ দৈর্ঘ্যের মতো মানদণ্ড ব্যবহার করতে পারেন ।

সম্পাদনা : মন্তব্যে অনুরোধ অনুসারে, কীভাবে একজন এমডিএল প্রয়োগ করবেন তার একটি উদাহরণ। প্রথমে আপনাকে এই তথ্যটি মোকাবেলা করতে হবে যে আপনার ডেটা অবিচ্ছিন্ন, সুতরাং এটি সসীম কোডে প্রতিনিধিত্ব করা যায় না। সরলতার স্বার্থে আমরা ডেটা স্পেসটি পার্শ্ব- বাক্সগুলিতে ভাগ করব এবং ডেটা পয়েন্টগুলি বর্ণনা করার পরিবর্তে, আমরা যে বাক্সগুলিতে পড়ে সেগুলি বর্ণনা করব। এর অর্থ আমরা কিছু নির্ভুলতা হারাচ্ছি, তবে আমরা নির্বিচারে ছোট করে তুলতে পারি , তাই এটি খুব বেশি গুরুত্ব দেয় না।ϵϵϵ

এখন, কাজটি হ'ল কিছু পলিনমিকের সাহায্যে ডেটাসেটটিকে যথাসম্ভব যথাযথভাবে বর্ণনা করা। প্রথমে আমরা বহুপদী বর্ণনা করি। যদি এটি একটি এন-থিম অর্ডার বহুবচন হয় তবে আমাদের কেবল (এন + 1) সহগ সংরক্ষণ করতে হবে। আবার, আমাদের এই মানগুলি বিচক্ষণ করতে হবে। এর পরে আমাদের প্রথমে উপ-ফ্রি কোডিংয়ে মান সংরক্ষণ করতে হবে (সুতরাং কখন পড়া বন্ধ করতে হবে তা আমরা জানি) এবং তারপরেn + 1nn+1প্যারামিটার মান। এই তথ্যের সাথে আমাদের কোডের একটি রিসিভার বহুপদী পুনরুদ্ধার করতে পারে। তারপরে আমরা ডেটাসেট সংরক্ষণের জন্য প্রয়োজনীয় অন্যান্য তথ্য যুক্ত করব। প্রতিটি ডেটাপয়েন্টের জন্য আমরা এক্স-ভ্যালু দিয়ে থাকি এবং তারপরে ডেটা পয়েন্টে উপরে বা নীচে কতগুলি বাক্স থাকে তা বহুবর্ষের বাইরে থাকে। উভয় মান আমরা উপসর্গবিহীন কোডিংয়ে সঞ্চয় করি যাতে সংক্ষিপ্ত মানগুলিকে কয়েকটি বিটের প্রয়োজন হয় এবং পয়েন্টগুলির মধ্যে আমাদের সীমানার প্রয়োজন হয় না won't (আপনি কেবলমাত্র মানের মধ্যে বৃদ্ধি সংরক্ষণ করে এক্স-মানগুলির জন্য কোডটি ছোট করতে পারেন)

এখানে মূল কথাটি হ'ল ট্রেড অফ। যদি আমি একটি অর্ডার বহুবচন (যেমন f (x) = 3.4) পছন্দ করি তবে মডেলটি সংরক্ষণ করা খুব সহজ তবে y- মানগুলির জন্য আমি মূলত দূরত্বটি সংরক্ষণ করছি। আরও সহগগুলি আমাকে আরও ভাল ফিটিং বহুবর্ষ দেয় (এবং এইভাবে y মানগুলির জন্য সংক্ষিপ্ত কোডগুলি) তবে আমাকে মডেলটি বর্ণনা করে আরও বিট ব্যয় করতে হবে। মডেল যা আপনাকে আপনার ডেটার জন্য সবচেয়ে সংক্ষিপ্ত কোড দেয় এমডিএল মাপদণ্ডের দ্বারা সেরা ফিট।

(দ্রষ্টব্য যে এটি 'ক্রুড এমডিএল' হিসাবে পরিচিত, এবং বিভিন্ন প্রযুক্তিগত সমস্যাগুলি সমাধান করতে আপনি কিছু সংশোধন করতে পারেন)।


আপনার উত্তরের জন্য পিটারকে ধন্যবাদ। আমি এমডিএলকে ঘিরে আমার মাথা গুটিয়ে দেওয়ার চেষ্টা করেছি, বিশেষত কীভাবে এটি প্রয়োগ করতে হয়। আমার এক উদাহরণের উপর ভিত্তি করে এটি ব্যাখ্যা করা ভাল লাগবে। অ-পরিসংখ্যানবিদ হিসাবে আমি অন্তর্নিহিত লজিস্টিকগুলি বোঝার আগে বিষয়গুলির উদাহরণ দিয়ে থাকতে পছন্দ করি। উইকি-নিবন্ধে মুদ্রার উদাহরণটি আমার কাছে পৌঁছায়নি ...
ম্যাক্স গর্ডন

আমি একটি উদাহরণ যুক্ত করেছি।
পিটার

আপনাকে উদাহরণস্বরূপ পিটারকে ধন্যবাদ, এটি এখন আমার কাছে আরও স্পষ্ট।
ম্যাক্স গর্ডন

20

পরিসংখ্যানবিদরা যুগে যুগে বহুবর্ষীয় ফিটনেসের বিষয়ে তর্ক করে চলেছেন এবং আমার অভিজ্ঞতায় এটি এলো:

স্প্লিংস মূলত একসাথে তৈরি বিভিন্ন সমীকরণের একটি সিরিজ যা ডেটা সীমার বাইরে প্রকল্পের দক্ষতার ব্যয়ে আন্তঃবাহিত মানগুলির যথার্থতা বাড়ায় to যদি আপনি জানেন যে আপনার ডেটাটি খাঁটি এবং একটি সুসংগত উত্স থেকে আসছে এবং আপনি যদি মূল্যবোধের সীমার মধ্যে বিভিন্ন মানের উপস্থিতির সম্ভাবনা বর্ণনা করার চেষ্টা করছেন তবে এটি দুর্দান্ত। যাইহোক, আমরা সাধারণত আমাদের ডেটা চালিত তাত্ত্বিক আন্ডারপিনিংগুলি সম্পর্কে তেমন কিছু শিখি না, যেহেতু পুরানো স্প্লাইনটি সঠিকভাবে ডেটা বর্ণনা করা বন্ধ করলে একটি নতুন স্প্লাইন শুরু হয়। এটি আমাদের ডেটার বাইরে মূল্যবোধের প্রায় ভবিষ্যদ্বাণী করে।

এখন, স্প্লাইজস এই ক্ষেত্রে অনন্য নয়। বহুপদী ফাংশনগুলি আসলে একই সমস্যায় ভোগে যদি আমরা কেবলমাত্র ডেটা ফিটিং করি এবং ভেরিয়েবলগুলি বেছে নেওয়ার জন্য কোনও তাত্ত্বিক কাঠামো ব্যবহার না করি। যাদের একটি সুসংহত থিয়োরিয়িং ড্রাইভিং রয়েছে যা ভেরিয়েবলগুলি পরিবর্তিত হতে দেয় এবং তথ্যের বাইরে ভবিষ্যদ্বাণীগুলি বহির্ভূত করতে জটিল বহুবচনীয় কার্যক্রমে কতটা বেশি বিশ্বাস করা যায়।

অনেক পরিসংখ্যানবিদরা যদিও পূর্ব-প্রতিষ্ঠিত তাত্ত্বিক কাঠামোর সাহায্য ছাড়াই ডেটা নিয়ে কাজ করছেন এবং এটি কিছু লোককে সাধারণ বহুবর্ষের দিকে ঠেলে দেয়। তারা যুক্তি দেয় যে একটি স্বল্পতর নমনীয় ফাংশন যা ডেটা মাপসই করে তথ্যের বাইরে মূল্যবোধের সঠিকভাবে পূর্বাভাস দেয়, কারণ ফাংশনটি ডেটাগুলির মধ্যে বিশৃঙ্খলা দ্বারা পরিচালিত হওয়ার সম্ভাবনা কম। সরল বহুবচনগুলি পছন্দ করে এমন লোকদের সাথে আমার এই সম্পর্কে কথোপকথন চলাকালীন, আমি কখনও কোনও বিরোধী-স্প্লাইন গ্রুপের অনুভূতি অর্জন করতে পারি নি। এটি সাধারণ পলিটিকালগুলির মতো আরও কিছু বোধ করে যা কিছু পরিসংখ্যানবিদদের অতিরিক্ত মানা এড়ানো সম্পর্কে আরও স্বাচ্ছন্দ্য বোধ করে।

দাবি পরিত্যাগী

ব্যক্তিগতভাবে, আমি আমার বেশিরভাগ ডেটা দিয়ে স্প্লাইজ বা সাধারণ বহুভুজ ব্যবহার করার প্রবণতা রাখি না, কারণ আমি অনেক প্রাক-প্রতিষ্ঠিত তাত্ত্বিক কাঠামোযুক্ত ক্ষেত্রে কাজ করি। এছাড়াও, আমি সাধারণত ডেটা সংগ্রহ লক্ষ্য করেছি এবং ফলাফলগুলি কী চালাচ্ছিল সে সম্পর্কে একটি শালীন উপলব্ধি পেতে পারি। সেক্ষেত্রে, আমি একটি বহুবর্ষীয় ফাংশনটির ফিটনেস পরীক্ষার চেয়ে লজিক্যাল অ্যালগরিদম আরও তৈরি করছি এবং অ্যালগরিদমের ফিটনেস পরীক্ষা করছি। আপনি আমার উত্তরে এই নুনের দানা যুক্ত করতে পারেন।


18
পলিনোমায়ালগুলি স্প্লাইনের চেয়ে ডেটাগুলির মধ্যে অসংলগ্নতার চেয়ে অনেক বেশি সংবেদনশীল। ডেটা সেটের যে কোনও জায়গায় আউটিলারের বিশাল বৈশ্বিক প্রভাব রয়েছে, অন্যদিকে স্প্লাইলে এই প্রভাবটি স্থানীয়।
লোক

আমি আপনার বক্তব্যটি দেখতে পাচ্ছি এবং এটি সত্য যদি আপনি নিখুঁত তথ্য পদ্ধতির ব্যবহার করছেন বা ডেটা প্রকৃতি সম্পর্কে পর্যাপ্ত তথ্য না পেয়ে থাকেন। অনেক পরিসংখ্যানবিদ (আমার অন্তর্ভুক্ত) অপূর্ণ তথ্য ধরে নেন এবং ডেটা ফিট করার চেষ্টা করার আগে পরিচিত তথ্যের ভিত্তিতে বর্জনীয় মানদণ্ড প্রয়োগের চেষ্টা করেন। বিপজ্জনক outliers তারপর তাত্ত্বিকভাবে মানানসই প্রচেষ্টা থেকে বাদ দেওয়া উচিত। যদি আপনার কাছে ডেটার প্রকৃতি সম্পর্কে জ্ঞাত তথ্য না থাকে (এবং এটি বেশ সাধারণ) তবে আপনি বহিরাগতদের আশপাশে কাজ করার চেষ্টা করতে আটকে গেছেন।
দিন্রে

5
আমার আরও দৃ be়ভাবে বিশ্বাস করতে হবে যে বহুগতির চেয়ে রিগ্রেশন স্প্রে এক্সপ্লোর্পল্টকে আরও বিপজ্জনকভাবে ছড়িয়ে দেয়।
ফ্র্যাঙ্ক হ্যারেল

1
এটি নতুন কিছু নয়। বরং বোঝার প্রাথমিক পর্যায়ে বনাম বোঝার পরবর্তী পর্যায়ে করা পরিসংখ্যানের মধ্যে এটি তাত্পর্যপূর্ণ। আপনি যতটা সিস্টেম বুঝতে পারবেন ততই আপনি লাগানো ফাংশনগুলির উপর কম নির্ভর করবেন এবং তাত্ত্বিক মডেলগুলির উপর আপনি বেশি নির্ভর করবেন।
দিন্রে

1
সীমাবদ্ধ কিউবিক স্প্লাইজগুলি কীভাবে ব্যবহার করা যায়, যা তথ্য পয়েন্টগুলির বাইরের অংশগুলিকে লিনিয়ার হতে বাধা দেয় (আমি হ্যারেলের বইটি পড়ছি)। যাইহোক এক্সপ্লোরেশন সর্বদা সন্দেহজনক susp এমন একটি পরীক্ষার কথা চিন্তা করুন যা সুপারকন্ডাকটিভিটি বা প্লাজমা আবিষ্কার করেছে। থিওরি পরীক্ষার মাধ্যমে প্রমাণ করা উচিত! আমার মনে হয় কোনটি ফিট করতে হবে তা ইন্টারপোলেশন সমস্যার সাথে বেশি প্রাসঙ্গিক। তত্ত্ব ব্যতীত, আমি অনুমান করি যে আপনি যথেষ্ট পরিমাণ ডেটা দেওয়ার পরেও আপনি ত্রুটি (ভবিষ্যত অজানা বিতরণ) এবং ভবিষ্যতবাণীকারীদের সাথে y | x এর সাথে একটি মাত্র মডেল বাছতে পারবেন না, এমনকি আপনার যথেষ্ট পরিমাণ ডেটা দেওয়া হলেও।
কেএইচ কিম
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.