এটি দুটি প্রশ্ন: একটি কীভাবে গড় এবং মধ্যমা ক্ষতির কার্যকারিতা হ্রাস করে তা সম্পর্কে এবং অন্যটি ডেটাগুলির কাছে এই অনুমানের সংবেদনশীলতা সম্পর্কে । দুটি প্রশ্ন সংযুক্ত, আমরা দেখতে পাবেন।
ক্ষয়ক্ষতি হ্রাস করা হচ্ছে
সংখ্যার ব্যাচের কেন্দ্রের একটি সংক্ষিপ্তসার (বা অনুমানকারী) সংক্ষিপ্ত মান পরিবর্তন করে এবং ব্যাচের প্রতিটি সংখ্যা সেই মানটির উপর একটি পুনরুদ্ধার শক্তি প্রয়োগ করে তা কল্পনা করে তৈরি করা যেতে পারে। যখন শক্তি কখনই কোনও সংখ্যা থেকে দূরে মান দেয় না, তবে বাহ্যিকভাবে যে বিন্দুতে বাহিনীর ভারসাম্যটি ব্যাচের একটি "কেন্দ্র" হয়।
চতুর্ভুজ ( ) ক্ষতিএল2
উদাহরণস্বরূপ, যদি আমরা সংক্ষিপ্তসার এবং প্রতিটি সংখ্যার মধ্যে একটি ধ্রুপদী বসন্ত ( হুকের আইন অনুসরণ করে ) সংযুক্ত করি , তবে বলটি প্রতিটি বসন্তের দূরত্বের সাথে আনুপাতিক হবে। স্প্রিংসগুলি এইভাবে সারাংশটি টেনে আনবে এবং শেষ পর্যন্ত ন্যূনতম শক্তির একটি অনন্য স্থিতিশীল স্থানে স্থির হয়ে গেল।
আমি সামান্য ঘটনাক্রমে হ'ল নোটটি আকর্ষণ করতে চাই: শক্তিটি স্কোয়ার দূরত্বের যোগফলের সমানুপাতিক । নিউটনীয় যান্ত্রিকরা আমাদের শিখায় যে শক্তি হ'ল শক্তি পরিবর্তনের হার। একটি ভারসাম্য অর্জন - শক্তি হ্রাস - শক্তিগুলিতে ভারসাম্য বজায় রাখার ফলস্বরূপ। শক্তিতে পরিবর্তনের নেট হার শূন্য।
আসুন এটিকে " সারাংশ," বা "স্কোয়ার ক্ষতির সারাংশ" বলি ।এল2
নিখুঁত ( ) ক্ষতিএল1
মান এবং ডেটার মধ্যে দূরত্ব নির্বিশেষে পুনরুদ্ধারকারী বাহিনীর আকারগুলি স্থির থাকে বলে ধরে নিয়ে আরও একটি সংক্ষিপ্তসার তৈরি করা যেতে পারে । বাহিনী নিজেরাই স্থির নয়, তবে তাদের অবশ্যই সর্বদা প্রতিটি ডাটা পয়েন্টের দিকে মান টানতে হবে। সুতরাং, যখন মানটি ডাটা পয়েন্টের চেয়ে কম হয় তখন বলটি ইতিবাচকভাবে পরিচালিত হয়, তবে যখন মানটি ডাটা পয়েন্টের চেয়ে বেশি হয়, বলটি নেতিবাচকভাবে পরিচালিত হয়। এখন শক্তি মান এবং ডেটাগুলির মধ্যে দূরত্বগুলির সমানুপাতিক। সাধারণত একটি পুরো অঞ্চল থাকবে যেখানে শক্তি স্থির থাকে এবং নেট শক্তি শূন্য হয়। এই অঞ্চলের যে কোনও মানকে আমরা " সারাংশ" বা "নিখুঁত ক্ষতির সারাংশ" বলতে পারি।L1
এই শারীরিক উপমা দুটি সংক্ষিপ্তসার সম্পর্কে দরকারী অন্তর্দৃষ্টি সরবরাহ করে। উদাহরণস্বরূপ, আমরা যদি ডেটার পয়েন্টগুলির মধ্যে একটি স্থানান্তর করি তবে সংক্ষিপ্তসারটি কী ঘটে? ইন সংযুক্ত স্প্রিংস সঙ্গে মামলা, একটি ডেটা বিন্দু পারেন ছড়িয়ে বা তার বসন্ত অবসর যাপনের চলন্ত। ফলাফলটি সংক্ষিপ্তসার বলের পরিবর্তন, সুতরাং এটি অবশ্যই প্রতিক্রিয়াতে পরিবর্তন করতে হবে। তবে এল 1 ক্ষেত্রে, বেশিরভাগ সময় ডেটা পয়েন্টে পরিবর্তন সংক্ষিপ্তসারটির কিছুই করে না, কারণ বল স্থানীয়ভাবে স্থির থাকে। ডেটা পয়েন্টের সারাংশ জুড়ে যাওয়ার একমাত্র উপায় ফোর্সটি পরিবর্তন করতে পারে।L2L1
(প্রকৃতপক্ষে, এটি স্পষ্টভাবে প্রমাণ করা উচিত যে কোনও মানের নেট বলটি তার চেয়ে বেশি পয়েন্টের সংখ্যার সাহায্যে দেওয়া হয় - যা এটি উপরের দিকে টানতে থাকে - এটির চেয়ে কম পয়েন্টের সংখ্যাকে - যা এটিকে নীচের দিকে টানায় Thus সুতরাং, সারসংক্ষেপ কোনো অবস্থান যেখানে ডাটা মান রয়েছে তা গণনা মাত্রাধিক এটা ঠিক চেয়ে কম ডেটা মান রয়েছে তা গণনা সমান এ ঘটতে হবে।)L1
লোকসান চিত্রিত করা
যেহেতু শক্তি এবং শক্তি উভয়ই যুক্ত হয়, উভয় ক্ষেত্রেই আমরা ডেটা পয়েন্টগুলি থেকে পৃথক অবদানের জন্য নেট শক্তিটিকে পচন করতে পারি। সংক্ষিপ্ত মানের ফাংশন হিসাবে শক্তি বা বলকে চিত্রিত করে এটি কী ঘটছে তার বিশদ চিত্র সরবরাহ করে। সংক্ষিপ্তসারটি এমন এক স্থানে থাকবে যেখানে পরিসংখ্যানগত বিশ্লেষণে শক্তি (বা "ক্ষতি") সবচেয়ে কম। সমানভাবে, এটি এমন এক অবস্থান হবে যেখানে ভারসাম্য বজায় রাখে: হ্রাসে নেট পরিবর্তনটি শূন্য যেখানে উপাত্তের কেন্দ্র ঘটে।
এই চিত্রটি ছয়টি মানের একটি ছোট ডেটাসেটের জন্য শক্তি এবং শক্তি দেখায় (প্রতিটি প্লটগুলিতে অদৃশ্য উল্লম্ব লাইন দ্বারা চিহ্নিত)। ড্যাশযুক্ত কালো রেখাচিত্রগুলি পৃথক মান থেকে অবদান দেখানো রঙিন বক্ররেখগুলির মোট সংখ্যা। এক্স-অক্ষটি সারাংশের সম্ভাব্য মানগুলি নির্দেশ করে।
গাণিতিক গড় এটা উপরের বাম চক্রান্ত কালো অধিবৃত্ত এর প্রান্তবিন্দু (নিচে) এ অবস্থিত হবে: একটি বিন্দু যেখানে স্কোয়ারড ক্ষতি কমিয়ে আনা হয়। এটি সর্বদা অনন্য। মধ্যমা একটি বিন্দু যেখানে পরম ক্ষতি কমিয়ে আনা হয়। উপরে উল্লিখিত হিসাবে, এটি অবশ্যই ডেটার মাঝখানে হওয়া উচিত। অগত্যা এটি অনন্য নয়। এটি উপরের ডানদিকে ভাঙা কালো বক্ররেখার নীচে অবস্থিত। (নীচে আসলে এবং - 0.17 এর মধ্যে একটি ছোট ফ্ল্যাট বিভাগ থাকে ; এই ব্যবধানের কোনও মান একটি মাঝারি হয় ian)−0.23−0.17
সংবেদনশীলতা বিশ্লেষণ
এর আগে আমি বর্ণনা করেছি যখন ডেটার পয়েন্টটি আলাদা হয় তখন সংক্ষিপ্তসারটি কী ঘটতে পারে। কোনও একক ডাটা পয়েন্ট পরিবর্তনের প্রতিক্রিয়ায় সংক্ষিপ্তসারটি কীভাবে পরিবর্তিত হয় তা প্লট করা শিক্ষণীয় is (এই প্লটগুলি মূলত অভিজ্ঞতাগত প্রভাবের কাজগুলি হয় They এগুলি যথাযথ সংজ্ঞা থেকে পৃথক হয় যে তারা অনুমানগুলির প্রকৃত মানগুলি পরিবর্তিত হয় তার চেয়ে বেশি যে মূল্যবোধগুলি পরিবর্তিত হয় তা দেখায়)) সংক্ষিপ্তির মানটি y এর উপর "অনুমান" দ্বারা চিহ্নিত করা হয় -অ্যাক্সস আমাদের স্মরণ করিয়ে দিতে যে এই সংক্ষিপ্তসারটি অনুমান করছে যেখানে ডেটাসেটের মাঝখানে অবস্থিত। প্রতিটি ডাটা পয়েন্টের নতুন (পরিবর্তিত) মানগুলি তাদের এক্স-অক্ষে প্রদর্শিত হয়।
এই চিত্রটি ব্যাচের প্রতিটি ডাটা মানগুলির পরিবর্তনের ফলাফল উপস্থাপন করে (প্রথম চিত্রটিতে একই বিশ্লেষণ করা হয়েছে)। প্রতিটি ডেটা মানের জন্য একটি প্লট রয়েছে, যা নীচের অক্ষটি বরাবর দীর্ঘ কালো টিক দিয়ে তার প্লটটিতে হাইলাইট করা হয়েছে। (অবশিষ্ট ডেটা মানগুলি সংক্ষিপ্ত ধূসর টিক্সের সাথে দেখানো হয়েছে)) নীল বক্ররেখগুলি এল 2 সারসংক্ষেপটি আবিষ্কার করে - পাটিগণিত গড় - এবং লাল বক্ররেখা L 1 টি সন্ধান করে- 1.02 , - 0.82 , - 0.23 , - 0.17 , - 0.08 , 0.77এল2এল1সংক্ষিপ্ত - মিডিয়ান। (যেহেতু প্রায়শই মাঝারি মানগুলির একটি পরিসীমা হয় তাই সেই পরিসরের মাঝের ষড়যন্ত্রের সম্মেলনটি এখানে অনুসরণ করা হয়))
বিজ্ঞপ্তি:
গড়ের সংবেদনশীলতা সীমাহীন: এই নীল রেখাগুলি সীমিতভাবে অনেক উপরে এবং নীচে প্রসারিত। মধ্যমা সংবেদনশীলতা আবদ্ধ: লাল বক্ররেখার উপরের এবং নীচের সীমা রয়েছে।
যেখানে মিডিয়ান পরিবর্তিত হয়, যদিও এটি গড়ের চেয়ে অনেক দ্রুত পরিবর্তিত হয়। প্রতিটি নীল লাইন ঢাল হল (সাধারণত এটা 1 / এন সঙ্গে একটি ডেটাসেটের জন্য এন , মান) যেহেতু লাল লাইনের হেলানো অংশের ঢালে সব 1 / 2 ।1 / 61 / এনএন1 / 2
গড়টি প্রতিটি ডেটা পয়েন্টের সাথে সংবেদনশীল এবং এই সংবেদনশীলতার কোনও সীমা নেই (প্রথম চিত্রের নীচে বাম প্লটের সমস্ত রঙিন রেখার ননজারো opালুগুলি নির্দেশ করে)। যদিও মিডিয়ান প্রতিটি ডাটা পয়েন্টের সাথে সংবেদনশীল তবে সংবেদনশীলতা বদ্ধ হয় (এ কারণেই প্রথম চিত্রের নীচের ডান প্লটের রঙিন বক্ররেখা শূন্যের চারপাশে একটি সরু উল্লম্ব পরিসরের মধ্যে অবস্থিত)। এগুলি অবশ্যই মূল শক্তি (লোকসান) আইনের ভিজ্যুয়াল পুনরাবৃত্তি: গড়ের জন্য চতুর্ভুজ, মধ্যমের জন্য রৈখিক।
মধ্যবর্তী পরিবর্তনের জন্য যে ব্যবধানটি করা যেতে পারে তা ডেটা পয়েন্টগুলির মধ্যে পরিবর্তিত হতে পারে। এটি সর্বদা ডেটাগুলির মধ্যে নিকট-মধ্যমানের দুটি মান দ্বারা আবদ্ধ থাকে যা ভিন্ন হয় না । (এই সীমানাগুলি অদৃশ্য উল্লম্ব ড্যাশযুক্ত লাইন দ্বারা চিহ্নিত করা হয়েছে))
মধ্যমা পরিবর্তনের হার সর্বদা কারণ , পরিমাণ যার দ্বারা এটি তাই পরিবর্তিত হতে পারে ডেটাসেটের কাছাকাছি মধ্যম মানের মধ্যে এই ফাঁক দৈর্ঘ্য দ্বারা নির্ধারিত হয়।1 / 2
যদিও কেবল প্রথম পয়েন্টটি সাধারণত লক্ষ করা যায়, চারটি পয়েন্টই গুরুত্বপূর্ণ। নির্দিষ্টভাবে,
এটি অবশ্যই মিথ্যা যে "মিডিয়ান প্রতিটি মানের উপর নির্ভর করে না।" এই চিত্রটি একটি পাল্টা নমুনা সরবরাহ করে।
তবুও, মিডিয়ান প্রতিটি মানের উপর "বস্তুগতভাবে" নির্ভর করে না এই ধারণাটি অনুসারে যে পৃথক মূল্যবোধ বদলানো মধ্যককে পরিবর্তন করতে পারে, তবুও পরিবর্তনের পরিমাণটি ডেটাসেটের নিকটবর্তী মধ্যম মানের মধ্যে ব্যবধানের দ্বারা সীমাবদ্ধ। বিশেষত, পরিবর্তনের পরিমাণ সীমাবদ্ধ । আমরা বলি যে মিডিয়ানটি একটি "প্রতিরোধী" সংক্ষিপ্তসার।
যদিও গড়টি প্রতিরোধী নয় , এবং যখনই কোনও ডেটার মান পরিবর্তন হবে তখন পরিবর্তিত হবে, পরিবর্তনের হার তুলনামূলকভাবে কম। ডেটাসেট যত বড় হবে, পরিবর্তনের হারও তত কম। সমানভাবে, একটি বড় ডেটাসেটের মাঝামাঝি কোনও উপাদান পরিবর্তনের জন্য, কমপক্ষে একটি মান অবশ্যই অপেক্ষাকৃত বড় প্রকরণের মধ্য দিয়ে যেতে হবে। এটি প্রস্তাব দেয় যে গড়ের অ-প্রতিরোধের বিষয়টি কেবল (ক) ছোট ডেটাসেট বা (খ) ডেটাসেটের জন্য যেখানে এক বা একাধিক ডেটা ব্যাচের মধ্য থেকে খুব দূরের মান থাকতে পারে concern
এই মন্তব্যগুলি - যা আমি আশা করি যে পরিসংখ্যানগুলি স্পষ্ট করে দেয় - ক্ষতি ফাংশন এবং অনুমানকারকের সংবেদনশীলতা (বা প্রতিরোধের) মধ্যে একটি গভীর সংযোগ প্রকাশ করে । এ সম্পর্কে আরও তথ্যের জন্য, এম-অনুমানকারী সম্পর্কিত উইকিপিডিয়া নিবন্ধগুলির একটি দিয়ে শুরু করুন এবং তারপরে আপনার পছন্দ অনুসারে সেই ধারণাগুলি অনুসরণ করুন।
কোড
এই R
কোডটি পরিসংখ্যানগুলি তৈরি করেছিল এবং অন্য যে কোনও ডেটাसेटকে একইভাবে অধ্যয়নের জন্য সহজেই সংশোধন করা যেতে পারে: কেবল এলোমেলোভাবে তৈরি ভেক্টরটিকে y
সংখ্যার কোনও ভেক্টরের সাথে প্রতিস্থাপন করুন ।
#
# Create a small dataset.
#
set.seed(17)
y <- sort(rnorm(6)) # Some data
#
# Study how a statistic varies when the first element of a dataset
# is modified.
#
statistic.vary <- function(t, x, statistic) {
sapply(t, function(e) statistic(c(e, x[-1])))
}
#
# Prepare for plotting.
#
darken <- function(c, x=0.8) {
apply(col2rgb(c)/255 * x, 2, function(s) rgb(s[1], s[2], s[3]))
}
colors <- darken(c("Blue", "Red"))
statistics <- c(mean, median); names(statistics) <- c("mean", "median")
x.limits <- range(y) + c(-1, 1)
y.limits <- range(sapply(statistics,
function(f) statistic.vary(x.limits + c(-1,1), c(0,y), f)))
#
# Make the plots.
#
par(mfrow=c(2,3))
for (i in 1:length(y)) {
#
# Create a standard, consistent plot region.
#
plot(x.limits, y.limits, type="n",
xlab=paste("Value of y[", i, "]", sep=""), ylab="Estimate",
main=paste("Sensitivity to y[", i, "]", sep=""))
#legend("topleft", legend=names(statistics), col=colors, lwd=1)
#
# Mark the limits of the possible medians.
#
n <- length(y)/2
bars <- sort(y[-1])[ceiling(n-1):floor(n+1)]
abline(v=range(bars), lty=2, col="Gray")
rug(y, col="Gray", ticksize=0.05);
#
# Show which value is being varied.
#
rug(y[1], col="Black", ticksize=0.075, lwd=2)
#
# Plot the statistics as the value is varied between x.limits.
#
invisible(mapply(function(f,c)
curve(statistic.vary(x, y, f), col=c, lwd=2, add=TRUE, n=501),
statistics, colors))
y <- c(y[-1], y[1]) # Move the next data value to the front
}
#------------------------------------------------------------------------------#
#
# Study loss functions.
#
loss <- function(x, y, f) sapply(x, function(t) sum(f(y-t)))
square <- function(t) t^2
square.d <- function(t) 2*t
abs.d <- sign
losses <- c(square, abs, square.d, abs.d)
names(losses) <- c("Squared Loss", "Absolute Loss",
"Change in Squared Loss", "Change in Absolute Loss")
loss.types <- c(rep("Loss (energy)", 2), rep("Change in loss (force)", 2))
#
# Prepare for plotting.
#
colors <- darken(rainbow(length(y)))
x.limits <- range(y) + c(-1, 1)/2
#
# Make the plots.
#
par(mfrow=c(2,2))
for (j in 1:length(losses)) {
f <- losses[[j]]
y.range <- range(c(0, 1.1*loss(y, y, f)))
#
# Plot the loss (or its rate of change).
#
curve(loss(x, y, f), from=min(x.limits), to=max(x.limits),
n=1001, lty=3,
ylim=y.range, xlab="Value", ylab=loss.types[j],
main=names(losses)[j])
#
# Draw the x-axis if needed.
#
if (sign(prod(y.range))==-1) abline(h=0, col="Gray")
#
# Faintly mark the data values.
#
abline(v=y, col="#00000010")
#
# Plot contributions to the loss (or its rate of change).
#
for (i in 1:length(y)) {
curve(loss(x, y[i], f), add=TRUE, lty=1, col=colors[i], n=1001)
}
rug(y, side=3)
}