তথ্য প্রতিপন্ন করার জন্য প্রতিবেশী তথ্য ব্যবহার করা বা ডেটা খুঁজে বের করা (আরে)


13

নিকটবর্তী প্রতিবেশী সেরা ভবিষ্যদ্বাণীকারী এই ধারণা নিয়ে আমার ডেটাসেট রয়েছে। দ্বি-মুখী গ্রেডিয়েন্টের কেবলমাত্র নিখুঁত উদাহরণ-

এখানে চিত্র বর্ণনা লিখুন

মনে করুন আমাদের কাছে এমন কয়েকটি ঘটনা রয়েছে যেখানে কয়েকটি মূল্যবোধ অনুপস্থিত, আমরা প্রতিবেশী এবং প্রবণতার ভিত্তিতে সহজেই অনুমান করতে পারি।

এখানে চিত্র বর্ণনা লিখুন

আর-তে সম্পর্কিত ডেটা ম্যাট্রিক্স (ওয়ার্কআউটের জন্য ডামি উদাহরণ):

miss.mat <- matrix (c(5:11, 6:10, NA,12, 7:13, 8:14, 9:12, NA, 14:15, 10:16),ncol=7, byrow = TRUE)
miss.mat 
    [,1] [,2] [,3] [,4] [,5] [,6] [,7]
[1,]    5    6    7    8    9   10   11
[2,]    6    7    8    9   10   NA   12
[3,]    7    8    9   10   11   12   13
[4,]    8    9   10   11   12   13   14
[5,]    9   10   11   12   NA   14   15
[6,]   10   11   12   13   14   15   16

নোটস: (1) অনুপস্থিত মানগুলির সম্পত্তিটি এলোমেলো বলে ধরে নেওয়া হয় , এটি যে কোনও জায়গায় হতে পারে।

(২) সমস্ত ডেটা পয়েন্ট একক ভেরিয়েবল থেকে হয় তবে তাদের মানটি তাদের neighborsসংলগ্ন সারি এবং কলাম দ্বারা প্রভাবিত বলে ধরে নেওয়া হয় । সুতরাং ম্যাট্রিক্সে অবস্থান গুরুত্বপূর্ণ এবং এটি অন্যান্য পরিবর্তনশীল হিসাবে বিবেচিত হতে পারে।

আমার আশা কিছু পরিস্থিতিতে আমি কিছু অফ-ভ্যালু (ভুল হতে পারে) এবং সঠিক পক্ষপাতের পূর্বাভাস দিতে পারি (উদাহরণস্বরূপ, ডামি ডেটাতে এই জাতীয় ত্রুটি উত্পন্ন করতে দেয়):

> mat2 <- matrix (c(4:10, 5, 16, 7, 11, 9:11, 6:12, 7:13, 8:14, 9:13, 4,15, 10:11, 2, 13:16),ncol=7, byrow = TRUE)
> mat2

    [,1] [,2] [,3] [,4] [,5] [,6] [,7]
[1,]    4    5    6    7    8    9   10
[2,]    5   16    7   11    9   10   11
[3,]    6    7    8    9   10   11   12
[4,]    7    8    9   10   11   12   13
[5,]    8    9   10   11   12   13   14
[6,]    9   10   11   12   13    4   15
[7,]   10   11    2   13   14   15   16

উপরের উদাহরণগুলি কেবল চিত্রণ (দৃষ্টিভঙ্গি দিয়ে উত্তর দেওয়া যেতে পারে) তবে আসল উদাহরণটি আরও বিভ্রান্তিকর হতে পারে। আমি দেখতে পাচ্ছি যে এই জাতীয় বিশ্লেষণ করার শক্ত ব্যবস্থা আছে কিনা। আমি মনে করি এটি সম্ভব হওয়া উচিত। এই জাতীয় বিশ্লেষণ সম্পাদন করার উপযুক্ত পদ্ধতি কী হবে? এই জাতীয় বিশ্লেষণ করতে কোনও আর প্রোগ্রাম / প্যাকেজ পরামর্শ?

এখানে চিত্র বর্ণনা লিখুন


আপনি কি অনুমান করতে পারেন যে অনুপস্থিত তথ্যটি এমআর (রুবিনের পরিভাষায় (1976)) রয়েছে?
ব্যবহারকারী 60

হ্যাঁ, মানগুলি এলোমেলো (এমএআর) এ অনুপস্থিত হিসাবে ধরে নেওয়া যেতে পারে। আমার সাম্প্রতিক সম্পাদনাগুলি দেখুন।
rdorlearn

উত্তর:


7

প্রশ্ন উপায়ে ব্যবহার করতে চায় নিকটতম প্রতিবেশীদের মধ্যে শক্তসমর্থ চিহ্নিত করার উপায় এবং সঠিক স্থানীয় outliers। কেন ঠিক তাই না?

পদ্ধতিটি হল একটি শক্তিশালী স্থানীয় মসৃণ গণনা করা, অবশিষ্টাংশগুলি মূল্যায়ন করা এবং খুব বড় যে কোনওটি শূন্য করা। এটি সরাসরি সমস্ত প্রয়োজনীয়তা সন্তুষ্ট করে এবং বিভিন্ন অ্যাপ্লিকেশনগুলিতে সামঞ্জস্য করার জন্য যথেষ্ট নমনীয়, কারণ স্থানীয় প্রতিবেশীর আকার এবং বহিরাগতদের সনাক্ত করার জন্য প্রান্তিকের আকার পৃথক হতে পারে।

(নমনীয়তা এত গুরুত্বপূর্ণ কেন? কারণ এ জাতীয় যে কোনও পদ্ধতিই স্থানীয়ভাবে চিহ্নিত কিছু আচরণকে "বহির্মুখী" হিসাবে চিহ্নিত করার একটি ভাল সম্ভাবনা রয়েছে such যেমন, এই জাতীয় সমস্ত প্রক্রিয়াটি স্মুথার হিসাবে বিবেচনা করা যেতে পারে the তারা আপাতদৃষ্টিতে বিদেশিদের পাশাপাশি কিছু বিশদকে সরিয়ে দেবে The বিশ্লেষক বিশদ বজায় রাখা এবং স্থানীয় বিদেশী সনাক্তকারীদের সনাক্ত করতে ব্যর্থ হওয়ার মধ্যে বাণিজ্য-বন্ধের কিছুটা নিয়ন্ত্রণ প্রয়োজন needs)

এই পদ্ধতির আরেকটি সুবিধা হ'ল এর জন্য মানগুলির একটি আয়তক্ষেত্রাকার ম্যাট্রিক্সের প্রয়োজন হয় না। বাস্তবে, এ জাতীয় ডেটার জন্য উপযুক্ত স্থানীয় স্মুথ ব্যবহার করে এটি অনিয়মিত ডেটাতে প্রয়োগ করা যেতে পারে ।

Rপাশাপাশি বেশিরভাগ পূর্ণ বৈশিষ্ট্যযুক্ত পরিসংখ্যান প্যাকেজগুলিতে বেশ কয়েকটি শক্তিশালী স্থানীয় স্মুথার অন্তর্নির্মিত রয়েছে, যেমন loess। নিম্নলিখিত উদাহরণটি এটি ব্যবহার করে প্রক্রিয়া করা হয়েছিল। ম্যাট্রিক্সে সারি এবং কলাম রয়েছে - প্রায় এন্ট্রি। এটি একটি জটিল ফাংশনকে উপস্থাপন করে যা বেশ কয়েকটি স্থানীয় অতিরিক্ত এবং একই সাথে পয়েন্টগুলির সম্পূর্ণ লাইন যেখানে এটি পৃথক নয় (একটি "ক্রিজ")। বিন্দুগুলির এর কিছুটা বেশি - যা "বহির্মুখী" বলে বিবেচিত একটি খুব বেশি অনুপাত - গাউসীয় ত্রুটি যুক্ত হয়েছিল যার স্ট্যান্ডার্ড বিচ্যুতিটি মূল ডেটাগুলির স্ট্যান্ডার্ড বিচ্যুতির মাত্র হয়। এই সিন্থেটিক ডেটাসেট এর মাধ্যমে বাস্তবসম্মত তথ্যের চ্যালেঞ্জিং বৈশিষ্ট্যগুলির অনেকগুলি উপস্থাপন করে।49 4000 5 % 1 / 20794940005%1/20

পরিসংখ্যান

নোট করুন ( Rকনভেনশন অনুসারে) ম্যাট্রিক্স সারিগুলি উল্লম্ব স্ট্রিপ হিসাবে আঁকা হয়। অবশিষ্টগুলি ব্যতীত সমস্ত চিত্রগুলি তাদের মানগুলিতে ছোট পার্থক্য প্রদর্শনে সহায়তা করার জন্য পাহাড়ের শেডযুক্ত। এটি না করে, প্রায় সমস্ত স্থানীয় বিদেশি অদৃশ্য হয়ে যেত!

"রিয়েল" (মূল অনিয়ন্ত্রিত) চিত্রগুলির সাথে "ইমপুটড" (স্থির )টিকে তুলনা করার মাধ্যমে এটি স্পষ্ট হয় যে কমিয়ে (যা নীচে থেকে থেকে ; এটি "অবশিষ্টাংশ" প্লটে হালকা সায়ান এঙ্গেল স্ট্রাইপ হিসাবে প্রকাশিত)।( 49 , 30 )(0,79)(49,30)

"রেসিডুয়ালস" প্লটের স্পেকলগুলি সুস্পষ্ট বিচ্ছিন্ন স্থানীয় বিদেশী দেখায়। এই প্লটটি অন্তর্নিহিত ডেটার সাথে যুক্ত অন্যান্য কাঠামো (যেমন that তির্যক স্ট্রাইপ) হিসাবেও প্রদর্শন করে। ডেটাগুলির একটি স্থানিক মডেল ( ভূ-তাত্ত্বিক পদ্ধতিগুলির মাধ্যমে ) ব্যবহার করে কেউ এই পদ্ধতির উন্নতি করতে পারে তবে তার বিবরণ দিয়ে ও বর্ণনা করে আমাদের এখানে খুব বেশি দূরত্বে নিয়ে যাবে।

1022003600

#
# Create data.
#
set.seed(17)
rows <- 2:80; cols <- 2:50
y <- outer(rows, cols, 
           function(x,y) 100 * exp((abs(x-y)/50)^(0.9)) * sin(x/10) * cos(y/20))
y.real <- y
#
# Contaminate with iid noise.
#
n.out <- 200
cat(round(100 * n.out / (length(rows)*length(cols)), 2), "% errors\n", sep="")
i.out <- sample.int(length(rows)*length(cols), n.out)
y[i.out] <- y[i.out] + rnorm(n.out, sd=0.05 * sd(y))
#
# Process the data into a data frame for loess.
#
d <- expand.grid(i=1:length(rows), j=1:length(cols))
d$y <- as.vector(y)
#
# Compute the robust local smooth.
# (Adjusting `span` changes the neighborhood size.)
#
fit <- with(d, loess(y ~ i + j, span=min(1/2, 125/(length(rows)*length(cols)))))
#
# Display what happened.
#
require(raster)
show <- function(y, nrows, ncols, hillshade=TRUE, ...) {
  x <- raster(y, xmn=0, xmx=ncols, ymn=0, ymx=nrows)
  crs(x) <- "+proj=lcc +ellps=WGS84"
  if (hillshade) {
    slope <- terrain(x, opt='slope')
    aspect <- terrain(x, opt='aspect')
    hill <- hillShade(slope, aspect, 10, 60)
    plot(hill, col=grey(0:100/100), legend=FALSE, ...)
    alpha <- 0.5; add <- TRUE
  } else {
    alpha <- 1; add <- FALSE
  }
  plot(x, col=rainbow(127, alpha=alpha), add=add, ...)
}

par(mfrow=c(1,4))
show(y, length(rows), length(cols), main="Data")

y.res <- matrix(residuals(fit), nrow=length(rows))
show(y.res, length(rows), length(cols), hillshade=FALSE, main="Residuals")
#hist(y.res, main="Histogram of Residuals", ylab="", xlab="Value")

# Increase the `8` to find fewer local outliers; decrease it to find more.
sigma <- 8 * diff(quantile(y.res, c(1/4, 3/4)))
mu <- median(y.res)
outlier <- abs(y.res - mu) > sigma
cat(sum(outlier), "outliers found.\n")

# Fix up the data (impute the values at the outlying locations).
y.imp <- matrix(predict(fit), nrow=length(rows))
y.imp[outlier] <- y[outlier] - y.res[outlier]

show(y.imp, length(rows), length(cols), main="Imputed")
show(y.real, length(rows), length(cols), main="Real")

হুঁশিয়ার: আমি কি এটি সঠিকভাবে বুঝতে পেরেছি যে আপনি ধরে নিয়েছেন যে বহিরাগতরা বিচ্ছিন্ন কোষ? যদি তা হয় তবে আপনি কি জানবেন যে এই ধারণাটি লঙ্ঘনের ক্ষেত্রে এই পদ্ধতির সংবেদনশীল কত?
ব্যবহারকারী 60

@ ইউজার 603 আমি ধরে নিই না যে বহিরাগতরা বিচ্ছিন্ন রয়েছে - উদাহরণগুলির মধ্যে অনেকগুলিই নন - তবে আমি ধরে নিই যে কোনও স্থানীয় পাড়ায় বহিরাগতদের অনুপাত যথেষ্ট কম যে তারা স্থানীয় মসৃণতা ভেঙে ফেলবে না। যুক্তিযুক্তভাবে, যদি এমন আউটলিয়ারগুলির একটি খুব বড় অনুপাতে কোনও পাড়া থাকে তবে সেগুলি আর স্থানীয় আউটলিয়ার হিসাবে বিবেচনা করা যায় না!
whuber

1
@ ইউজার 603 একেবারে! তবে এটি আমাদের অনুমানজনক পরিস্থিতি থেকে দূরে সরিয়ে নিয়েছে বলে মনে হচ্ছে যেখানে "নিকটতম প্রতিবেশীরা সেরা ভবিষ্যদ্বাণীকারী।" এর জন্য শ্রদ্ধার বাইরে, ডেটা প্রক্রিয়াকরণের সময় আমরা যা কিছু করি না কেন এই স্থানীয় অনুমানযোগ্যতা সংরক্ষণ করা উচিত। যদি কোনও কলামের প্রতিবেশীর তুলনায় "বিশাল আকারের আলাদা স্কেল" থাকে, তবে সেই পরিস্থিতিটি এই দৃ ass় ধারণাটিকে বেশ দৃ strongly়তার সাথে লঙ্ঘন করবে। (আমিও কলাম উপর আপনার ফোকাস আশ্চর্য। উপর পুনরায় পড়া প্রশ্ন, আমি কলাম এবং সারি ভূমিকা যে কোন অসামঞ্জস্য সনাক্ত করতে পারে)
whuber

1
p

1
@ তবে এটি দুর্দান্ত সমাধান, ধন্যবাদ - আমি কমপক্ষে কিছু হারিয়ে যাওয়া মূল্যবোধের পরিচয় দেওয়ার চেষ্টা করছিলাম, যা সর্বদা বাস্তব পরিস্থিতি - নিখোঁজ (উদাহরণস্বরূপ 50 অনুপস্থিত মান) এবং বিদেশী (100 জন বহিরাগত) এর মিশ্রণ। উত্তেজনাপূর্ণ!
rdorlearn

4

আমি আপনাকে এই নিবন্ধটি একবার দেখার পরামর্শ দিচ্ছি [0]। সমস্যাটি যা সমাধান করা উচিত তা আপনার বর্ণনাকে আপনার বর্ণনাকে যথাযথভাবে মাপসই করে, লেখক দ্বারা প্রস্তাবিত পদ্ধতিটি এনএন-ইনপুটেশনের চেয়ে কিছুটা পরিশ্রুত (যদিও এটি একটি সূচনা পয়েন্ট হিসাবে অনুরূপ কিছু ব্যবহার করে)।

(সর্বত্র, আমি যে অনুমান করব)XXnp

k

প্রতিটি পুনরাবৃত্তির প্রথম পদক্ষেপটি ডেটা ইমপুটেশন স্টেপ। এটি ইএম অ্যালগরিদমের মতোই করা হয়: অনুপস্থিত কোষগুলি যে মানটি প্রত্যাশা করে তা পূরণ করে (এটি ই-পদক্ষেপ)।

দুটি পদক্ষেপের পুনরাবৃত্ত পদ্ধতির দ্বিতীয় অংশে, একটি পূর্ববর্তী পদক্ষেপ থেকে প্রাপ্ত অগমেন্টিত ডেটার সাথে একটি (দৃust়) পিসিএ ফিট করে। এটি বর্ণালী পচনের ফলেXXttRppkLLkkDDkp

কাগজ সংক্ষিপ্তসার হিসাবে, তারা প্রস্তাবিত সাধারণ অ্যালগরিদম এখানে:

  • l=0WW0XX

  • তারপরে, একত্রিত হওয়া পর্যন্ত করুন:

    ক। উপর দৃust় পিসিএ করুনWWl(ttl,LLl,DDl)

    l=l+1

    গ। ব্যবহার করুনYYl=LLl1(WWl1ttl1)(LLl1)

    ঘ। অনুপস্থিত উপাদানগুলি পূরণ করুনWWlWWlN(ttl1,LLl1DDl1(LLl1))YYl

||WWl1WWl||F(tt,LL,DD)

ধারণাটি হ'ল প্রতিটি পুনরাবৃত্তিতে ডেটা এর মডেল(ttl1,LLl1DDl1)

এই পদ্ধতির আপনাকে অনুমানের গুণাগুণ পরীক্ষা করার জন্য একটি ডায়গনিস্টিক সরঞ্জামের হোস্টও দেয়। উদাহরণস্বরূপ, আপনি থেকে একাধিক অঙ্কনও তৈরি করতে পারেনN(ttl1,LLDD(LL))

আমি এই পদ্ধতির জন্য একটি প্রস্তুত তৈরি আর বাস্তবায়ন জানি না, তবে একটি সহজেই উপ-উপাদানগুলি থেকে তৈরি করা যায় (প্রধানত একটি শক্তিশালী পিসিএ অ্যালগরিদম), এবং এগুলি আর-তে ভাল প্রয়োগ করা হয়, দেখুন আরআরসিভ প্যাকেজটি (কাগজটি হ'ল) এই বিষয়ে শান্ত তথ্যমূলক)।

  • [0] সার্নেলস এস এবং ভারডনক, টি। (২০০৮)। বহিরাগত এবং অনুপস্থিত উপাদানযুক্ত ডেটার জন্য প্রধান উপাদান বিশ্লেষণ। গণনামূলক পরিসংখ্যান এবং ডেটা বিশ্লেষণ ভল: 52 সংখ্যা: 3 পৃষ্ঠা: 1712-1727।

ধন্যবাদ, আমার উদ্দেশ্য এখানে আউটরিয়রদের (ভবিষ্যতে বন্টন থেকে দূরে রয়েছেন) ভবিষ্যদ্বাণী করা নয় বরং অফ-ভ্যালু (আউটলিয়ার) প্যাটার্নের উপযুক্ত নয়।
rdorlearn

আমার মনে হয় আপনি আমার উত্তর ভুল বুঝেছেন। এই পদ্ধতির কোনও মূল্যের জন্য পূর্বাভাস তৈরি হবে, তবে বহিরাগতদের খুব ভালভাবেই পূর্বাভাস দেওয়া হবে না: এটি কারণ এটি পিসিএ ফিটের উপর প্রভাব ফেলতে অনুমতিপ্রাপ্ত নয়। আমি আপনাকে কাগজ পড়তে পরামর্শ দিচ্ছি।
ব্যবহারকারী 60

ধন্যবাদ, পদ্ধতিটি আকর্ষণীয় বলে মনে হচ্ছে এবং অনুমানটিও খুব ভালভাবে কাজ করতে পারে। তবে সঠিক কোড ছাড়া কার্যকর করা কঠিন হবে - আমার পক্ষে কমপক্ষে পরিশীলিত!
rdorlearn
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.