র্যান্ডম বনগুলি কীভাবে বিদেশীদের কাছে সংবেদনশীল নয়?


33

আমি এই কয়েকটি সহ কয়েকটি উত্সে পড়েছি যে র্যান্ডম অরণ্যগুলি বিদেশিদের কাছে সংবেদনশীল নয় (যেমন লজিস্টিক রিগ্রেশন এবং অন্যান্য এমএল পদ্ধতিগুলি উদাহরণস্বরূপ)।

যাইহোক, স্বজ্ঞাত দুটি টুকরা অন্যথায় আমাকে বলুন:

  1. যখনই কোনও সিদ্ধান্ত গাছ নির্মিত হয়, সমস্ত পয়েন্ট অবশ্যই শ্রেণিবদ্ধ করা উচিত। এর অর্থ হ'ল এমনকি বহিরাগতরাও শ্রেণিবদ্ধ হবে, এবং তাই সিদ্ধান্তবৃক্ষগুলিকে প্রভাবিত করবে যেখানে তারা বৃদ্ধির সময় নির্বাচিত হয়েছিল during

  2. একটি র্যান্ডমফোরস্ট কীভাবে সাব-স্যাম্পলিং করে তার একটি অংশ বুটস্ট্র্যাপিং। বুটস্ট্র্যাপিং আউটলিয়ারদের কাছে সংবেদনশীল।

এটির সাথে দ্বিমত পোষণকারীদের সাথে সংবেদনশীলতা সম্পর্কে আমার অন্তর্নিহিতের কী মিল আছে?


উত্তর, নীচে, খুব ভাল। স্বজ্ঞাত উত্তরটি হ'ল একটি সিদ্ধান্ত গাছ বিভাজনে বিভক্ত হয় এবং বিভাজনগুলি বিদেশিদের কাছে সংবেদনশীল হয় না: বিভক্ত করতে কেবল দুটি পয়েন্টের মধ্যেই বিভক্ত হতে হয়।
ওয়েইন

তাই আমি অনুমান যদি min_samples_leaf_nodeহয় 1, তাহলে এটি outliers সমর্থ হতে পারে।
হুনলে

হ্যাঁ মিনি_সাম্পলগুলি এবং বুটস্ট্র্যাপের নমুনাটি আরএফের রিগ্রেশন
আউটলেয়ারের

কিছু পরিসংখ্যানবিদ এই ইনিলারদের উপর একটি সুড়ঙ্গ দৃষ্টি অর্জন করেন, যা কোনও ব্যক্তি ভবিষ্যদ্বাণী করতে এবং বুঝতে পারে। 'পরিচিত অজানা' হিসাবে আউটলিয়ারদের লালন করুন এবং যদি আপনার ব্যবসায়ের মডেল তাদের দিকে ভঙ্গুর হয় তবে অবাক হন। কিছু আউটলিয়ার মৌলিকভাবে অনির্দেশ্য, তবে তাদের প্রভাব খুব বাস্তব ... এন
টালব

উত্তর:


21

আপনার অন্তর্দৃষ্টি সঠিক। এই উত্তরটি কেবল একটি উদাহরণে এটি চিত্রিত করে।

প্রকৃতপক্ষে এটি একটি সাধারণ ভুল ধারণা যে কার্ট / আরএফ হ'ল বিদেশীদের কাছে একরকম শক্তিশালী।

একক আউটলেয়ারের উপস্থিতি থেকে আরএফের দৃust়তার অভাবকে চিত্রিত করার জন্য, আমরা উপরের সোরেন হ্যাভেল্যান্ড ওয়েলিংয়ের উত্তরটিতে ব্যবহৃত কোডটি সংশোধন করতে পারি যে একক 'y'-outliers লাগানো আরএফ মডেলটিকে পুরোপুরি কাটিয়ে উঠতে যথেষ্ট। উদাহরণস্বরূপ, আমরা যদি বাহ্যিক এবং বাকী ডেটাগুলির মধ্যে দূরত্বের একটি ফাংশন হিসাবে অনিয়ন্ত্রিত পর্যবেক্ষণগুলির গড় পূর্বাভাস ত্রুটিটি গণনা করি, তবে আমরা (নীচের চিত্রটি) দেখতে পাচ্ছি যে একটি একক বহিরাগতকে পরিচয় করিয়ে দিচ্ছি (মূল পর্যবেক্ষণগুলির একটি প্রতিস্থাপন করে) 'y'-স্পেসে একটি স্বেচ্ছাসেবী মূল্য দ্বারা আরএফ মডেলটির পূর্বাভাসগুলি মূলত (অনিয়ন্ত্রিত) ডেটা গণনা করা হলে তাদের যে মানগুলি হত তা থেকে নির্বিচারে দূরে টানতে যথেষ্ট:

 library(forestFloor)
library(randomForest)
library(rgl)
set.seed(1)

X = data.frame(replicate(2,runif(2000)-.5))
y = -sqrt((X[,1])^4+(X[,2])^4)
X[1,]=c(0,0);
y2<-y
rg<-randomForest(X,y)   #RF model fitted without the outlier
outlier<-rel_prediction_error<-rep(NA,10)

for(i in 1:10){
    y2[1]=100*i+2
    rf=randomForest(X,y2)   #RF model fitted with the outlier
    rel_prediction_error[i]<-mean(abs(rf$predict[-1]-y2[-1]))/mean(abs(rg$predict[-1]-y[-1]))
    outlier[i]<-y2[1]
}
plot(outlier,rel_prediction_error,type='l',ylab="Mean prediction error (on the uncontaminated observations) \\\ relative to the fit on clean data",xlab="Distance of the outlier")

এখানে চিত্র বর্ণনা লিখুন

কত দূর? উপরের উদাহরণে, একক আউটলেট ফিটটিকে এতটাই পরিবর্তন করেছে যে গড় অনুমানের ত্রুটি (অনিয়ন্ত্রিত উপর) পর্যবেক্ষণগুলি এখন অপরিবর্তিত ডেটাগুলিতে মডেলটি ফিট করে থাকলে তার চেয়ে বড় পরিমাণের 1-2 অর্ডার হবে।

সুতরাং এটি সত্য নয় যে কোনও একক আধ্যাত্মিক আরএফ ফিটকে প্রভাবিত করতে পারে না।

তদুপরি, আমি অন্য কোথাও উল্লেখ করেছি , আউটলিয়াররা যখন তাদের মধ্যে সম্ভাব্য বেশ কয়েকটি রয়েছে তখন তাদের মোকাবেলা করা অনেক কঠিন (যদিও তাদের প্রভাবগুলি দেখানোর জন্য তাদের ডেটার একটি বৃহত অনুপাতের প্রয়োজন হয় না) be অবশ্যই, দূষিত ডেটাতে একাধিক আউটলেট থাকতে পারে; আরএফ ফিটের উপর বেশ কয়েকটি বহিরাগতের প্রভাব পরিমাপ করতে, অনিয়ন্ত্রিত তথ্যের উপর আরএফ থেকে প্রাপ্ত বাম দিকের প্লটটি নির্বিচারে প্রতিক্রিয়ার মানগুলির 5% স্থানান্তরিত দ্বারা প্রাপ্ত ডানদিকের প্লটের সাথে তুলনা করুন (কোডটি উত্তরের নীচে রয়েছে) ।

এখানে চিত্র বর্ণনা লিখুন এখানে চিত্র বর্ণনা লিখুন

অবশেষে, রিগ্রেশন প্রসঙ্গে, এটি উল্লেখ করা গুরুত্বপূর্ণ যে আউটলিয়াররা ডিজাইন এবং প্রতিক্রিয়া স্থান (1) উভয় ক্ষেত্রেই প্রচুর ডেটা থেকে বেরিয়ে আসতে পারে। আরএফের নির্দিষ্ট প্রসঙ্গে ডিজাইনের আউটলিয়াররা হাইপার-প্যারামিটারগুলির অনুমানকে প্রভাবিত করবে। যাইহোক, মাত্রার সংখ্যা বড় হলে এই দ্বিতীয় প্রভাবটি আরও প্রকট হয়।

আমরা এখানে যা পর্যবেক্ষণ করছি তা আরও সাধারণ ফলাফলের একটি বিশেষ ক্ষেত্রে। উত্তল ক্ষতি ফাংশনের উপর ভিত্তি করে মাল্টিভিয়ারেট ডেটা ফিটিংয়ের পদ্ধতিগুলির বহিরাগতদের প্রতি চরম সংবেদনশীলতা বহুবার নতুন করে আবিষ্কার করা হয়েছে। এমএল পদ্ধতির নির্দিষ্ট প্রসঙ্গে একটি চিত্রের জন্য (২) দেখুন।

সম্পাদনা করুন।

টি

গুলি*=ARGসর্বোচ্চগুলি[পিএলVar(টিএল(গুলি))+ +পিআরVar(টিআর(গুলি))]

টিএলটিআরগুলি*টিএলটিআরগুলিপিএলটিএলপিআর=1-পিএলটিআর। তারপরে, কেউ দৃust় বিকল্পের মাধ্যমে মূল সংজ্ঞায় ব্যবহৃত বৈকল্পিক কার্যকারিতা প্রতিস্থাপন করে রিগ্রেশন গাছগুলিতে (এবং এইভাবে আরএফের) স্পেস দৃ rob়তা সরবরাহ করতে পারে's এটি সংক্ষেপে ব্যবহৃত পদ্ধতি (4) যেখানে ভেরিয়েন্সটি স্কেলটির একটি শক্তিশালী এম-অনুমানকারী দ্বারা প্রতিস্থাপন করা হয়।

  • (1) মাল্টিভিয়ারেট আউটলিয়ারস এবং লিভারেজ পয়েন্টগুলি আনমাস্কিং। আমেরিকান স্ট্যাটিস্টিকাল অ্যাসোসিয়েশন খণ্ডের পিটার জে রুসিয়েউ এবং বার্ট সি ভ্যান জোমেরেন জার্নাল। 85, নং 411 (সেপ্টেম্বর, 1990), পৃষ্ঠা 633-639
  • (2) এলোমেলো শ্রেণিবদ্ধকরণের শব্দটি সমস্ত উত্তল সম্ভাব্য বুস্টারকে পরাভূত করে। ফিলিপ এম লং এবং রোকো এ সার্ভেদিও (২০০৮)। http://dl.acm.org/citation.cfm?id=1390233
  • (3) সি বেকার এবং ইউ। জমা (1999)। মাল্টিভিয়ারেট আউটলেয়ার আইডেন্টিফিকেশন বিধিগুলির মাস্কিং ব্রেকডাউন পয়েন্ট।
  • (৪) গালিমবার্টি, জি।, পিলাতী, এম।, এবং সোফ্রিটি, জি। (2007)। শক্তিশালী রিগ্রেশন গাছগুলি এম-অনুমানের ভিত্তিতে। স্ট্যাটিস্টিকা, এলএক্সভিআইআই, 173–190।

    library(forestFloor)
    library(randomForest)
    library(rgl)
    set.seed(1)

    X<-data.frame(replicate(2,runif(2000)-.5))
    y<--sqrt((X[,1])^4+(X[,2])^4)
    Col<-fcol(X,1:2) #make colour pallete by x1 and x2
    #insert outlier2 and colour it black
    y2<-y;Col2<-Col
    y2[1:100]<-rnorm(100,200,1);    #outliers
    Col[1:100]="#000000FF" #black

    #plot training set
    plot3d(X[,1],X[,2],y,col=Col)
    rf=randomForest(X,y)    #RF on clean data
    rg=randomForest(X,y2)   #RF on contaminated data
    vec.plot(rg,X,1:2,col=Col,grid.lines=200)
    mean(abs(rf$predict[-c(1:100)]-y[-c(1:100)]))
    mean(abs(rg$predict[-c(1:100)]-y2[-c(1:100)]))

আপনার বিস্তারিত উত্তরের জন্য ধন্যবাদ। যদি একই উচ্চ মাত্রিক জায়গাতে বেশ কয়েকটি আউটলিয়ার থাকে, তবে এটি "বহিরাগত" বলার জন্য আমাদের মানদণ্ডটি কী তা প্রশ্ন করে? সেক্ষেত্রে আমি অবাক হই যে হাইপার প্যারামিটারগুলি কীভাবে সেট করা যেতে পারে যাতে আমি কোনও আউটলারের জন্য কোনও ধরণের মানদণ্ডকে অগ্রাধিকার নির্দিষ্ট করতে পারি?
হুনলে

1
আমি আমার উত্তরে আমার পূর্ববর্তী মন্তব্যগুলি যুক্ত করেছি। আমি আশা করি এটি এখন আপনার প্রশ্নের উত্তর দেওয়ার জন্য আরও ভাল কাজ করবে!
ব্যবহারকারী 60

1
ধন্যবাদ। সূত্রটি কী pএবং কী কী s?
হুনলে

1
সংযুক্ত বিদেশী (1 এ + 2) খারাপ কেন? আপনার উদাহরণে, আরএফ মডেলটি 99,99% ওওবি এমএসইতে পুরোপুরি ডেটা স্ট্রাকচারের সাথে ফিট করে। দুটি গুচ্ছের মধ্যে মাঝের জমির মডেল কাঠামোটি বেশ রুক্ষ, হ্যাঁ এবং তথ্যের চেয়ে মডেলের আরও একটি পণ্য। তবে, এই অজানা জায়গায় কোনও অনুমান এবং / বা ভবিষ্যদ্বাণী হওয়া উচিত নয়, তাই এটি কোনও বিষয় নয়। অপ্রত্যাশিতদের প্রতি সম্পূর্ণ দৃ .়তা অনিবার্যভাবে বিরল তবে সম্ভবত গুরুত্বপূর্ণ সম্ভাব্য ঘটনাগুলিকে উপেক্ষা করা। বেশিরভাগ এমএল অ্যালগোস ডিফল্টরূপে দৃust়তা এবং 'নমনীয়তা' এর মধ্যে একটি মাঝারি স্থল অবস্থান গ্রহণ করে তবে দৃust়তা বাড়াতে টুইট করা যেতে পারে।
সোরেন হ্যাভেলন্ড ওয়েলিং

1
@ ব্যবহারকারী 603 প্রযুক্তিগত আলোচনায় যুক্ত হওয়ার মতো কিছুই ছিল না, হার্ট অফ ডার্কনেস ছাড়া আমার বাচ্চা হিসাবে আমার প্রিয় বই ছিল, ফ্রান্জ কাফকার দ্য ট্রায়ালটি একটি নিকটবর্তী দ্বিতীয় (এটি যদি শেষ হয় এবং সম্ভবত ইংরেজিতে লেখা হয় তবে এটি প্রথম হতে পারে) আবার, এটি উপযুক্ত ছিল যে এটি শেষ হয়নি)। আমি বাহ্যিক কোণ থেকে সত্যই এটি নিয়ে ভাবিনি, এ ছাড়া আমি হার্ট অফ ডার্কনেস এবং দ্য ট্রায়ালসকে (ভাল) বিএসের সমুদ্রের মধ্যে "ভাল সাহিত্য" বলে মনে করেছিলাম এবং আমাকে বিএস হালকা-গা dark় চিত্রাবলী পড়তে এবং করতে হয়েছিল এবং মত বিশ্লেষণ।
মার্ক এল স্টোন

11

আউটলেটর 1 এ: এই আউটলারের এক বা একাধিক চরম বৈশিষ্ট্যের মান রয়েছে এবং এটি অন্য কোনও নমুনার থেকে দূরে স্থাপন করা হয়। আউটলেটর গাছের প্রাথমিক বিভাজনকে অন্য যে কোনও নমুনা হিসাবে প্রভাবিত করবে, তাই কোনও শক্তিশালী প্রভাব নেই। এটা কম থাকবে নৈকট্য অন্য কোন নমুনা, এবং শুধুমাত্র বৈশিষ্ট্য স্থান একটি প্রত্যন্ত অংশে মডেল গঠন সংজ্ঞায়িত হবে। পূর্বাভাসের সময় বেশিরভাগ নতুন নমুনাগুলি সম্ভবত এই আউটলিয়ারের মতো না হয় এবং একই টার্মিনাল নোডে খুব কমই শেষ হয়। তদুপরি সিদ্ধান্তের গাছগুলি বৈশিষ্ট্যগুলি এমনভাবে বিবেচনা করে যেগুলি সেগুলি অর্ডিনাল (র‌্যাঙ্কিং) were মানটি হয় ছোট / সমান বা ব্রেক ব্রেকের চেয়ে বড়, সুতরাং কোনও বৈশিষ্ট্যের মান চূড়ান্ত বহির্মুখী কিনা তা বিবেচ্য নয়।

বহিরাগত 1 বি: শ্রেণিবিন্যাসের জন্য একটি একক নমুনা একটি বহিরাগত হিসাবে বিবেচিত হতে পারে, যখন বিভিন্ন শ্রেণীর অনেক নমুনার মাঝখানে এম্বেড থাকে। আমি আগে বর্ণনা করেছি যে কীভাবে একটি ডিফল্ট আরএফ মডেল বিজোড় শ্রেণীর এই একটি নমুনার দ্বারা প্রভাবিত হবে, তবে কেবলমাত্র নমুনার খুব কাছে।

আউটলেট ২: এই আউটলারের একটি চূড়ান্ত লক্ষ্য মান অন্য যে কোনও মানের চেয়ে বহুগুণ বেশি, তবে বৈশিষ্ট্যটির মানগুলি স্বাভাবিক। গাছগুলির একটি .631 ভগ্নাংশের এই নমুনা সহ একটি টার্মিনাল নোড থাকবে। মডেল কাঠামো আউটলারের কাছাকাছি স্থানীয়ভাবে প্রভাবিত হবে। লক্ষ্য করুন মডেল কাঠামোটি বৈশিষ্ট্য অক্ষের সাথে সমান্তরালভাবে প্রভাবিত হয়েছে, কারণ নোডগুলি ইউনি-ভেরিয়েটে বিভক্ত।

Y=(এক্স14+ +এক্স24)12এক্স1এক্স2

এখানে চিত্র বর্ণনা লিখুন

library(forestFloor)
library(randomForest)
library(rgl)
set.seed(1)

X = data.frame(replicate(2,runif(2000)-.5))
y = -sqrt((X[,1])^4+(X[,2])^4)^1
Col = fcol(X,1:2) #make colour pallete by x1 and x2
#insert outlier2 and colour it black
X[1,] = c(0,0);y[1]=2 ;Col[1] = "#000000FF" #black

#plot training set
plot3d(X[,1],X[,2],y,col=Col)

rf = randomForest(X,y)
vec.plot(rf,X,1:2,col=Col,grid.lines = 400)

সম্পাদনা: ব্যবহারকারী 603 মন্তব্য

হ্যাঁ টার্গেট স্কেলে চরম আউটলিয়ারদের জন্য, আরএফ চালানোর আগে টার্গেট স্কেলকে রূপান্তর করার বিষয়ে বিবেচনা করা উচিত। আমি রবস্টমোডেল () ফাংশনের নীচে যুক্ত করেছি যা র্যান্ডমফোরেস্টকে টুইট করে। আর একটি সমাধান হ'ল প্রশিক্ষণের আগে লগ রূপান্তর করা।

.
##---code by user603
library(forestFloor)
library(randomForest)
library(rgl)
set.seed(1)

X<-data.frame(replicate(2,runif(2000)-.5))
y<--sqrt((X[,1])^4+(X[,2])^4)
Col<-fcol(X,1:2) #make colour pallete by x1 and x2

#insert outlier2 and colour it black
y2<-y;Col2<-Col
y2[1:100]<-rnorm(100,200,1);    #outliers
Col2[1:100]="#000000FF" #black
##---

#function to make models robust
robustModel = function(model,keep.outliers=TRUE) {
  f = function(X,y,lim=c(0.1,.9),keep.outliers="dummy",...) {
  limits = quantile(y,lim)
  if(keep.outliers) {#keep but reduce outliers
  y[limits[1]>y] = limits[1] #lower limit
  y[limits[2]<y] = limits[2] #upper limit
  } else {#completely remove outliers
    thrashThese = mapply("||",limits[1]>y,limits[2]>y)
    y = y[thrashThese]
    X = X[thrashThese,]
  }
  obj = model(x=X,y=y,...)
  class(obj) = c("robustMod",class(obj))
  return(obj)
  }
  formals(f)$keep.outliers = keep.outliers
  return(f)
}

robustRF = robustModel(randomForest) #make RF robust
rh = robustRF(X,y2,sampsize=250)     #train robustRF
vec.plot(rh,X,1:2,col=Col2)          #plot model surface
mean(abs(rh$predict[-c(1:100)]-y2[-c(1:100)]))

এখানে চিত্র বর্ণনা লিখুন


আপনি লিখুন "অন্য কোনও ভবিষ্যদ্বাণী প্রভাবিত হবে না"। আপনি যদি আপনার একক আউটলেটটিকে রাখার জন্য স্থানান্তরিত করেন তবে আপনি y[1]=200দেখতে পাবেন যে এটি একা হাতে অনিয়ন্ত্রিত পর্যবেক্ষণগুলিতে ভবিষ্যদ্বাণী ত্রুটির কারণ হয়ে যায় 20 এর একটি ফ্যাক্টর দিয়ে jump
ব্যবহারকারী 60

@ ইউজার 603 সত্য, এই জাতীয় পরিস্থিতিতে আরএফের হাতে দেওয়ার আগে লক্ষ্য স্কেল একঘেয়েভাবে রূপান্তরিত হতে পারে। আমি আমার উত্তরটিতে একটি 'রবস্টমডেল: মডেলগুলিকে শক্তিশালী করে তোলে' যুক্ত করেছি ..... অবশ্যই এ জাতীয় এলোমেলো টার্গেট আউটলেট (গুলি) (টাইপ 2) ভবিষ্যদ্বাণী করা অসম্ভব হয়ে পড়েছে, তবে বাকি মডেল কাঠামোটি ভোগ করতে হবে না
সোরেন হ্যাভেলন্ড ওয়েলিং

লগ রূপান্তরটি সাধারণত বহিরাগতদের বিরুদ্ধে কোনও সমাধান হয় না (এটি কেবল সমস্যাটি গোপন করে)। আপনার প্রস্তাবিত আরএফের প্রসারণটি মূলত গালিমবার্টি, জি।, পিলাতী, এম।, এবং সোফ্রিটি, জি। (আমার উত্তর দেখুন) এ অ্যাডভোকেট হয়েছে। মূল পার্থক্যটি হ'ল আপনার '' রোবস্টমোডেল 'পদ্ধতির প্রতিক্রিয়া স্থানে সর্বাধিক ব্রেকডাউন পয়েন্ট রয়েছে (এটি 25% বা স্বেচ্ছাসেবী' y'-outliers সহ্য করতে পারে) তবে তাদের বিডিপি রয়েছে 50% Note ডিজাইনের জায়গার
বহিরাগতদের কাছে শক্ত

8

এটি নিজেই র্যান্ডম ফরেস্ট অ্যালগরিদম নয় যা বিদেশীদের পক্ষে শক্তিশালী, তবে এটি বেস লার্নার এর উপর ভিত্তি করে: সিদ্ধান্ত গাছ । সিদ্ধান্তের গাছগুলি অল্পিকল্পিত পর্যবেক্ষণকে ছোট পাতাগুলিতে বিচ্ছিন্ন করে (যেমন, মূল জায়গার ছোট ছোট উপসর্গ)। তদতিরিক্ত, সিদ্ধান্ত গাছ স্থানীয় মডেল। লিনিয়ার রিগ্রেশন থেকে পৃথক, যেখানে একই সমীকরণ পুরো স্থানের জন্য ধারণ করে, খুব সাধারণ একটি মডেল স্থানীয়ভাবে প্রতিটি উপ-স্পেসে (অর্থাৎ প্রতিটি পাতায়) লাগানো হয়।

  • রিগ্রেশনের ক্ষেত্রে এটি সাধারণত খুব কম-অর্ডার রিগ্রেশন মডেল (সাধারণত পাতায় কেবলমাত্র পর্যবেক্ষণের গড়)।
  • শ্রেণিবিন্যাসের জন্য, এটি সংখ্যাগরিষ্ঠ ভোটদান।

সুতরাং, উদাহরণস্বরূপ রিগ্রেশনের জন্য, চূড়ান্ত মানগুলি পুরো মডেলকে প্রভাবিত করে না কারণ তারা স্থানীয়ভাবে গড় হয়। সুতরাং অন্যান্য মানগুলির সাথে ফিট করে না।

প্রকৃতপক্ষে, এই আকাঙ্ক্ষিত সম্পত্তি অন্যান্য গাছের মতো কাঠামো যেমন ডেন্ডোগ্রামগুলিতে নিয়ে যায়। উদাহরণস্বরূপ, হায়ারারিকিকাল ক্লাস্টারিং ডেটা পরিষ্কারের জন্য দীর্ঘকাল ধরে ব্যবহৃত হয় কারণ এটি স্বয়ংক্রিয়ভাবে ক্ষুদ্র ক্লাস্টারে বিভ্রান্তিক পর্যবেক্ষণকে পৃথক করে দেয়। উদাহরণস্বরূপ লুয়েরিও এট আল দেখুন। (2004)। ক্লাস্টারিং পদ্ধতি ব্যবহার করে আউটলেট সনাক্তকরণ: একটি ডাটা সাফাই অ্যাপ্লিকেশন

সুতরাং, সংক্ষেপে, আরএফ পুনরাবৃত্তিক বিভাজন এবং স্থানীয় মডেল ফিটিং থেকে আউটলিয়ারদের প্রতি তার সংবেদনশীলতা উত্তরাধিকার সূত্রে প্রাপ্ত ।

নোট করুন যে সিদ্ধান্তের গাছগুলি কম পক্ষপাতী তবে উচ্চতর বৈকল্পিক মডেল: তাদের কাঠামোটি প্রশিক্ষণের সেটটির সামান্য পরিবর্তন (কয়েকটি পর্যবেক্ষণ অপসারণ বা সংযোজন) পরিবর্তন করার প্রবণ। তবে এটি বিদেশী সংবেদনশীলতার সাথে ভুল হওয়া উচিত নয়, এটি আলাদা বিষয় a


আপনার পরামর্শ অনুসারে, বিদেশী সনাক্তকরণের জন্য আমি আসলে একটি ক্লাস্টারিং পদ্ধতি ব্যবহার করে বিবেচনা করেছি। তবে তারপরে, আমি কোথায় ক্লাস্টারিং প্রয়োগ করব তা নিশ্চিত নই। এটি প্রয়োগ করা উচিত labeledবা unlabeledডেটা? এবং এই ক্লাস্টারিংটি হেটেরোজেনাস ডেটাতে কীভাবে অর্জিত হবে যেগুলিতে শ্রেণিবদ্ধ এবং সংখ্যাসূচক বৈশিষ্ট্য রয়েছে?
হুনলে
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.