অ-লিনিয়ার রিগ্রেশন জন্য আউটলিয়ারদের সনাক্ত করা


11

আমি মাইটগুলির কার্যকরী প্রতিক্রিয়ার ক্ষেত্রে গবেষণা করছি। আমি রজার্স টাইপ II ফাংশনের প্যারামিটারগুলি (আক্রমণ হার এবং হ্যান্ডলিংয়ের সময়) অনুমান করতে একটি রিগ্রেশন করতে চাই। আমার কাছে পরিমাপের একটি ডেটাসেট রয়েছে। আমি কীভাবে সর্বোপরি বিদেশী নির্ধারণ করতে পারি?

(Dateset একটি সহজ 2 কলামটি পাঠ্য নামক ফাইল: আমার রিগ্রেশন জন্য আমি আর নিম্নলিখিত স্ক্রিপ্ট (ক অ রৈখিক রিগ্রেশনের) ব্যবহার data.txtসাহায্যে ফাইল N0মান (প্রাথমিক শিকারী নম্বর) FRমান (24 ঘন্টা সময় খাওয়া শিকার সংখ্যা):

library("nlstools")
dat <- read.delim("C:/data.txt")    
#Rogers type II model
a <- c(0,50)
b <- c(0,40)
plot(FR~N0,main="Rogers II normaal",xlim=a,ylim=b,xlab="N0",ylab="FR")
rogers.predII <- function(N0,a,h,T) {N0 - lambertW(a*h*N0*exp(-a*(T-h*N0)))/(a*h)}
params1 <- list(attackR3_N=0.04,Th3_N=1.46)
RogersII_N <-  nls(FR~rogers.predII(N0,attackR3_N,Th3_N,T=24),start=params1,data=dat,control=list(maxiter=    10000))
hatRIIN <- predict(RogersII_N)
lines(spline(N0,hatRIIN))
summary(RogersII_N)$parameters

ক্যালাসিক অবশিষ্টাংশের গ্রাফগুলি তৈরি করার জন্য আমি নিম্নলিখিত স্ক্রিপ্টটি ব্যবহার করি:

res <- nlsResiduals (RogersII_N)
plot (res, type = 0)
hist (res$resi1,main="histogram residuals")
    qqnorm (res$resi1,main="QQ residuals")
hist (res$resi2,main="histogram normalised residuals")
    qqnorm (res$resi2,main="QQ normalised residuals")
par(mfrow=c(1,1))
boxplot (res$resi1,main="boxplot residuals")
    boxplot (res$resi2,main="boxplot normalised residuals")

প্রশ্নাবলি

  • কোন ডেটা পয়েন্টগুলি বিদেশী বলে আমি কীভাবে সর্বোত্তমভাবে নির্ধারণ করতে পারি?
  • আমি কি আর তে পরীক্ষামূলক ব্যবহার করতে পারি যা উদ্দেশ্যমূলক এবং আমাকে দেখায় যে কোন ডেটা পয়েন্টগুলি বিদেশী?

উত্তর:


9

ডিকসন এবং গ্রুবস সহ আউটলিয়ারদের জন্য বেশ কয়েকটি পরীক্ষা outliersআর এর প্যাকেজে পাওয়া যায় the পরীক্ষার তালিকার জন্য, প্যাকেজের ডকুমেন্টেশন দেখুন । পরীক্ষাগুলির বর্ণনাকারী রেফারেন্সগুলি সংশ্লিষ্ট ফাংশনগুলির জন্য সহায়তা পৃষ্ঠায় দেওয়া হয়।

আপনি যদি আপনার ডেটা থেকে বিদেশীদের অপসারণের পরিকল্পনা করছেন তবে মনে রাখবেন যে এটি সর্বদা পরামর্শযোগ্য নয়। উদাহরণস্বরূপ এ সম্পর্কে আলোচনার জন্য এই প্রশ্নটি দেখুন (পাশাপাশি কীভাবে বিদেশীদের কীভাবে সনাক্ত করা যায় সে সম্পর্কে আরও কিছু পরামর্শ)।


8

আমিও কোনও পরিসংখ্যানবিদ নই। অতএব আমি ডেটা সম্পর্কে আমার বিশেষজ্ঞ জ্ঞানটি বিদেশীদের খুঁজে বের করতে ব্যবহার করি। অর্থাৎ আমি শারীরিক / জৈবিক / যে কারণেই কিছু পরিমাপ অন্যদের থেকে পৃথক করে তুলেছি for

আমার ক্ষেত্রে যে উদাহরণস্বরূপ

  • মহাজাগতিক রশ্মিগুলি পরিমাপ করা সংকেতের অংশ গণ্ডগোল করে
  • কেউ ল্যাবটিতে ,ুকছেন, লাইট স্যুইচ করছেন
  • শুধু পুরো বর্ণালী একরকম আলাদা দেখায়
  • প্রথম পরিমাপের সিরিজটি সাধারণ কাজের সময় নেওয়া হয়েছিল এবং 10 মঞ্চের সিরিজের চেয়ে আরও শোরগোলের ক্রম

অবশ্যই আপনি আমাদের অনুরূপ প্রভাব বলতে পারেন।

মনে রাখবেন যে আমার ২ য় পয়েন্টটি অন্যদের থেকে পৃথক: আমি জানি না কী হয়েছিল। এটি আপনার সম্পর্কে জিজ্ঞাসা করা ধরণের হতে পারে asking যাইহোক, এটি কী কারণে ঘটেছে তা না জেনে (এবং এই কারণটি ডেটা পয়েন্টকে অকার্যকর করে তোলে) এটি বলা কঠিন যে এটি ডেটা সেটে প্রদর্শিত হবে না। এছাড়াও: আপনার আউটিলারটি আমার সবচেয়ে আকর্ষণীয় নমুনা হতে পারে ...

অতএব, আমি প্রায়শই বহিরাগতদের কথা বলি না, তবে সন্দেহজনক ডেটা পয়েন্টের কথা বলি। এটি প্রত্যেককে মনে করিয়ে দেয় যে তাদের অর্থের জন্য তাদের দ্বিগুণ পরীক্ষা করা দরকার।

ডেটা বাদ দেওয়া ভাল কিনা বা না (যারা কেবলমাত্র তাদের কাছে রাখার জন্য বিদেশীদের খুঁজে পেতে চায়?) হাতের কাজটি কী এবং সেই কাজের জন্য "সীমানা পরিস্থিতি" কী তার উপর অনেক বেশি নির্ভর করে। কিছু উদাহরণ:

  • আপনি সবেমাত্র নতুন আউটলিরেনসিস জোছিমি উপ-প্রজাতি আবিষ্কার করেছেন ;-) এগুলি বাদ দেওয়ার কোনও কারণ নেই। অন্য সকলকে বাদ দিন।

  • আপনি কীটপতঙ্গগুলির সময় নির্ধারণের পূর্বাভাস দিতে চান। যদি ভবিষ্যদ্বাণীটি কিছু শর্তের মধ্যে সীমাবদ্ধ রাখার পক্ষে গ্রহণযোগ্য হয় তবে আপনি এগুলি তৈরি করতে এবং অন্যান্য সমস্ত নমুনা বাদ দিয়ে বলতে পারেন এবং আপনার ভবিষ্যদ্বাণীপূর্ণ মডেলটি এই বা সেই পরিস্থিতি নিয়ে কাজ করে, যদিও আপনি ইতিমধ্যে অন্যান্য পরিস্থিতি জানেন (এখানে বহিরাগতকে বর্ণনা করুন) ঘটে থাকে।

  • মনে রাখবেন যে মডেল ডায়াগনস্টিকসের সাহায্যে ডেটা বাদ দিয়ে এক ধরণের স্ব-সিদ্ধিযোগ্য ভবিষ্যদ্বাণী বা একটি অত্যধিক প্রতিরোধমূলক পক্ষপাত তৈরি করতে পারে (যেমন আপনি দাবি করেন যে আপনার পদ্ধতিটি সাধারণত প্রযোজ্য) আপনি আরও বেশি নমুনা বাদ দেন কারণ সেগুলি আপনার ফিট করে না অনুমানগুলি, বাকি নমুনাগুলির দ্বারা অনুমান করা আরও ভাল। তবে তা কেবল বাদ দেওয়ার কারণে।

  • আমার কাছে বর্তমানে একটি কাজ রয়েছে যেখানে আমার কাছে বেশ কিছু খারাপ পরিমাপ রয়েছে (আমি পরিমাপটিকে খারাপ কেন বলে মনে করি তার শারীরিক কারণ জানি), এবং আরও কয়েকটি যে কোনওভাবে "অদ্ভুত দেখাচ্ছে"। আমি যা করি তা হ'ল আমি এই নমুনাগুলিকে একটি (ভবিষ্যদ্বাণীবিদ) মডেলটির প্রশিক্ষণ থেকে বাদ দিয়েছি, তবে আলাদাভাবে এইগুলি দিয়ে মডেলটি পরীক্ষা করি যাতে আমি জানতাম যে এই ধরণের বাইরের লোকদের বিরুদ্ধে আমার মডেলটির দৃust়তা সম্পর্কে আমি বলতে পারি যা প্রতিবারে একবার আসবে occur যখন । এইভাবে, অ্যাপ্লিকেশনটি কোনওভাবে বা এই প্রকারের সাথে কাজ করার জন্য অন্যান্য প্রয়োজন।

  • তবুও অপ্রত্যাশিতদের দেখার আরেকটি উপায় জিজ্ঞাসা করছে: "তারা আমার মডেলকে কতটা প্রভাবিত করে?" (লিভারেজ)। এই দৃষ্টিকোণ থেকে আপনি অদ্ভুত প্রশিক্ষণের নমুনাগুলির সাথে দৃ rob়তা বা স্থায়িত্ব পরিমাপ করতে পারেন।

  • আপনি যে পরিসংখ্যানগত পদ্ধতি ব্যবহার করুন না কেন এটি কোনও বহিরাগতকে সনাক্ত করতে পারে না, বা এতে মিথ্যা ইতিবাচকতাও রয়েছে। আপনি অন্যান্য ডায়াগনস্টিক পরীক্ষাগুলির মতো আউটলেট টেস্টিং পদ্ধতি চিহ্নিত করতে পারেন: এটির সংবেদনশীলতা এবং একটি নির্দিষ্টতা রয়েছে - এবং - আপনার জন্য আরও গুরুত্বপূর্ণ - তারা (আপনার ডেটাতে আউটরিয়ার অনুপাতের মাধ্যমে) একটি ইতিবাচক এবং নেতিবাচক ভবিষ্যদ্বাণীকের সাথে মিল রাখে। অন্য কথায়, বিশেষত যদি আপনার ডেটার খুব অল্প পরিমাণে বিদেশী থাকে, তবে আউটলেট টেস্ট দ্বারা চিহ্নিত কেসটি সত্যই আউটলারের (সম্ভবত ডেটাতে থাকা উচিত নয়) সম্ভাব্যতা খুব কম হতে পারে।
    আমি বিশ্বাস করি যে হাতে থাকা ডেটা সম্পর্কে বিশেষজ্ঞের জ্ঞান সাধারণত পরিসংখ্যান পরীক্ষার তুলনায় বহিরাগতদের সনাক্তকরণে অনেক ভাল the পরীক্ষাটি তার পিছনের অনুমানের মতোই দুর্দান্ত। এবং এক-আকারের-ফিটগুলি সবই ডেটা বিশ্লেষণের জন্য সত্যই ভাল হয় না। কমপক্ষে আমি প্রায়শই এক ধরণের আউটলিয়ারদের সাথে ডিল করি, যেখানে বিশেষজ্ঞরা (সেই ধরণের পরিমাপের বিষয়ে) স্বয়ংক্রিয় পদ্ধতিতে ব্যর্থ হয়ে ওঠার সময় আপস করা সংকেতের সঠিক অংশটি সনাক্ত করতে কোনও সমস্যা হয় না (এটি সহজেই খুঁজে পাওয়া যায় যে সেখানে একটি আছে সমস্যা, তবে সমস্যাটি কোথায় শুরু হয় এবং কোথায় এটি শেষ হয় তা খুঁজে পাওয়া তাদের পক্ষে খুব কঠিন।


এখানে অনেক ভাল তথ্য আছে। আমি বিশেষত বুলেট পয়েন্টগুলি # 4 এবং 5 পছন্দ করি
গং - মনিকা পুনরায়

4

অবিচ্ছিন্ন আউটলিয়ারদের জন্য ডিক্সনের অনুপাত পরীক্ষা এবং গ্রুবসের পরীক্ষা স্বাভাবিকতা অনুমান করে থাকে। একজন আউটলারের পরীক্ষা করার জন্য আপনাকে জনসংখ্যার বন্টন ধরে নিতে হবে কারণ আপনি দেখানোর চেষ্টা করছেন যে অনুমান করা মানটি অনুমান করা বিতরণ থেকে আসা চরম বা অস্বাভাবিক। ১৯৮২ সালে আমেরিকান স্ট্যাটিস্টিস্টিয়নে আমার একটি কাগজ রয়েছে যা আমি এখানে এখানে উল্লেখ করতে পেরেছিলাম যা দেখায় যে ডিক্সনের অনুপাত পরীক্ষা এমনকি কিছু সাধারণ-সাধারণ বিতরণের জন্যও ছোট নমুনায় ব্যবহার করা যেতে পারে। চের্নিক, মিঃ তাদের জন্য প্রথাগত পরীক্ষার জন্য নির্মিত যদিও এ জাতীয় পরীক্ষা সম্ভব)।আউটিলার সনাক্তকরণ পদ্ধতির বিশদ চিকিত্সার জন্য "পরিসংখ্যানের ডেটাতে আউটলিয়ার্স"


3

দেখুন http://www.waset.org/journals/waset/v36/v36-45.pdf , [ "অরৈখিক রিগ্রেশনে Outlier সনাক্তকরণ অন" এসআইসি ]।

বিমূর্ত

রৈখিক পাশাপাশি ননলাইনারের প্রতিরোধ বিশ্লেষণে বিশাল ব্যাখ্যামূলক সমস্যা তৈরি করার জন্য তাদের দায়বদ্ধতার কারণে বহিরাগতদের সনাক্তকরণ অত্যন্ত প্রয়োজনীয়। রৈখিক প্রতিরোধের ক্ষেত্রে আউটলেটারের সনাক্তকরণে অনেক কাজ সম্পন্ন হয়েছে, তবে ননলাইনারি প্রতিরোধে নয়। এই নিবন্ধে আমরা ননলাইনারি প্রতিরোধের জন্য বেশ কয়েকটি আউটলেট সনাক্তকরণ কৌশল প্রস্তাব করি। মূল ধারণাটি হ'ল ননলাইনার মডেলের লিনিয়ার আনুমানিকতা ব্যবহার করা এবং গ্রেডিয়েন্টটিকে ডিজাইন ম্যাট্রিক্স হিসাবে বিবেচনা করা। পরবর্তীকালে, সনাক্তকরণ কৌশলগুলি তৈরি করা হয়। ছয় সনাক্তকরণ ব্যবস্থার বিকাশ করা হয়েছে যা স্বল্প-স্কোয়ার্স, এম এবং এমএম-অনুমানকারীগুলির মতো তিনটি অনুমানের কৌশলগুলির সাথে একত্রিত হয়। সমীক্ষাটি দেখায় যে ছয়টি ব্যবস্থার মধ্যে কেবলমাত্র স্টাডেন্টাইজড অবশিষ্টাংশ এবং কুক দূরত্ব যা এমএম অনুমানের সাথে মিলিত হয়েছে,


+1 ইংরেজিতে (এবং গাণিতিক টাইপসেটেটিং) স্পষ্ট সমস্যা থাকা সত্ত্বেও এই কাগজটি প্রশ্নের একটি দরকারী অবদান বলে মনে হয়।
whuber

2

আউটলেটর এমন একটি বিন্দু যা "কিছু বেসলাইন" থেকে "খুব দূরে"। কৌশলটি হ'ল এই দুটি বাক্যকেই সংজ্ঞায়িত করা! ননলাইনারীয় রিগ্রেশন সহ, কোনও আউটরিয়ার সেরা-ফিট বক্ররেখা থেকে "খুব দূরে" কিনা তা দেখতে কেবল অবিচ্ছিন্ন পদ্ধতি ব্যবহার করতে পারবেন না, কারণ আউটলেটরটি বক্ররেখাটিতেই বিরাট প্রভাব ফেলতে পারে।

রোন ব্রাউন এবং আমি আউটলারের বক্ররেখাকে খুব বেশি প্রভাবিত না করে, ননলাইনারি রিগ্রেশন সহ আউটলিয়ারগুলি সনাক্ত করার জন্য একটি অনন্য পদ্ধতি (যাকে আমরা রুট - রবস্ট রিগ্রেশন এবং আউটলেট অপসারণ বলি) তৈরি করেছি। প্রথমে শক্তিশালী রিগ্রেশন পদ্ধতিতে ডেটা ফিট করুন যেখানে বিদেশিদের খুব কম প্রভাব থাকে। এটি বেসলাইন গঠন করে। তারপরে ফলস ডিসকোভারি রেট (এফডিআর) এর ধারণাগুলি ব্যবহার করুন যখন কোনও বিন্দু সেই বেসলাইন থেকে "খুব বেশি দূরে" থাকে এবং নির্ধারিত বাহিনীও নির্ধারণ করে। শেষ পর্যন্ত, এটি চিহ্নিত আউটলিয়ারগুলি সরিয়ে দেয় এবং বাকি পয়েন্টগুলি প্রচলিতভাবে ফিট করে।

পদ্ধতিটি একটি ওপেন অ্যাক্সেস জার্নালে প্রকাশিত হয়েছে: মোটুলস্কি এইচজে এবং ব্রাউন আরই, ননলাইনার রিগ্রেশন সহ ডেটা ফিটিং করার সময় আউটলিয়ারদের সনাক্তকরণ - শক্তিশালী ননলাইনার রিগ্রেশন এবং মিথ্যা আবিষ্কারের হারের ভিত্তিতে একটি নতুন পদ্ধতি , বিএমসি বায়োইনফরম্যাটিকস 2006, 7: 123। বিমূর্তি এখানে:

পটভূমি। লিনিয়ার রিগ্রেশন এর মতো ননলাইনার রিগ্রেশন, ধরে নেওয়া হয় যে আদর্শ বক্ররেখার চারপাশের ডেটার বিচ্ছিন্নতা কোনও গাউসিয়ান বা সাধারণ বিতরণকে অনুসরণ করে। এই অনুমানটি রিগ্রেশনটির পরিচিত লক্ষ্যকে নিয়ে যায়: পয়েন্টগুলি এবং বক্ররেখার মধ্যে উল্লম্ব বা Y- মান দূরত্বের বর্গাকার যোগফলকে হ্রাস করতে। আউটলিয়াররা বর্গক্ষেত্রের গণনার অঙ্কটি প্রাধান্য দিতে পারে এবং বিভ্রান্তিকর ফলাফলের দিকে নিয়ে যেতে পারে। যাইহোক, ননলাইনার রিগ্রেশন সহ কার্ভগুলি ফিট করার সময় আউটলিয়ারদের নিয়মিত সনাক্তকরণের জন্য আমরা কোন ব্যবহারিক পদ্ধতি জানি না।

ফলাফল। ননলাইনার রিগ্রেশন সহ ডেটা ফিট করার সময় আমরা আউটলিয়ারদের সনাক্ত করার জন্য একটি নতুন পদ্ধতি বর্ণনা করি। আমরা প্রথমে ননলাইনার প্রতিরোধের একটি শক্তিশালী ফর্ম ব্যবহার করে ডেটা মাপসই করি, ছড়িয়ে ছিটিয়ে থাকা কোনও লরেন্টিজিয়ান বিতরণ অনুসরণ করে ass আমরা একটি নতুন অভিযোজিত পদ্ধতি তৈরি করেছি যা পদ্ধতিটি এগিয়ে যাওয়ার সাথে ধীরে ধীরে আরও দৃust় হয়। বহিরাগতদের সংজ্ঞায়িত করতে, আমরা একাধিক তুলনা পরিচালনা করতে ভুয়া আবিষ্কারের হারের পদ্ধতির রূপ নিয়েছি। এরপরে আমরা আউটলিয়ারগুলি সরিয়ে ফেলি এবং সাধারণ সর্বনিম্ন-স্কোয়ার রিগ্রেশন ব্যবহার করে ডেটা বিশ্লেষণ করি। যেহেতু পদ্ধতিটি শক্ত শক্তিশালীকরণ এবং বহিরাগত অপসারণকে একত্রিত করে, আমরা একে ROUT পদ্ধতি বলি।

সিমুলেটেড ডেটা বিশ্লেষণ করার সময়, যেখানে সমস্ত বিভক্ত গাউসিয়ান, সেখানে আমাদের পদ্ধতিটি প্রায় ১-৩% পরীক্ষায় এক বা একাধিক আউটলেট সনাক্ত করে। এক বা একাধিক বহিরাগতদের সাথে দূষিত ডেটা বিশ্লেষণ করার সময়, গড় ফলস ডিসকোভারি রেট 1% এরও কম দিয়ে আউটলেট সনাক্তকরণে ROUT পদ্ধতি ভাল সম্পাদন করে।

উপসংহার। আমাদের পদ্ধতি, যা আউটলিয়ার সনাক্তকরণের একটি নতুন পদ্ধতির সাথে শক্তিশালী ননলাইনার রিগ্রেশনের একটি নতুন পদ্ধতির সংমিশ্রণ করে, অরৈখিক বক্ররেখার বহিরাগতদের যুক্তিসঙ্গত শক্তি এবং কয়েকটি মিথ্যা ধনাত্মকতার সাথে ফিট করে।

এটি আর (আর যতদূর আমি জানি) প্রয়োগ করা হয়নি But তবে আমরা এটি গ্রাফপ্যাড প্রিজমে প্রয়োগ করেছি এবং প্রিজম সহায়তাতে একটি সহজ ব্যাখ্যা সরবরাহ করুন ।


0

আপনার প্রশ্নটি খুব সাধারণ। "আউটলিয়ার্স" বাদ দেওয়ার জন্য কোনও একক সেরা পদ্ধতি নেই।

"আউটলিয়ার্স" এর কিছু বৈশিষ্ট্য আপনার জানা ছিল। বা কোন পদ্ধতিটি সবচেয়ে ভাল তা আপনি জানেন না। আপনি কোন পদ্ধতিটি ব্যবহার করতে চান তা সিদ্ধান্ত নেওয়ার পরে, আপনাকে পদ্ধতির পরামিতিগুলি যত্ন সহকারে ক্রমাঙ্কিত করতে হবে।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.