নির্ভুলতার মধ্যে গড় হ্রাস এবং র্যান্ডম ফরেস্ট মডেলগুলিতে গড় হ্রাস জিআইএনআই কীভাবে ব্যাখ্যা করবেন


34

র্যান্ডম ফরেস্ট প্যাকেজ থেকে পরিবর্তনশীল গুরুত্ব আউটপুট কীভাবে ব্যাখ্যা করতে হয় তা বুঝতে আমার কিছুটা সমস্যা হচ্ছে। যথাযথতার গড় হ্রাসকে সাধারণত "প্রতিটি বৈশিষ্ট্যের মানগুলিকে অনুমতি দেওয়া থেকে মডেল নির্ভুলতার হ্রাস" হিসাবে বর্ণনা করা হয়।

এটি পুরোপুরি বৈশিষ্ট্য সম্পর্কে বা বৈশিষ্ট্যের মধ্যে নির্দিষ্ট মান সম্পর্কে কোনও বিবৃতি? উভয় ক্ষেত্রেই, মডেল থেকে প্রশ্নে বৈশিষ্ট্যটি (বা বৈশিষ্ট্য থেকে মানগুলি) মুছে ফেলার মাধ্যমে ভুলভাবে শ্রেণিবদ্ধ করা পর্যবেক্ষণগুলির সংখ্যা বা অনুপাতের সঠিকতার মধ্যে গড় হ্রাস হ'ল?

আমাদের নীচের মডেল আছে বলুন:

require(randomForest)
data(iris)
set.seed(1)
dat <- iris
dat$Species <- factor(ifelse(dat$Species=='virginica','virginica','other'))
model.rf <- randomForest(Species~., dat, ntree=25,
importance=TRUE, nodesize=5)
model.rf
varImpPlot(model.rf)

Call:
 randomForest(formula = Species ~ ., data = dat, ntree = 25,
 proximity = TRUE, importance = TRUE, nodesize = 5)

Type of random forest: classification
Number of trees: 25
No. of variables tried at each split: 2

        OOB estimate of  error rate: 3.33%
Confusion matrix:
          other virginica class.error
other        97         3        0.03
virginica     2        48        0.04

এখানে চিত্র বর্ণনা লিখুন

এই মডেলটিতে, ওওবি রেট বরং কম (প্রায় 5%)। তবুও, এই পরিমাপের সর্বাধিক মান সহ প্রেডিক্টর (পেটাল। লেন্থ) এর যথাযথতার যথাযথতা হ্রাস হ্রাস মাত্র 8 এর কাছাকাছি।

এর অর্থ কি এই যে মডেল থেকে পেটাল। দৈর্ঘ্য অপসারণের ফলে কেবল গড়ে অতিরিক্ত 8 টি বা তার বেশি পর্যবেক্ষণের ভুল বিভ্রান্তি ঘটতে পারে?

পেটালের জন্য নির্ভুলতার গড় হ্রাস কীভাবে হতে পারে? দৈর্ঘ্যটি এত কম হতে পারে যে এই পরিমাপের ক্ষেত্রে এটি সর্বোচ্চ, এবং এইভাবে অন্যান্য ভেরিয়েবলগুলির এই পরিমাপের উপরও কম মান রয়েছে?


ডাঃ চেষ্টা করুন <- আইরিস [, সি (২: ৩,৫)] এবং উচ্চতর VI-মান পাওয়া উচিত
সোরেন হ্যাভেলন্ড ওয়েলিং

উত্তর:


26

" এটি পুরোপুরি বৈশিষ্ট্য সম্পর্কে বা বৈশিষ্ট্যের মধ্যে নির্দিষ্ট মানগুলির সম্পর্কে কোনও বিবৃতি? "

  • "গ্লোবাল" ভেরিয়েবল গুরুত্ব হ'ল ট্র্যাকিংয়ের পরে প্রদত্ত ভেরিয়েবলকে অনুমতি দেওয়া হলেও পূর্বাভাসের আগে, সমস্ত আউট-অফ-ব্যাগ ক্রস যাচাইযোগ্য পূর্বাভাসের তুলনায় নির্ভুলতার গড় হ্রাস। "গ্লোবাল" অন্তর্ভুক্তস্থানীয় পরিবর্তনশীল গুরুত্ব হ'ল প্রতিটি স্বতন্ত্র-ব্যাগ ক্রস বৈধিকৃত পূর্বাভাস দ্বারা নির্ভুলতার গড় হ্রাস। গ্লোবাল ভেরিয়েবল গুরুত্ব সর্বাধিক জনপ্রিয়, কারণ এটি প্রতিটি পূর্বাভাসের গড় হিসাবে এটি ভেরিয়েবলের একক সংখ্যা, বোঝা সহজ এবং আরও শক্তিশালী।

" উভয় ক্ষেত্রেই, মডেল থেকে প্রশ্নে বৈশিষ্ট্যটি (বা বৈশিষ্ট্য থেকে মানগুলি) মুছে ফেলার মাধ্যমে ভুলভাবে শ্রেণিবদ্ধ করা পর্যবেক্ষণের সংখ্যা বা অনুপাতের যথাযথতায় গড় হ্রাস হ'ল? "

  1. ট্রেন বন
  2. আউট-অফ-ব্যাগ সিভি নির্ভুলতা পরিমাপ করুন → OOB_acc_base
  3. ভেরিয়েবলের পরিমান দেওয়া i
  4. আউট-অফ-ব্যাগ সিভি নির্ভুলতা পরিমাপ করুন → OOB_acc_perm_i
  5. VI_i = - (OOB_acc_perm_i - OOB_acc_base)

- "এর অর্থ কি এই যে মডেল থেকে পেটাল। দৈর্ঘ্য অপসারণের ফলে কেবল গড়ে 8 টি বা তার বেশি পর্যবেক্ষণের অতিরিক্ত গতিবিধি হতে পারে? "

  • হাঁ। পেটাল দৈর্ঘ্য এবং পেটাল উভয় উভয়েরই প্রায় নিখুঁত রৈখিক বিচ্ছেদ রয়েছে। সুতরাং ভেরিয়েবলগুলি অপ্রয়োজনীয় তথ্য ভাগ করে দেয় এবং কেবলমাত্র একজনকে অনুমতি দেওয়া মডেলটিকে বাধা দেয় না।

" পেটালের নির্ভুলতার গড় হ্রাস কীভাবে হতে পারে? দৈর্ঘ্যটি এত কম হতে পারে যে এই পরিমাপের ক্ষেত্রে এটি সর্বাধিক, এবং এইভাবে অন্যান্য ভেরিয়েবলগুলির এই পরিমাপের চেয়েও কম মান রয়েছে? "

  • যখন একটি শক্তিশালী / নিয়মিত মডেলকে রিলান্ড্যান্ট ভেরিয়েবলের উপর প্রশিক্ষণ দেওয়া হয়, তখন এটি একক ভেরিয়েবলগুলিতে ক্রমান্বয়ে প্রতিরোধী হয়।

আপনার ভেরিয়েবলের কার্যকারিতাটি র‌্যাঙ্ক করার জন্য মূলত ভেরিয়েবল গুরুত্ব ব্যবহার করুন। পরিবর্তনশীল গুরুত্বের পরম মানগুলির একটি স্পষ্ট ব্যাখ্যা ভাল কাজ করা শক্ত।

গিনি: জিআইএনআই গুরুত্ব প্রদত্ত ভেরিয়েবলের বিভাজন দ্বারা বিশুদ্ধতার গড় লাভের পরিমাপ করে। যদি ভেরিয়েবলটি কার্যকর হয় তবে এটি মিশ্র লেবেলযুক্ত নোডগুলিকে খাঁটি একক শ্রেণীর নোডগুলিতে বিভক্ত করে। একটি অনুমোদিত ভেরিয়েবল দ্বারা বিভক্ত নোড শুদ্ধতা না বৃদ্ধি বা হ্রাস ঝোঁক। একটি কার্যকর পরিবর্তনশীল প্রচার, গড় gini- লাভ তুলনামূলকভাবে বড় হ্রাস দিতে ঝোঁক। GINI গুরুত্ব স্থানীয় সিদ্ধান্ত কার্যের সাথে নিবিড়ভাবে সম্পর্কিত, এলোমেলো বন সেরা উপলব্ধ বিভাজন নির্বাচন করতে ব্যবহার করে। অতএব, এটি গণনা করতে খুব বেশি সময় নেয় না। অন্যদিকে, স্থানীয় বিভাজনগুলিতে অর্থ-প্রাপ্তি, সামগ্রিক মডেলের কর্মক্ষমতা পরিবর্তনের বিপরীতে, পরিমাপ করতে সবচেয়ে বেশি কার্যকর তা প্রয়োজনীয় নয়। তুলনামূলকভাবে আরও পক্ষপাতদুষ্ট, আরও অস্থির এবং আরও পরোক্ষ প্রশ্নের উত্তর দেওয়ার প্রবণতা হওয়ায় গিনির গুরুত্ব সামগ্রিকভাবে (ক্রমোটেশন ভিত্তিক) পরিবর্তনশীল গুরুত্বের থেকে নিকৃষ্ট।


সহজ র্যাঙ্কিং পরলোক পরিবর্তনশীল গুরুত্ব ব্যাখ্যার জন্য, চেক আউট: "শ্রেণীবিন্যাস সমস্যার জন্য Bivariate পরিবর্তনশীল নির্বাচন" -Vivian ডব্লিউ এনজি এবং লিও Breiman digitalassets.lib.berkeley.edu/sdtr/ucb/text/692.pdf
সোরেন Havelund Welling,

আপনার প্রতিক্রিয়ার জন্য অনেক ধন্যবাদ! আমি কিছু জায়গাগুলিকে ওওবি ত্রুটির হারের বৃদ্ধি (তাই শতাংশ) হিসাবে নির্ভুলতার গড় হ্রাস বর্ণনা করে দেখেছি । আপনার পোস্ট করা সূত্রটিও একটি ত্রুটি হার প্রস্তাবিত বলে মনে হচ্ছে: (OOB_acc_perm_i - OOB_acc_base)। তবে আপনি কি নিশ্চিত যে নির্ভুলতায় গড় হ্রাস হ'ল ভুল শ্রেণিবদ্ধ পর্যবেক্ষণগুলির সংখ্যা উল্লেখ করা হচ্ছে?
ফ্লাকটো

1
সামনের বিয়োগটি মনে রাখবেন, কারণ পরিবর্তনশীল গুরুত্ব হ্রাস। আমি ইউনিটগুলির সাথে খুব সুনির্দিষ্ট ছিলাম না, এগুলি% বা খাঁটি অনুপাত / অনুপাতে প্রকাশ করা যায়, তাতে কিছু আসে যায় না। তবে হ্যাঁ যথার্থতা = 1-ত্রুটি_আরটি হিসাবে, VI_i = ত্রুটি_আপনি_প্রেম_আই - ত্রুটি_রেট_বেস। রিগ্রেশনের জন্য পারমিটেশন ভেরিয়েবল গুরুত্বের ইউনিটটি সাধারণত% ব্যাখ্যাযোগ্য বৈকল্পিক হ্রাস এবং গিনি গুরুত্বের একক মানে গড়_সকোয়ার_অরর-লাভ হ্রাস হয়। "তবে আপনি কি নিশ্চিত যে নির্ভুলতায় গড় হ্রাস হ'ল ভুল শ্রেণিবদ্ধ পর্যবেক্ষণগুলির সংখ্যার কথা উল্লেখ করা হচ্ছে? " -হয় না, নির্ভুলতা একটি ভগ্নাংশ, কোনও গণনা নয়।
সোরেন হ্যাভেলুন্ড ওয়েলিং

10

এখানে র্যান্ডমফোরস্টের সহায়তা ম্যানুয়াল থেকে যথাযথতা (এমডিএ) হ্রাসের বিবরণ এখানে দেওয়া হয়েছে:

ওওবি ডেটা অনুমোদন করে প্রথম পরিমাপটি গণনা করা হয়: প্রতিটি গাছের জন্য, ডেটা-এর-ব্যাগের অংশে ভবিষ্যদ্বাণী ত্রুটি রেকর্ড করা হয় (শ্রেণিবিন্যাসের জন্য ত্রুটির হার, রিগ্রেশনের জন্য এমএসই)। তারপরে প্রতিটি পূর্বাভাসক চলককে অনুমতি দেওয়ার পরেও একই কাজ করা হয়। দুটি গাছের মধ্যে পার্থক্যটি তখন সমস্ত গাছের তুলনায় গড় হয় এবং পার্থক্যের মানক বিচ্যুতি দ্বারা স্বাভাবিক করা হয়। যদি পার্থক্যগুলির মানক বিচ্যুতিটি একটি চলকটির জন্য 0 এর সমান হয় তবে বিভাগটি করা হয় না (তবে গড় প্রায় সর্বদা 0 ক্ষেত্রে সমান হয়)।

বিবরণ অনুসারে, এমডিএতে "নির্ভুলতা" আসলে একক গাছের মডেলগুলির যথার্থতা বোঝায় , নির্বিশেষে আমরা বনের ত্রুটির হারের সাথে আরও উদ্বিগ্ন । সুতরাং,

"এর অর্থ কি এই যে মডেল থেকে পেটাল। দৈর্ঘ্য অপসারণের ফলে কেবল গড়ে অতিরিক্ত 8 টি বা তার বেশি পর্যবেক্ষণের ভুল বিভ্রান্তি ঘটতে পারে?"

  • প্রথমত, MDA (ডিফল্ট অনুসারে কমানো) উপরের হিসাবে সংজ্ঞায়িত আরো একটি পরীক্ষার পরিসংখ্যান মত হল: স্কেল শতাংশ বা পর্যবেক্ষণের গণনা হয় না।

    Mean(Decreases in Accuracy of Trees)StandardDeviation(Decreases in Accuracy of Trees)
  • দ্বিতীয়ত, এমনকি অনাবৃত এমডিএ, যেমন , বন মডেলের নির্ভুলতা সম্পর্কে (কিছুই না ভোট দিয়ে পুরো doesn'tMean(Decreases in Accuracy of Trees)

সংক্ষেপে, এলোমেলো প্যাকেজ দ্বারা এমডিএ আউটপুট ত্রুটি হার বা ত্রুটি গণনা সম্পর্কে নয়, তবে হাইপোথিসিস টেস্টের পরীক্ষার পরিসংখ্যান হিসাবে আরও ভাল ব্যাখ্যা করা যায়: বনাম

H0:Nodes constructed by predictor i is useless in any single trees
H1:Nodes constructed by predictor i is useful

একটি মন্তব্য হিসাবে, সোরেন বর্ণিত এমডিএ পদ্ধতি র্যান্ডমফোরস্ট প্যাকেজ বাস্তবায়নের থেকে পৃথক। আমরা এমডিএর কাছ থেকে যা কামনা করি তার কাছাকাছি: পুরো বন মডেলের নির্ভুলতা হ্রাস। যাইহোক, মডেলটি সম্ভবত পেটাল ছাড়াই আলাদাভাবে লাগানো হবে en দৈর্ঘ্য এবং অন্যান্য ভবিষ্যদ্বাণীকের উপর আরও নির্ভর করে। সুতরাং সোরেনের এমডিএ খুব হতাশাব্যঞ্জক হবে।


দুটি ফলো-আপ প্রশ্ন: ১. অন্য প্যাকেজগুলি @ সোরেন দ্বারা বর্ণিত আরও স্বজ্ঞাত এমডিএ ব্যবহার করে যদি কোনও ধারণা? ২. যদি র‌্যান্ডমফোরেস্টে এমডিএর ব্যাখ্যাটি একটি পরীক্ষার পরিসংখ্যান হিসাবে থাকে তবে এইচ 0 কে প্রত্যাখ্যান করার জন্য পর্যাপ্ত পরিমাণে বৃহত পরীক্ষার পরিসংখ্যান কীসের উপর কোনও নিয়ম-থাম্বের মতো কিছু আছে? এমডিএ কিছু পরিচিত বিতরণ অনুসরণ করে?
ফ্লাকট

1. দুঃখিত, আমি অন্য কোনও প্যাকেজ চেষ্টা করিনি। ২. এটি কেবল পরীক্ষার পরিসংখ্যানের মতোই। উভয়ই বিতরণ অ্যাক্সেসযোগ্য নয় (যতদূর আমি জানি যে খুব কম লোকই এটি দেখেছিল) বা পরীক্ষা নিজেই অর্থবহ - আমি মনে করি না যে পরীক্ষাটি পূর্বটির বিষয়ে কিছু বলেছে, যা আমাদের আসল আগ্রহ।
জিয়ানু

4

সান ফ্রান্সিসকো বিশ্ববিদ্যালয়ের একটি টিমের সাম্প্রতিক (ব্লগ পোস্ট) [ https://exPLined.ai/rf-importance/index.html] দেখায় যে আর (র্যান্ডমফোরস্ট) এবং পাইথন (সাইকিট) উভয় ক্ষেত্রেই ডিফল্ট গুরুত্বের কৌশলগুলি অবিশ্বাস্য অনেক তথ্য পরিস্থিতিতে। বিশেষত, অপরিষ্কারের গুরুত্বের হ্রাস হ্রাস মেট্রিকগুলি পক্ষপাতদুষ্ট হয় যখন সম্ভাব্য ভবিষ্যদ্বাণী ভেরিয়েবলগুলি তাদের পরিমাপের স্কেল বা তাদের বিভাগের সংখ্যাতে পরিবর্তিত হয়।

কাগজপত্র এবং ব্লগ পোস্টটি দেখায় যে অবিচ্ছিন্নতা গুরুত্বের র‌্যাঙ্কিংয়ে ক্রমাগত এবং উচ্চ কার্ডিনালিটি ভেরিয়েবলগুলি কীভাবে অর্থে হ্রাসকে অগ্রাধিকার দেওয়া হয়, এমনকি যদি তারা কম বিভাগের সাথে ভেরিয়েবলের তুলনায় সমানভাবে তথ্যহীন হয়। লেখকরা এই ক্ষেত্রে ডিফল্ট পরিবর্তে ক্রমান্বয়ে গুরুত্ব ব্যবহার করার পরামর্শ দেন। যদি আপনার মডেলটিতে পূর্বাভাসকারী ভেরিয়েবলগুলি খুব বেশি সম্পর্কযুক্ত হয় তবে শর্তসাপেক্ষে ক্রমবর্ধমান গুরুত্বের পরামর্শ দেওয়া হয়।

অপরিষ্কার পক্ষপাতিত্বমূলক যেহেতু প্রতিটি সময়ে একটি ভেরিয়েবলের মধ্যে একটি ব্রেকপয়েন্ট নির্বাচিত হয়, ভেরিয়েবলের প্রতিটি স্তরের সেরা ব্রেক পয়েন্টটি অনুসন্ধান করার জন্য পরীক্ষা করা হয়। অবিচ্ছিন্ন বা উচ্চ কার্ডিনালিটি ভেরিয়েবলের আরও অনেক বিভাজন পয়েন্ট থাকবে, যার ফলস্বরূপ "একাধিক পরীক্ষার" সমস্যা দেখা দেয়। এটি হ'ল উচ্চতর সম্ভাবনা রয়েছে যে সম্ভাবনা অনুসারে ভেরিয়েবল ফলাফলের পূর্বাভাস দেওয়ার জন্য ঘটায়, যেহেতু ভেরিয়েবলগুলি যেখানে আরও বিভাজন চেষ্টা করা হয় সেগুলি গাছটিতে প্রায়শই প্রদর্শিত হবে।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.