এলোমেলো বনগুলিতে ভুল শ্রেণিবদ্ধকরণের ব্যয় কীভাবে নিয়ন্ত্রণ করবেন?


21

আর প্যাকেজটি এলোমেলোভাবে পোস্ট করাতে ভুল সংশোধনের ব্যয়টি নিয়ন্ত্রণ করা কি সম্ভব ?

আমার নিজের কাজে মিথ্যা নেতিবাচক (যেমন, কোনও ব্যক্তির কোনও রোগ হতে পারে এমন ভুলের মধ্যে অনুপস্থিত) মিথ্যা ধনাত্মক চেয়ে অনেক বেশি ব্যয়বহুল। প্যাকেজ rpart ব্যবহারকারীকে ভুলভাবে ওজনকে ভুল পদ্ধতিতে ভুলের জন্য ম্যাট্রিক্স নির্দিষ্ট করে ভুল সংশোধন ব্যয়গুলি নিয়ন্ত্রণ করতে দেয়। অনুরূপ কি জন্য বিদ্যমান randomForest? উদাহরণস্বরূপ, আমি কি classwtজিনির মানদণ্ডকে নিয়ন্ত্রণ করতে বিকল্পটি ব্যবহার করব ?

উত্তর:


8

আসলেই নয়, যদি না নিজেই আরএফ ক্লোন তৈরি করে rpartমডেল ব্যাগিং করেন ।

কিছু বিকল্প এই সত্য থেকে আসে যে আরএফের আউটপুট আসলে একটি খাস্তা সিদ্ধান্তের চেয়ে বরং অবিচ্ছিন্ন স্কোর, অর্থাত বৃক্ষের ভগ্নাংশ যা কিছু শ্রেণিতে ভোট দিয়েছে। predict(rf_model,type="prob")উদাহরণস্বরূপ, এটি একটি আরওসি বক্ররেখার সাথে উত্তোলন এবং তৈরি করতে ব্যবহার করা যেতে পারে যা .5 এর চেয়ে আরও ভাল প্রান্তিকতা প্রকাশ করবে (যা পরে cutoffপ্যারামিটারের সাথে আরএফ প্রশিক্ষণে অন্তর্ভুক্ত করা যেতে পারে )।

classwt পদ্ধতির বিষয়টিও বৈধ বলে মনে হয় তবে বাস্তবে এটি খুব ভালভাবে কাজ করে না - বৈশিষ্ট্য নির্বিশেষে একই শ্রেণীর সুষম ভবিষ্যদ্বাণী এবং তুচ্ছ কাস্টিংয়ের মধ্যে রূপান্তরটি ব্যবহারযোগ্য হিসাবে খুব তীক্ষ্ণ বলে মনে হয়।


MBQ। অনেক ধন্যবাদ. (i) আরওসি বক্ররেখা: এই ক্ষেত্রে আমার আরওসি বক্ররেখা লাগবে না কারণ ব্যয়ের ওজন কী হবে তা নিয়ে আমার নিজস্ব প্রিয়ার রয়েছে। (ii) classwt: হ্যাঁ, আমি খুঁজে পেয়েছি যে অনুশীলনে এবং অন্যান্য ব্যবহারকারীর সাথে মিল রেখে ফলাফল প্রত্যাশার মতো হয় নি। (iii) cutoff: cutoffএই দৃষ্টান্তটি কীভাবে কাজে লাগানো যায় সে সম্পর্কে আমি পরিষ্কার নই এবং আমি আরও যে কোনও পরামর্শ গ্রহণ করব।
ব্যবহারকারী5944

3

খরচ সহ বিভিন্ন উপায় রয়েছে।
(1) প্রতিটি ব্যাগযুক্ত গাছের জন্য ওভার / আন্ডার স্যাম্পলিং (স্ট্রেইটেড স্যাম্পলিং) ব্যয় প্রবর্তনের সর্বাধিক সাধারণ পদ্ধতি। আপনি ইচ্ছাকৃতভাবে ডেটাসেট ভারসাম্যহীন।
(2) ওজন। কখনও কাজ করে না। আমি মনে করি এটি ডকুমেন্টেশনে জোর দেওয়া হয়েছে। কেউ কেউ দাবি করেন যে আপনাকে গিনি বিভাজন এবং চূড়ান্ত ভোটদান সহ সমস্ত পর্যায়ে মাত্র ওজন করতে হবে। যদি এটি কাজ করে চলেছে তবে এটি একটি কার্যকর বাস্তবায়ন হতে চলেছে।
(3) ওয়েকারায় মেটাকোস্ট ফাংশন।
(4) সম্ভাব্য শ্রেণিবদ্ধ হিসাবে একটি এলোমেলো বনের চিকিত্সা এবং প্রান্তিক পরিবর্তন। আমি এই বিকল্পটি কমপক্ষে পছন্দ করি। সম্ভবত আমার জ্ঞানের অভাবের কারণে, তবে যদিও অ্যালগরিদম সম্ভাব্যতাগুলি আউটপুট দিতে পারে তা তাদের সাথে চিকিত্সা করার জন্য আমার কাছে বোধগম্য হয় না যেন এটি একটি সম্ভাব্য মডেল।

তবে আমি নিশ্চিত যে অতিরিক্ত উপায় আছে।


3

এটি প্রস্তাবিত হয় যে আপনি যে পরিবর্তনশীলটি ভবিষ্যদ্বাণী করতে চেষ্টা করছেন সেটি যদি 50% class 1এবং 50% class 2(বেশিরভাগ ক্ষেত্রে যেমন) না cutoffহয় তবে OOBআপনি সংক্ষিপ্তভাবে বাস্তবকে উপস্থাপন করার জন্য প্যারামিটারটি সামঞ্জস্য করুন ।

উদাহরণ স্বরূপ,

randomForest(data=my_data, formula, ntree = 501, cutoff=c(.96,.04))

এই ক্ষেত্রে, এর মান থাকার সম্ভাবনা class 1হ'ল .96যখন এর মান class 2থাকে .04

অন্যথায় এলোমেলো বন একটি প্রান্তিক ব্যবহার করে 0.5


1

এক একত্রীভূত করতে পারেন costMatrixমধ্যে randomForestমাধ্যমে স্পষ্টভাবে parmsপরামিতি:

library(randomForest)
costMatrix <- matrix(c(0,10,1,0), nrow=2)
mod_rf <- randomForest(outcome ~ ., data = train, ntree = 1000, parms = list(loss=costMatrix))

0

আপনি প্যাকেজে sampsizeফাংশনটি ব্যবহার করে ব্যয় সংবেদনশীলতা সংযুক্ত করতে পারেন randomForest

model1=randomForest(DependentVariable~., data=my_data, sampsize=c(100,20))

(100,20)আপনার কাছে থাকা ডেটা এবং আপনি যে অনুমানগুলি / ব্যবসায়িক বিধিগুলি নিয়ে কাজ করছেন তার উপর ভিত্তি করে পরিসংখ্যানগুলিকে পৃথক করুন।

শ্রেণিবিন্যাস ত্রুটির ব্যয়কে প্রতিফলিত করে এমন একটি বিভ্রান্তির ম্যাট্রিক্স পেতে কিছুটা ট্রায়াল এবং ত্রুটির পদ্ধতির প্রয়োজন। রিচার্ড বার্কের ঝুঁকির অপরাধমূলক পূর্বাভাস দেখুন: মেশিন লার্নিং অ্যাপ্রোচ , পি। 82।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.