ব্যাগের বাইরে ত্রুটি র্যান্ডম অরণ্যে সিভি অপ্রয়োজনীয় করে তোলে?


15

আমি এলোমেলো বনগুলিতে মোটামুটি নতুন। অতীতে আমি সবসময় নির্ভুলতা তুলনা করেছেন পরীক্ষা বনাম হইয়া বিরুদ্ধে হইয়া ট্রেন বনাম কোন overfitting সনাক্ত করতে। তবে আমি এখানে এখানে পড়েছি :

"এলোমেলো বনাঞ্চলে, পরীক্ষা সেট ত্রুটির পক্ষপাতহীন অনুমানের জন্য ক্রস-বৈধতা বা আলাদা পরীক্ষা সেটের প্রয়োজন হয় না the

উপরের ছোট্ট অনুচ্ছেদে আউট-অফ-ব্যাগ (oob) ত্রুটি অনুমান বিভাগের অধীনে পাওয়া যাবে । এই আউট অফ ব্যাগ ত্রুটি ধারণাটি আমার কাছে সম্পূর্ণ নতুন এবং আমার যে মডেলটিতে ওওবি ত্রুটি 35% (বা 65% যথার্থতা) তা কীভাবে হয় তবে তবুও, যদি আমি আমার ডেটাতে ক্রস বৈধতা প্রয়োগ করি (কেবল একটি সহজ হোল্ডআউট) পদ্ধতি) এবং উভয় তুলনা পরীক্ষা বনাম হইয়া বিরুদ্ধে হইয়া বনাম ট্রেন আমি 65% সঠিকতা এবং একটি 96% সঠিকতা যথাক্রমে পেতে। আমার অভিজ্ঞতাকে এটিকে অত্যধিক মাননীয় হিসাবে বিবেচনা করা হয় তবে ওওবি আমার ফিট বনাম পরীক্ষার ত্রুটির মতো একটি 35% ত্রুটি ধারণ করে । আমি কি বেশি ফিট করছি? এমনকি আমি এলোমেলো বনগুলিতে অত্যধিক ফিটনেস পরীক্ষা করতে ক্রস বৈধতা ব্যবহার করা উচিত?

সংক্ষেপে, আমার ফিট বনাম ট্রেনটি ইঙ্গিত দেয় যে আমি ওভারফিট করছি তাতে আমার কি পরীক্ষার সেটটি ত্রুটির পক্ষপাতহীন ত্রুটি পাওয়ার জন্য ওওবি'র উপর নির্ভর করা উচিত কিনা তা আমি নিশ্চিত নই!


হাইপার-পরামিতি নির্ধারণের জন্য ওওবি ব্যবহার করা যেতে পারে। তা ছাড়া, আমার কাছে, কোনও মডেলের পারফরম্যান্স অনুমান করার জন্য, কারো ক্রস-বৈধতা ব্যবহার করা উচিত।
মেটেরিয়াত

@ ম্যাটম্যাটটিকা যখন আপনি হাইপার-প্যারামিটারগুলির বিষয়ে কথা বলেন আপনি ঠিক কী বিষয়ে কথা বলছেন?
বিষয়টিতে

প্রতিটি পুনরাবৃত্তিতে এলোমেলোভাবে নির্বাচিত গাছের সংখ্যা এবং বৈশিষ্ট্যগুলির সংখ্যা
মেটরিটি

আমি এটি সম্পূর্ণ ভিন্ন প্রশ্ন জানি কিন্তু আপনি কীভাবে প্রতিটি ত্রুটি থেকে ত্রুটি থেকে গাছের সংখ্যা এবং বৈশিষ্ট্যের নমুনা নির্ধারণ করবেন?
জাগোজাল

1
এটি হতে পারে এটি সাহায্য করতে পারে: stats.stackexchange.com/a/112052/78313 সাধারণভাবে আমি আরএফ-তে এরকম পার্থক্য কখনও দেখিনি!
মেট্রিয়েট

উত্তর:


21
  • প্রশিক্ষণ ত্রুটি (যেমন হিসাবে predict(model, data=train)) সাধারণত অকেজো। আপনি গাছগুলি ছাঁটাই (অ-মানক) না করলে অ্যালগরিদমের নকশা করে এটি 0 এর বেশি হতে পারে না । এলোমেলো বন বনাম সিদ্ধান্ত গাছগুলির বুটস্ট্র্যাপ সমষ্টি ব্যবহার করে, যা খারাপভাবে ওভারফিট হিসাবে পরিচিত। এটি 1-নিকটতম-প্রতিবেশী শ্রেণিবদ্ধের জন্য প্রশিক্ষণের ত্রুটির মতো।

  • যাইহোক, অ্যালগরিদম আউট-অফ-ব্যাগ ত্রুটি অনুমানের গণনা করার জন্য একটি খুব মার্জিত উপায় সরবরাহ করে যা মূলত সমষ্টিগত মডেলের ত্রুটির একটি আউট-অফ-বুটস্ট্র্যাপ অনুমান)। ব্যাগের বাইরে থাকা ত্রুটিটি এর পূর্বাভাসকে একত্রিত করার জন্য অনুমানিত ত্রুটি1

    সুতরাং ব্যাগের বাইরে থাকা ত্রুটি ক্রস বৈধতা ত্রুটি হিসাবে হুবহু একইভাবে নয় (গাছ সংগ্রহের জন্য কম গাছ, আরও প্রশিক্ষণের ক্ষেত্রে কপির অনুলিপি) নয়, তবে ব্যবহারিক উদ্দেশ্যে এটি যথেষ্ট কাছাকাছি।

  • বাহ্যিক বৈধতার সাথে আউট-অফ-ব্যাগ ত্রুটির তুলনা করে ওভারফিটিং শনাক্ত করার জন্য কী দেখার জন্য বোধগম্য হবে। তবে, আপনি যদি আপনার ডেটাতে ক্লাস্টারিং সম্পর্কে জানেন না, তবে একটি "সাধারণ" ক্রস বৈধকরণের ত্রুটিটি ব্যাগের বাইরে থাকা ত্রুটির মতো একই আশাবাদী পক্ষপাতিত্বের শিকার হবে: বিভাজনটি খুব অনুরূপ নীতি অনুসারে করা হয়।
    এটি সনাক্ত করার জন্য আপনাকে একটি ভাল-ডিজাইন করা পরীক্ষামূলক পরীক্ষার জন্য ত্রুটির সাথে ব্যাগের বাইরে বা ক্রস বৈধতার তুলনা করতে হবে।


11

ব্যাগের বাইরে ব্যাগটি কার্যকর, এবং অন্যান্য কর্মক্ষমতা অনুমানের প্রোটোকলগুলি (ক্রস-বৈধকরণের মতো) প্রতিস্থাপন করতে পারে তবে যত্ন সহ ব্যবহার করা উচিত।

ক্রস-বৈধকরণের মতো, আউট-অফ-ব্যাগ নমুনাগুলি ব্যবহার করে পারফরম্যান্সের অনুমানটি এমন ডেটা ব্যবহার করে গণনা করা হয় যা শেখার জন্য ব্যবহৃত হয়নি। যদি ডেটাগুলি এমনভাবে প্রক্রিয়াজাত করা হয়ে থাকে যা নমুনাগুলির উপরে তথ্য স্থানান্তর করে তবে অনুমানটি (সম্ভবত) পক্ষপাতদুষ্ট হবে। মাথায় আসা সহজ উদাহরণগুলি বৈশিষ্ট্য নির্বাচন সম্পাদন করা বা মান অনুমিতকরণ অনুপস্থিত। উভয় ক্ষেত্রেই (এবং বিশেষত বৈশিষ্ট্য নির্বাচনের জন্য) পুরো ডেটা সেট থেকে তথ্য ব্যবহার করে ডেটা রূপান্তরিত হয়, অনুমানকে বাইজ করে।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.