কার্টে জটিলতা পরামিতি নির্বাচন করা


16

কার্ট মডেলগুলি তৈরি করতে rpart () রুটিনে আপনি নিজের গাছটিকে ছাঁটাই করতে চান এমন জটিলতা পরামিতি নির্দিষ্ট করে। জটিলতা পরামিতি বাছাই করার জন্য আমি দুটি পৃথক সুপারিশ দেখেছি:

  1. ন্যূনতম সম্ভাব্য ক্রস-বৈধতাযুক্ত ত্রুটির সাথে যুক্ত জটিলতা পরামিতিটি চয়ন করুন। এই পদ্ধতিটি কুইক-আর এবং এইচএসআর দ্বারা প্রস্তাবিত ।

  2. সর্বশ্রেষ্ঠ জটিলতা পরামিতিটি বেছে নিন যার আনুমানিক ক্রস-বৈধতাযুক্ত ত্রুটি এখনও ন্যূনতম সম্ভাব্য ক্রস-বৈধতা ত্রুটির একটি এসই এর মধ্যে রয়েছে। এটি প্যাকেজ ডকুমেন্টেশনের আমার ব্যাখ্যা, যা বলে: "ছাঁটাইয়ের জন্য সিপির একটি ভাল পছন্দ প্রায়শই বামতম মান যার জন্য গড়টি অনুভূমিক রেখার নীচে থাকে" এই প্লটটির উল্লেখ ।

সিপির দুটি পছন্দ আমার ডেটাসেটে বেশ আলাদা গাছ উত্পাদন করে।

দেখে মনে হয় যে প্রথম পদ্ধতিটি সবসময় আরও জটিল, সম্ভাব্য পরিমাণে উপযুক্ত, গাছ তৈরি করবে produce সাহিত্যে অন্যান্য সুবিধা, অসুবিধাগুলি, সুপারিশ ইত্যাদির কি আছে? কোন পদ্ধতিটি ব্যবহার করবেন তা সিদ্ধান্ত নেওয়ার সময় আমার কি বিবেচনায় রাখা উচিত? আমি আমার বিশেষ মডেলিংয়ের সমস্যাটি সম্পর্কে আরও তথ্য সরবরাহ করতে পারি যদি তা কার্যকর হয় তবে অন্যের সাথে প্রাসঙ্গিক হওয়ার জন্য এই প্রশ্নটি যথেষ্ট বিস্তৃত রাখার চেষ্টা করছি।


প্লটের অনুভূমিক রেখাটি কী উপস্থাপন করে?
বোগদানোভিস্ট

আমি বিশ্বাস করি এটি ন্যূনতম সম্ভাব্য ক্রস-বৈধতাযুক্ত ত্রুটির উপরে 1 এসই উপস্থাপন করে।
অর্ধ-পাস

আপনার যদি পর্যাপ্ত ডেটা থাকে তবে আপনি এটিকে প্রশিক্ষণের জন্য এবং টেস্টের ডেটা সেট এমনকি গাছের জন্য আলাদা করার চেষ্টা করতে পারেন। আপনি যদি মূলত ভবিষ্যদ্বাণীতে আগ্রহী হন তবে এটি বিশেষত কার্যকর হতে পারে, কারণ পরীক্ষার ডেটা সেটটি এটির একটি ভাল অনুমান দেবে। আর একটি পছন্দ হ'ল partyপ্যাকেজ যা তাত্পর্য পরীক্ষা করে (সাধারণত আমি প্রস্তাবিত কিছু না, তবে এটি এখানে প্রাসঙ্গিক বলে মনে হয়)। সর্বদা হিসাবে, যদিও, সেরা পরীক্ষাটি হ'ল উপযোগিতা এবং জ্ঞান; আপনি যদি মূলত ব্যাখ্যায় আগ্রহী হন এটি বিশেষত সত্য।
পিটার ফ্লুম - মনিকা পুনরায়

ধীর প্রতিক্রিয়া জন্য আমার ক্ষমা। স্পষ্ট করার জন্য, আমি ভেবেছিলাম যে, বিভিন্ন গাছের আকারে ত্রুটি গণনা করতে ক্রস-বৈধতা ব্যবহার করে, আমি ইতিমধ্যে কার্যকরভাবে প্রশিক্ষণ এবং পরীক্ষার সেটগুলিতে বারবার ডেটা বিভক্ত করেছি। অন্য প্রশিক্ষণ / পরীক্ষার বিভাজন সম্পাদন করা কি সেই ক্ষেত্রে অপ্রয়োজনীয় হবে? আমি কি তোমাকে ভুল বুঝছি?
অর্ধ-পাস

ট্রেন / পরীক্ষায় ডেটা ভাগ করা এবং কেবল ট্রেনের ডেটা ব্যবহার করে সিপি প্যারামিটারকে ক্রস-বৈধকরণ করা, একটি বাস্তব ভবিষ্যদ্বাণী পরীক্ষার পুনরুত্পাদন করবে (যেখানে আপনি সিপি অনুমানের জন্য ভবিষ্যতের ডেটা ব্যবহার করতে পারবেন না)। সুতরাং প্রথম সিভি হবে সিপির জন্য, সামগ্রিক মডেলের পূর্বাভাস ত্রুটি (আনুমানিক সিপি সহ)।
রবার্ট কুব্রিক

উত্তর:


6

অনুশীলনে আমি উভয় পদ্ধতির নেওয়া দেখেছি এবং আমি মনে করি যে সাধারণত আপনার ফলাফলগুলি উভয় দিক দিয়েই আলাদা হবে বলে আশা করা যায় না।

বলা হচ্ছে, হাস্টি এট আল স্ট্যাটিস্টিকাল লার্নিংয়ের উপাদানগুলিতে "" এক-মানক ত্রুটি "নিয়মটি সুপারিশ করেন এবং আমি তাদের রায়কে বিশ্বাস করি (বিভাগে 7.10, পৃষ্ঠা 244) আমার সংস্করণে। সম্পর্কিত উদ্ধৃতিটি হ'ল:

ক্রস-বৈধকরণের সাথে প্রায়শই একটি "এক-মানক ত্রুটি" বিধি ব্যবহার করা হয়, যার মধ্যে আমরা সবচেয়ে পার্সামোনিয়াস মডেল বেছে নিই যার ত্রুটি সেরা মডেলের ত্রুটির চেয়ে এক মান ত্রুটির বেশি নয় ""

কেউ কেন এক-মানক ত্রুটির নিয়ম অনুসরণ করবে তার জন্য আপনার স্বজ্ঞাততা সঠিক - আপনি এমন কোনও মডেল নির্বাচন করবেন না যা তথ্যকে উপেক্ষা করে।


1

আপনার প্রথমে আর্গুমেন্ট minsplit=0এবং cp=0(জটিলতা পরামিতি) ব্যবহার করে শুরু করা উচিত তারপর ফাংশনগুলি ব্যবহার করুন plotcp(T.max)এবং ন্যূনতম আপেক্ষিক ত্রুটির সাথে সম্পর্কিত printcp(T.max)মানটি চয়ন করুন cpএবং ফাংশন দ্বারা গাছকে ছাঁটাই করুনprune.rpart(T.max, cp=....)

এটি আপনার সর্বোত্তম শ্রেণিবিন্যাস গাছটি পেতে পারে কারণ তারা অতিরিক্ত-আশাবাদী হয়।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.