কার্ট মডেলগুলি কি শক্তিশালী করা যায়?


14

আমার অফিসের একজন সহকর্মী আমাকে আজ বলেছিলেন "গাছের মডেলগুলি ভাল না কারণ তারা চরম পর্যবেক্ষণে ধরা দেয়"।

এখানে অনুসন্ধানের ফলে এই থ্রেডের ফলস্বরূপ দাবিটি মূলত সমর্থন করে।

যা আমাকে প্রশ্নের দিকে নিয়ে যায় - কোন পরিস্থিতিতে একটি কার্ট মডেল শক্তিশালী হতে পারে এবং কীভাবে এটি প্রদর্শিত হয়?

উত্তর:


15

না, তাদের বর্তমান ফর্মগুলিতে নয়। সমস্যাটি হ'ল উত্তোলন ক্ষতির ফাংশনগুলি বহিরাগতদের দ্বারা দূষণের শক্ত হতে পারে না (এটি 70 এর দশক থেকে একটি সুপরিচিত সত্য তবে পর্যায়ক্রমে পুনরায় আবিষ্কার করা চলেছে, উদাহরণস্বরূপ এই জাতীয় একটি পুনরায় আবিষ্কারের জন্য এই কাগজটি দেখুন):

http://www.cs.columbia.edu/~rocco/Public/mlj9.pdf

এখন, রিগ্রেশন ট্রিগুলির ক্ষেত্রে, সিআরটি প্রান্তিক ব্যবহার করে (বা বিকল্প হিসাবে অবিচ্ছিন্ন অনুমানগুলি) ব্যবহার করা যেতে পারে: কেউ কার্টের এমন একটি সংস্করণ সম্পর্কে ভাবতে পারেন যেখানে এসডি মানদণ্ডটি আরও শক্তিশালী প্রতিরূপ দ্বারা পরিবর্তিত হয় (এমএডি বা আরও ভাল, কিউএন অনুমানকারী)।

সম্পাদনা:

আমি সম্প্রতি উপরে প্রস্তাবিত পদ্ধতির প্রয়োগকারী (এমএডি এর পরিবর্তে মজাদার মজবুত এম অনুমানকারী ব্যবহার করে) একটি পুরানো কাগজ পেয়েছি। এটি কার্ট / আরএফ'র "y" আউটলিয়ারদের দৃust়তা দেবে (তবে নকশার জায়গাতে অবস্থিত বিদেশীদের কাছে নয় , যা মডেলের হাইপার-প্যারামিটারগুলির অনুমানকে প্রভাবিত করবে) দেখুন:

গালিমবার্টি, জি।, পিলাতী, এম।, এবং সোফ্রিটি, জি। (2007) শক্তিশালী রিগ্রেশন গাছগুলি এম-অনুমানের ভিত্তিতে। পরিসংখ্যান, এলএক্সভিআইআই, 173–190।


ধন্যবাদ কোয়াক এই নিবন্ধটি বুস্টিং পদ্ধতি সম্পর্কে কথা বলে মনে হচ্ছে। তারা উপস্থিত ফলাফলগুলি কি কোনও কার্ট মডেলের সাধারণ শ্রেণিবদ্ধের ক্ষেত্রে রাখে? (উপরিভাগে এটির মতো শোনাচ্ছে তবে আমি নিবন্ধটি সত্যই জানতে পেরেছি না)
তাল গালিলি

তারা যে ফলাফলটি উপস্থাপন করে তা যে কোনও উত্তল ক্ষতি ফাংশনের জন্য ধারণ করে এবং প্রাথমিকভাবে টুকি আলোচনা করেছিলেন was সংক্ষেপে বলা যায়, নোডের গুণমানের পরিমাণ নির্ধারণের জন্য যে পরিমাণ স্প্রেড (গিনি বা এন্ট্রপি) ব্যবহার করা হয়েছিল তা বহিরাগতদের দ্বারা দূষণের সংবেদনশীল (যেমন ডেটাসেটটিতে মিস-লেবেলযুক্ত পর্যবেক্ষণ)। এই সমস্যাটি বিল্ডিং এবং ছাঁটাইয়ের পর্যায়ে উভয়কেই প্রভাবিত করে। ভুলভাবে অভিযুক্ত লেবেলের সাথে পর্যবেক্ষণ করে একটি ডেটাসেটের সংশ্লেষ সাধারণত ফলস্বরূপ গাছটি খুব জটিল হয়ে উঠবে (আপনি এটি নিজের চেয়ে সহজেই এটি পরীক্ষা করতে পারেন)।
ব্যবহারকারী 60

ধন্যবাদ কোয়াক! এবং কোনও ক্ষতির কোনও কার্যই শক্তিশালী নয়?
তাল গালিলি

1
কোন উত্তল ক্ষতি ফাংশন। নন-কনভেক্স ক্ষয় ফাংশনগুলির সাথে কী করা যেতে পারে তার উদাহরণের জন্য "ন্যূনতম কোভরিয়েন্স নির্ধারক অনুমানকারীগুলির জন্য একটি দ্রুত অ্যালগরিদম" এই নিবন্ধটি দেখুন (যদিও শ্রেণিবদ্ধের সাথে সম্পর্কিত নয়, নিবন্ধটি পড়ার জন্য মূল্যবান)।
ব্যবহারকারী 60

2
@ টাল কার্ট একটি "পিভট শ্রেণিবদ্ধ" এর উত্থাপনের সমতুল্য (মানদণ্ড যা প্রতিটি গাছের নোডে বসে, কিছু কিছুর চেয়ে কিছু অ্যাট্রিবিউট গ্রেটারের মতো বা কিছুতে কিছু বৈশিষ্ট্যের মান হিসাবে সেট)।

6

আপনি ব্রেইমের ব্যাগিং বা এলোমেলো বন ব্যবহার বিবেচনা করতে পারেন । একটি ভাল রেফারেন্স হ'ল ব্রেইমান "ব্যাগিং প্রেডিক্টরস" (1996)। ক্লিফটন সাটনের পরিসংখ্যানের হ্যান্ডবুকের ক্লাসিফিকেশন এবং রিগ্রেশন ট্রি, ব্যাগিং এবং বুস্টিংয়ের সংক্ষিপ্তসারও রয়েছে

আপনি এ্যান্ডি লিয়াও এবং ম্যাথিউ ভিয়েনার আর নিউজটিকে এলোমেলোভাবে প্যাকেজটির আলোচনা দেখতে পাবেন ।


2
পার্টি নষ্ট করার জন্য নয়, তবে এলোমেলোভাবে বনকে কীভাবে বহিরাগতদের দ্বারা দূষণের জন্য দৃust়তা সরবরাহ করার কথা মনে করা যায় তা রহস্য।
ব্যবহারকারী 60

3
@ কেওয়াক এখনও, এটি একটি ভাল উত্তর; আরএফের গাছগুলি পুরো সেটটি দেখতে পায় না, তাই তাদের মধ্যে অনেকগুলি দূষিত হবে না। আরও ভাল - কোন পৃষ্ঠাতে OOB কে জমি দেয় তা ট্র্যাকিংয়ের মাধ্যমে বিভ্রান্তিকর বস্তুগুলি খুঁজে পেতে এবং তাদের নির্মূল করতে ব্যবহার করা যেতে পারে। (যেমনটি এখনই মনে পড়ছি, আরএফ সম্পর্কে ব্রেইমানের কাগজে এটি উল্লেখ করা হয়েছে)।

4
সমস্যাটি হ'ল আউটলিয়াররা কিছু 'খারাপ' (অর্থাত দূষিত) গাছ ভাল (অনিয়ন্ত্রিত) গাছের চেয়ে ভাল দেখায়। এটিকে বলা হয়, মাস্কিং এফেক্ট এবং সিমুলেটেড ডেটা দিয়ে প্রতিলিপি করা সহজ। সমস্যাটি ঘটে কারণ আপনি গাছগুলি মূল্যায়নের জন্য যে মানদণ্ডটি ব্যবহার করেন তা বিদেশিদের পক্ষে নিজেই মজবুত নয়। আমি জানি আমি মৌলবাদী মোল্লার মতো শব্দ করতে শুরু করেছি, তবে যতক্ষণ না আপনি ব্যবহার করেন প্রতিটি সরঞ্জামকে শক্তিশালী না করা হয়, আপনার প্রক্রিয়া সংবেদনশীল (এক স্তরে বা অন্য কোনও) সংবর্ধকদের (এবং তাই শক্তিশালী নয়) দেখানো যেতে পারে।
ব্যবহারকারী 60

3

আপনি যদি আর (সাধারণীকৃত গ্রেডিয়েন্ট বুস্টিং) 'জিবিএম' প্যাকেজটি পরীক্ষা করে দেখেন তবে 'বুস্টিং' লোকসান ফাংশনগুলি ব্যবহার করে যা অগত্যা স্কোয়ার ত্রুটির অর্থ নয়। এটি 'গিগাবাইট ()' ফাংশন করার জন্য 'বিতরণ' যুক্তিতে প্রদর্শিত হবে। সুতরাং বুস্টিংয়ের মাধ্যমে গাছের সম্প্রসারণ বহিরাগতদের প্রতিরোধী হবে, এম-অনুমানকারীরা কীভাবে কাজ করে তার অনুরূপ।

আপনি এখানে শুরু হতে পারে ।

আরেকটি উপায় হ'ল গাছটি স্বাভাবিক উপায়ে তৈরি করা (এসএসই ভিত্তিক পার্টিশন), তবে ফিটের শক্ত মাপের সাথে ক্রস বৈধতা ব্যবহার করে গাছের ছাঁটাই করা। আমার মনে হয় আরপিআর্টে এক্সপ্রেড ক্রস ভ্যালিডেটেড প্রেডিক্টরগুলি দেবে (বিভিন্ন গাছের জটিলতার জন্য), যা আপনি নিজের ত্রুটির নিজস্ব পরিমাপের জন্য প্রয়োগ করতে পারেন, যেমন নিখুঁত মান।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.