কেন সিদ্ধান্ত গাছ গণনা ব্যয়বহুল হয় না?


38

ইন আর মধ্যে অ্যাপ্লিকেশন সঙ্গে পরিসংখ্যানগত শেখার ভূমিকা , লেখক লিখুন ঝুলানো একটি সিদ্ধান্ত গাছ খুব দ্রুত, কিন্তু এই আমাকে অর্থে দেখা যায় না। অনুকূল বিভাজন সন্ধানের জন্য অ্যালগরিদমকে প্রতিটি বৈশিষ্ট্যের মধ্য দিয়ে যেতে এবং এটিকে যথাসম্ভব বিভাজন করতে হবে। পর্যবেক্ষণ সহ সংখ্যাযুক্ত বৈশিষ্ট্যগুলির জন্য, প্রতিটি বৈশিষ্ট্যের জন্য পার্টিশনগুলির ফলাফল হতে পারে ।এনএন

আমি কী ভুল বোঝাবুঝি বাইনারি বিভাজন কাজ করে? বা এর কোনও কারণ আছে যে এই অ্যালগরিদমটি বেশি সময় নেয় না?


1
প্রশ্নের জন্য +1। আপনি এই লেকচার নোট , পৃষ্ঠা 15 টি পরীক্ষা করে দেখতে পারেন , অ্যালগরিদমের পরিবর্তে ব্যবহার করতে পারেন । হে(এন)হে(এন2)
হাইতাও ডু

উত্তর:


40

সিদ্ধান্ত গাছ অ্যালগরিদমগুলি যখন কোনও গাছের সাথে মাপসই হয় তখন সমস্ত সম্ভাব্য গাছগুলি গণনা করে না। তারা যদি করে তবে তারা এনপি-হার্ড সমাধান করবেসমস্যা। সিদ্ধান্ত গাছের ফিটিং অ্যালগরিদমগুলি সাধারণত ফিটিং প্রক্রিয়ায় লোভী সিদ্ধান্ত নেয় - প্রতিটি পর্যায়ে তারা প্রদত্ত নোডের ডেটা সহ একটি সর্বোত্তম বিভাজন সন্ধানের জন্য উপ-সমস্যাটিকে অনুকূলিত করে এবং ফিটিং প্রক্রিয়াটিতে এগিয়ে চলে। এছাড়াও, আপনি সিদ্ধান্তের গাছের গভীরে চলে যাওয়ার সাথে সাথে আপনার কাছে একটি ছোট সেট ডেটা রয়েছে যা এটি প্রদত্ত নোডে তৈরি করেছে যাতে আপনি ডেটার একটি ছোট উপসেটের উপর বিভাজনের নিয়মকে অনুকূল করে তুলবেন। এই সমস্ত পছন্দ হ'ল প্রদত্ত নোডের ডেটার লিনিয়ার স্ক্যান। এটি করা জটিল নয় তবে আপনার যদি প্রচুর পরিমাণে পর্যবেক্ষণ বা বিভক্ত করার জন্য প্রচুর সংখ্যক কোভারিয়েট থাকে তবে তা কিছুটা ব্যয়বহুল হয়ে উঠতে পারে। যাইহোক, অনেকগুলি কাজ ভাগ হয়ে যায় এবং বিভিন্ন মেশিনে কাজ করার জন্য প্রেরণ করা যেতে পারে তাই আপনার কম্পিউটেশনাল আর্কিটেকচার তৈরির উপায় রয়েছে scale


10
অন্য কথায়, এটি বাইনারি অনুসন্ধানের সাথে কমবেশি তুলনীয়।
রবার্ট হার্ভে

1
@ রবার্ট হার্ভে, আমি মনে করি না যে আপনি ফিটিং প্রক্রিয়ায় অপরিষ্কার ক্রিয়াকলাপগুলি অনুকূল করে এমনকি ভারসাম্যপূর্ণ বিভাজনকে গ্যারান্টি দিচ্ছেন বা এমনকি উত্সাহিত করছেন। বাইনারি অনুসন্ধানের সমতুল্য অনুসন্ধান জটিলতা পেতে আপনাকে কার্যকর করতে হবে বা কমপক্ষে সুষম বিভাজনকে উত্সাহিত করতে হবে। 2(এন)
লুকাস রবার্টস

2
সম্মত, কিন্তু নীতিটি এখনও ধারণ করে। (এই কারণেই আমি "কম বা কম" শব্দটি ব্যবহার করেছি)
রবার্ট হার্ভে

2

সিদ্ধান্ত গাছ তৈরির জন্য কার্ট এবং সি 4.5 অ্যালগরিদমের মধ্যে কিছু পার্থক্য রয়েছে। উদাহরণস্বরূপ, কার্ট বৈশিষ্ট্য বাছাই করতে গিনি অপরিষ্কার ব্যবহার করে যখন সি ৪.৫ শ্যানন এন্ট্রপি ব্যবহার করে। আমি মনে করি না যে পার্থক্য উত্তরের জন্য প্রাসঙ্গিক, সুতরাং আমি তাদের মধ্যে পার্থক্য করব না।

আপনার সিদ্ধান্তের চেয়ে দ্রুত সিদ্ধান্তের গাছগুলি কী তৈরি করে তা হ'ল:

  1. অন্যরা যেমন বলেছে, এই অ্যালগোরিদমগুলি হ'ল 1-লুকোহেড অ্যালগরিদম। তারা স্থানীয় অপ্টিমাইজেশান সম্পাদন করে। প্রতিটি শাখায়, তারা নিয়মটি বেছে নেয় যা তারা যে কোনও মেট্রিক ব্যবহার করে (গিনি বা এন্ট্রপি) সর্বাধিক / মিনিমাইজ করে। এর অর্থ তারা নিয়মগুলি মিস করতে পারে যেখানে লজিকাল অপারেটর ব্যবহার করা যেমন andআরও ভাল গাছের ফলশ্রুতিতে পারে। এর অর্থ বৈশিষ্ট্য ইঞ্জিনিয়ারিংয়ের সময় আপনার খুব যত্নবান / চালাক হওয়া উচিত। উদাহরণস্বরূপ, বলুন যে আপনি কতটা লোক পান করেন তা অনুমান করার চেষ্টা করছেন, আপনি ইঞ্জিনিয়ারের মতো জিনিসগুলি বৈশিষ্ট্যযুক্ত করতে চাইতে পারেন new_feature = hour > 22 & hour < 4 & (friday_night | saturday_night)। সিদ্ধান্ত গাছগুলি এই জাতীয় বিধিগুলি মিস করতে পারে বা তাদের উচিতের চেয়ে কম গুরুত্ব দিতে পারে।
  2. আরও গুরুত্বপূর্ণ, সিদ্ধান্ত গাছ দ্বারা ব্যবহৃত মেট্রিকগুলি ক্রমহ্রাসে গণনা করা যায় বলে একটি বৈশিষ্ট্য আছে । সিদ্ধান্ত গাছের জন্য মেট্রিক গণনা করার দরকার নেই , তারপরে আবার মেট্রিক গণনা করুন , তারপরে আবার ইত্যাদি for প্রথম সব, প্রতিটি বৈশিষ্ট্য অনুসারে বাছাই করা হয়, যাতে আপনি । দ্বিতীয়ত, আপনি যখন গণনা করবেন , আপনি সহজেই গণনা করতে ফলাফলটি ব্যবহার করতে পারেন । এটি গড় গড়ার মতো। আপনার যদি গড় গড় কোনও নমুনা থাকে, , এবং আমি আপনাকে অন্য একটি মান দেব , আপনি সস্তাভাবে নিজের গড় কাজটি আপডেট করতে পারেন,এক্স1={3,1.5,2.5,2,1}X <= 1X <= 1.5X <= 2এক্স1={1,1.5,2,2.5,3}X <= 1X <= 1.5এক্স¯বনামএক্স¯এনএক্স¯+ +বনামএন+ +1গিনি সহগকে অঙ্কের একটি ভগ্নাংশ হিসাবে গণনা করা হয়, যা নমুনার জন্য সহজে বর্ধমানভাবে গণনা করা যায়।
  3. সিদ্ধান্ত গাছ সমান্তরাল হতে পারে। প্রতিটি নোড দুটি শাখা নিয়ে গঠিত যা স্বতন্ত্র। অতএব, প্রতিটি শাখায় আপনার কাছে গাছের সৃষ্টি সমান্তরাল করার সুযোগ রয়েছে। তদতিরিক্ত, বৈশিষ্ট্য নির্বাচন নিজেই সমান্তরাল হতে পারে। এটি xgboostএত দ্রুত প্যাকেজগুলি তৈরি করে makes গ্রেডিয়েন্ট বুস্টিং ক্রমযুক্ত এবং সমান্তরাল করা যায় না, তবে গাছগুলি নিজেরাই পারে।

1

শুধু উত্তরগুলি সমৃদ্ধ করতে,

শ্রেণিবদ্ধ অক্ষ-সমান্তরাল সিদ্ধান্ত-গাছগুলি দ্রুত (কার্ট, সি 4.5) দ্রুত হয় তবে অন্যান্য বিকল্প রয়েছে যেমন নন-হায়ারার্কিক সিদ্ধান্ত গাছ বা তির্যক পার্টিশনগুলি যেগুলি হয় না, যদিও তারা আরও সঠিক হতে পারে। আপনি যদি আগ্রহী হন তবে নিম্নলিখিত রেফারেন্সগুলি পরীক্ষা করে দেখুন (সেগুলি একটি বহিরাগত নির্বাচন নয়)।

অ ক্রমোচ্চ:

গ্রুবিঞ্জার, টি।, জেইলিস, এ। এবং ফেফার, কে।,, ২০১৪. অ্যাথ্রি: আরজেস্ট্যাট.সোফটওয়্যার (১ (১), 1-29-তে বিশ্বব্যাপী অনুকূল শ্রেণিবিন্যাস এবং রিগ্রেশন গাছগুলির বিবর্তনীয় শিক্ষা।

তির্যক বিভাজন:

মুর্তি, এসকে, কাসিফ, এস। এবং সালজবার্গ, এস।, 1994. তির্যক সিদ্ধান্ত গাছ অন্তর্ভুক্ত করার জন্য একটি সিস্টেম। জে আর্টিফ Intell। রেস। 2 (1), 1-3-2। http://dx.doi.org/doi:10.1613/jair.63 । ক্যান্টা-পাজ, ই। এবং কামথ, সি।, 2003. বিবর্তনীয় অ্যালগরিদমগুলি সহ তির্যক সিদ্ধান্ত গাছ প্রেরণা। আইইইই ট্রান্স Evol। Comput। 7 (1), 54-68। http://dx.doi.org/10.1109/TEVC.2002.806857 । স্বাস্থ্য, ডি।, কাসিফ, এস এবং সালজবার্গ, এস।, 1993. তির্যক সিদ্ধান্তের গাছের সংযোজন। জে আর্টিফ Intell। রেস। 2 (2), 1002-1007।

শুভকামনা!

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.