সিদ্ধান্ত গাছগুলি একটি খুব বোধগম্য মেশিন শেখার পদ্ধতি বলে মনে হচ্ছে। একবার তৈরি হয়ে গেলে এটি সহজেই কোনও মানুষ দ্বারা পরিদর্শন করা যেতে পারে যা কিছু অ্যাপ্লিকেশনে একটি দুর্দান্ত সুবিধা।
সিদ্ধান্ত গাছগুলির ব্যবহারিক দুর্বল দিকগুলি কী কী?
সিদ্ধান্ত গাছগুলি একটি খুব বোধগম্য মেশিন শেখার পদ্ধতি বলে মনে হচ্ছে। একবার তৈরি হয়ে গেলে এটি সহজেই কোনও মানুষ দ্বারা পরিদর্শন করা যেতে পারে যা কিছু অ্যাপ্লিকেশনে একটি দুর্দান্ত সুবিধা।
সিদ্ধান্ত গাছগুলির ব্যবহারিক দুর্বল দিকগুলি কী কী?
উত্তর:
আমি এখানে ভাবতে পারি এমন এক দম্পতি এখানে রয়েছে:
এর মধ্যে কয়েকটি মাল্টিকোলাইনারিটির সমস্যার সাথে সম্পর্কিত : যখন দুটি ভেরিয়েবল উভয়ই একই জিনিস ব্যাখ্যা করে, একটি সিদ্ধান্ত গাছ লোভের সাথে সেরাটিকে বেছে নেবে, অন্যদিকে আরও অনেকগুলি পদ্ধতি সেগুলি উভয়ই ব্যবহার করবে। এলোমেলো পদ্ধতি যেমন এলোমেলো বন এটি নির্দিষ্ট পরিমাণে উপেক্ষা করতে পারে তবে আপনি বোঝার সহজতা হারাবেন।
তবে আমার দৃষ্টিকোণ থেকে সবচেয়ে বড় সমস্যা হ'ল মূলত সম্ভাব্য কাঠামোর অভাব। অন্যান্য অনেক পদ্ধতিতে আত্মবিশ্বাসের ব্যবধান, উত্তরোত্তর বিতরণ ইত্যাদির মতো জিনিস রয়েছে যা আমাদের মডেল কতটা ভাল তা সম্পর্কে কিছুটা ধারণা দেয়। সিদ্ধান্তের গাছটি শেষ পর্যন্ত একটি অ্যাডহক হিউরিস্টিক, যা এখনও খুব কার্যকর হতে পারে (তারা ডেটা প্রক্রিয়াকরণে বাগের উত্সগুলি সন্ধানের জন্য দুর্দান্ত) তবে আউটপুটটিকে "সঠিক মডেল" হিসাবে গণ্য করার ঝুঁকি রয়েছে (আমার কাছ থেকে অভিজ্ঞতা, বিপণনে এটি অনেক কিছু ঘটে)।
একটি অসুবিধা হ'ল সমস্ত শর্তাদি ইন্টারঅ্যাক্ট করার জন্য অনুমিত হয়। অর্থাৎ, আপনার কাছে দুটি ব্যাখ্যামূলক পরিবর্তনশীল থাকতে পারে না যা স্বতন্ত্রভাবে আচরণ করে। গাছের প্রতিটি পরিবর্তনশীল গাছের প্রতিটি ভেরিয়েবলের সাথে ইন্টারঅ্যাক্ট করতে বাধ্য হয়। যদি ভেরিয়েবলগুলির কোনও বা দুর্বল মিথস্ক্রিয়া না থাকে তবে এটি অত্যন্ত অযোগ্য।
আমার উত্তরটি কার্টের দিকে পরিচালিত (সি 4.5 / সি 5 বাস্তবায়ন) যদিও আমি মনে করি না এটি সীমাবদ্ধ। আমার অনুমান যে ওপি-র মনে এটিই ছিল - সাধারণত কেউ কেউ যখন "সিদ্ধান্ত গাছ" বলে তখন এটি বোঝায়।
সিদ্ধান্ত গাছের সীমাবদ্ধতা :
খারাপ করা
'পারফরম্যান্স' দ্বারা আমি রেজোলিউশনকে বোঝাতে চাই না, তবে মৃত্যুদণ্ড কার্যকর করি । এটি দুর্বল হওয়ার কারণটি হ'ল প্রতিবার আপনার কার্টের মডেলটি আপডেট করতে ইচ্ছুক আপনাকে 'গাছটি পুনরায় আঁকতে' হবে - ইতিমধ্যে প্রশিক্ষিত গাছ দ্বারা শ্রেণিবদ্ধ করা ডেটা, যা আপনি তখন গাছটিতে যুক্ত করতে চান (অর্থাত্ একটি হিসাবে ব্যবহার করুন) প্রশিক্ষণ ডেটা পয়েন্ট) এর জন্য আপনার প্রয়োজন হয় যে - ওভার থেকে শুরু করুন প্রশিক্ষণের উদাহরণগুলি ক্রমবর্ধমানভাবে যুক্ত করা যাবে না, কারণ তারা অন্যান্য তত্ত্বাবধানে থাকা শেখার অ্যালগরিদমের জন্য পারে। সম্ভবত এটি জানার সর্বোত্তম উপায় হ'ল ডেসিশন ট্রিগুলি কেবলমাত্র ব্যাচ মোডে, অনলাইন মোডে প্রশিক্ষণ দেওয়া যায় না। স্পষ্টতই আপনি যদি আপনার শ্রেণিবদ্ধটিকে আপডেট না করেন তবে আপনি এই সীমাবদ্ধতাটি লক্ষ্য করবেন না, তবে আমি আশা করব যে আপনি রেজোলিউশনে একটি ড্রপ দেখবেন।
এটি তাৎপর্যপূর্ণ কারণ উদাহরণস্বরূপ মাল্টি-লেয়ার পারসেপ্ট্রনগুলির জন্য, এটি একবার প্রশিক্ষিত হয়ে গেলে এটি ডেটা শ্রেণিবদ্ধকরণ শুরু করতে পারে; ডেটাটি ইতিমধ্যে প্রশিক্ষিত শ্রেণীবদ্ধকারীদের 'টিউন' করতেও ব্যবহার করা যেতে পারে, যদিও সিদ্ধান্তের গাছের সাথে আপনাকে সম্পূর্ণ ডেটা সেট (প্রশিক্ষণে ব্যবহৃত নতুন ডেটা এবং কোনও নতুন উদাহরণ) ব্যবহার করতে হবে with
ভেরিয়েবলগুলির মধ্যে জটিল সম্পর্কের সাথে ডেটার উপর দুর্বল রেজোলিউশন
সিদ্ধান্ত গাছগুলি অজানা শ্রেণীর ডেটা পয়েন্ট, সময়কালে একটি নোডের রুট নোড থেকে শুরু করে এবং টার্মিনাল নোড দিয়ে শেষ হওয়ার ধাপ অনুসারে মূল্যায়ন করে শ্রেণিবদ্ধ করে। এবং প্রতিটি নোডে, কেবল দুটি সম্ভাবনা সম্ভব (বাম-ডান), সুতরাং কিছু পরিবর্তনশীল সম্পর্ক রয়েছে যা সিদ্ধান্তের গাছগুলি শিখতে পারে না।
ব্যবহারিকভাবে শ্রেণিবিন্যাসের মধ্যে সীমাবদ্ধ
সিদ্ধান্ত গাছগুলি সর্বোত্তম কাজ করে যখন তাদের কোনও শ্রেণিতে ডেটা পয়েন্ট নির্ধারণের প্রশিক্ষণ দেওয়া হয় - সম্ভবত কয়েকটি সম্ভাব্য ক্লাসগুলির মধ্যে একটি। আমি বিশ্বাস করি না যে রিগ্রেশন মোডে (যেমন, অবিচ্ছিন্ন আউটপুট, যেমন মূল্য, বা প্রত্যাশিত আজীবন আয়) এর সাহায্যে ডিসিশন ট্রি ব্যবহার করে আমার কোনও সাফল্য হয়েছে। এটি কোনও আনুষ্ঠানিক বা সহজাত সীমাবদ্ধতা নয় বরং ব্যবহারিক a বেশিরভাগ সময়, সিদ্ধান্ত গাছগুলি কারণ বা বিচ্ছিন্ন ফলাফলের পূর্বাভাস দেওয়ার জন্য ব্যবহৃত হয়।
অবিচ্ছিন্ন প্রত্যাশা ভেরিয়েবলগুলির সাথে দরিদ্র রেজোলিউশন
আবার, নীতিগতভাবে, "ডাউনলোডের সময়" বা "পূর্ববর্তী অনলাইন কেনার পরে দিনের সংখ্যা" এর মতো স্বতন্ত্র ভেরিয়েবলগুলি ঠিক আছে - কেবল আপনার বিভাজনের মানদণ্ডকে বৈকল্পে পরিবর্তন করুন (এটি সাধারণত ইনফরমেশন এন্ট্রপি বা বিচ্ছিন্ন ভেরিয়েবলের জন্য গিনি অপরিষ্কার) তবে আমার অভিজ্ঞতা সিদ্ধান্ত গাছ খুব কমই এই ক্ষেত্রে ভাল কাজ করে। ব্যতিক্রমগুলি "শিক্ষার্থীর বয়স" এর মতো কেস যা অবিচ্ছিন্ন দেখায় তবে অনুশীলনে মানগুলির পরিসরটি খুব কম (বিশেষত যদি তাদের পূর্ণসংখ্যার হিসাবে রিপোর্ট করা হয়)।
এখানে ভাল উত্তর আছে, কিন্তু আমি অবাক যে একটি বিষয় জোর দেওয়া হয়নি। কার্ট ডেটা, বিশেষত প্রতিক্রিয়া পরিবর্তনশীল সম্পর্কে কোনও বিতরণ অনুমান করে না। এর বিপরীতে, OLS ঔজ্জ্বল্যের প্রেক্ষাপটে রিগ্রেশন (ক্রমাগত প্রতিক্রিয়া ভেরিয়েবল জন্য) এবং লজিস্টিক রিগ্রেশন (কিছু শ্রেণীগত প্রতিক্রিয়া ভেরিয়েবল জন্য), উদাহরণস্বরূপ, কি শক্তিশালী অনুমানের করা; বিশেষত, ওএলএস রিগ্রেশন অনুমান করে যে প্রতিক্রিয়াটি শর্তাধীনভাবে সাধারণত বিতরণ করা হয়, এবং যৌক্তিক ধারণাটি গ্রহণ করে প্রতিক্রিয়া দ্বিপদী বা বহু-জাতীয়।
কার্টের এই ধরণের অনুমানের অভাবটি একটি দ্বি-তরোয়াল তরোয়াল। যখন এই অনুমানগুলি সুনিশ্চিত হয় না, এটি পদ্ধতির আপেক্ষিক সুবিধা দেয়। অন্যদিকে, যখন এই অনুমানগুলি ধারণ করে, তখন সেই তথ্যগুলিকে বিবেচনায় নিয়ে তথ্য থেকে আরও তথ্য বের করা যেতে পারে। এটি হ'ল স্ট্যান্ডার্ড রিগ্রেশন পদ্ধতিগুলি কার্টের চেয়ে আরও তথ্যপূর্ণ হতে পারে যখন অনুমানগুলি সত্য হয়।