সিদ্ধান্ত গাছ বা লজিস্টিক রিগ্রেশন?


14

আমি একটি শ্রেণিবদ্ধকরণ সমস্যা নিয়ে কাজ করছি। আমার কাছে একটি ডেটাसेट রয়েছে যাতে সমান সংখ্যক শ্রেণিবদ্ধ ভেরিয়েবল এবং অবিচ্ছিন্ন ভেরিয়েবল থাকে। কীভাবে কী কৌশল ব্যবহার করবেন তা আমি কীভাবে জানব? একটি সিদ্ধান্ত গাছ এবং একটি লজিস্টিক রিগ্রেশন মধ্যে?

লজিস্টিক রিগ্রেশন ধারাবাহিক পরিবর্তনশীল জন্য আরও উপযুক্ত এবং সিদ্ধান্ত গাছ ধারাবাহিক + শ্রেণিবদ্ধ পরিবর্তনশীল জন্য আরও উপযুক্ত হবে তা ধরে নেওয়া ঠিক কি?


আপনি কি সারি সংখ্যা, কলামগুলির সংখ্যা (আরও কতগুলি শ্রেণিবদ্ধ / ধারাবাহিক) এর মতো আরও বিশদ যুক্ত করতে পারেন?
নীতেশ

হাই @ নিতেশ, আমার কাছে 32 ইনপুট ভেরিয়েবল + 1 টার্গেট ভেরিয়েবল। প্রশিক্ষণ ডেটার জন্য রেকর্ডগুলি প্রায় আড়াই লক্ষের কাছাকাছি এবং প্রায় 1 লক্ষ পরীক্ষার ডেটা বলে। পরীক্ষার ডেটা সময়োপযোগী।
অরুণ

উত্তর:


22

দীর্ঘ গল্প সংক্ষিপ্ত : @ অ্যান্টিলেটড প্রোগ্রামার যা বলেছিলেন তা করুন, দুটি বেছে নিতে মডেল ব্যবহার করুন এবং একটি বাছাইয়ের জন্য ক্রস-বৈধতা দিন।

উভয় সিদ্ধান্ত গাছ (বাস্তবায়নের উপর নির্ভর করে, যেমন সি 4.5) এবং লজিস্টিক রিগ্রেশন কেবল অবিচ্ছিন্ন এবং শ্রেণিবদ্ধ ডেটা পরিচালনা করতে সক্ষম হওয়া উচিত। লজিস্টিক রিগ্রেশন এর জন্য, আপনি আপনার শ্রেণিবদ্ধ ভেরিয়েবলগুলি ডামি কোড করতে চান ।

@ কন্টিলেডপ্রগ্রামার হিসাবে উল্লেখ করা হয়েছে, কোন ধরণের প্রযুক্তি আপনি কী ধরণের বৈশিষ্ট্যগুলির উপর নির্ভর করে চালিয়ে যাবেন তা ধারাবাহিকভাবে বা অন্য কোনও উপায়ে আরও ভাল হবে তা আগে জানা শক্ত। এটি আপনার নির্দিষ্ট সমস্যা এবং আপনার যে ডেটা রয়েছে তা নির্ভর করে। ( নিখরচায় দুপুরের খাবারের উপপাদ্যটি দেখুন )

আপনি মনে রাখতে চাইবেন যে লজিস্টিক রিগ্রেশন মডেলটি আপনার বৈশিষ্ট্য স্পেসে একক লিনিয়ার সিদ্ধান্তের সীমানা সন্ধান করছে, অন্যদিকে একটি সিদ্ধান্ত গাছ অক্ষরযুক্ত রেখাযুক্ত সিদ্ধান্ত সীমানাগুলি ব্যবহার করে আপনার বৈশিষ্ট্য স্থানটিকে অর্ধ-ফাঁকে ফাঁকা করে দেবে । নেট এফেক্টটি হ'ল আপনার একটি অ-রৈখিক সিদ্ধান্তের সীমানা রয়েছে, সম্ভবত একের বেশি।

এটি খুব ভাল যখন আপনার ডেটা পয়েন্টগুলি কোনও একক হাইপারপ্লেন দ্বারা সহজেই পৃথক করা হয় না, তবে অন্যদিকে, সিদ্ধান্ত নেওয়া গাছগুলি এত নমনীয় হয় যে তারা অত্যধিক মানানসই হতে পারে। এটিকে মোকাবেলায় আপনি ছাঁটাই করার চেষ্টা করতে পারেন। লজিস্টিক রিগ্রেশন অত্যধিক মানানসই ক্ষেত্রে কম সংবেদনশীল (তবে প্রতিরোধ ক্ষমতা নয়!) থাকে।

এক্সYএক্সY

সুতরাং আপনাকে নিজেকে জিজ্ঞাসা করতে হবে:

  • কোন ধরণের সিদ্ধান্তের সীমানা আপনার বিশেষ সমস্যাটিকে আরও বোঝায়?
  • আপনি কিভাবে পক্ষপাত এবং বৈকল্পিক ভারসাম্য বজায় রাখতে চান?
  • আমার বৈশিষ্ট্য মধ্যে পারস্পরিক মিথস্ক্রিয়া আছে?

অবশ্যই, উভয় মডেলকে কেবল চেষ্টা করা এবং ক্রস-বৈধকরণ করা সর্বদা একটি ভাল ধারণা। এটি আপনাকে জানাতে সহায়তা করবে যে কোনটির মধ্যে আরও সাধারণের ত্রুটি হওয়ার সম্ভাবনা বেশি।



@ ভিক্টর একটি খুব বিস্তারিত ব্যাখ্যা জন্য অনেক ধন্যবাদ।
অরুণ

6

রিগ্রেশন এবং সিদ্ধান্ত উভয় গাছ ব্যবহার করার চেষ্টা করুন। 10 গুণ ক্রস বৈধতা ব্যবহার করে প্রতিটি কৌশলটির দক্ষতার তুলনা করুন। উচ্চ দক্ষতার সাথে একের সাথে লেগে থাকুন। আপনার ডেটাসেট অবিচ্ছিন্ন এবং, বা শ্রেণিবদ্ধ হয় তা জেনে কোন পদ্ধতিটি আরও ভাল ফিট হবে তা বিচার করা কঠিন।


1

এটি সত্যিই আপনার ডেটা অন্তর্নিহিত বিতরণ কাঠামোর উপর নির্ভর করে। আপনার যদি বিশ্বাস করার দৃ strong় কারণ থাকে যে ডেটাটি আনুমানিক কোনও বার্নোল্লি বিতরণ করে তবে বহুজাতিক লজিস্টিক রিগ্রেশন ভাল সম্পাদন করবে এবং আপনাকে ব্যাখ্যাযোগ্য ফলাফল দেবে। তবে যদি অন্তর্নিহিত বিতরণে অ লাইন কাঠামো উপস্থিত থাকে তবে আপনার গুরুত্ব সহকারে একটি ননপ্যারমেট্রিক পদ্ধতি বিবেচনা করা উচিত।

যখন আপনি সিদ্ধান্তহীন গাছটিকে আপনার ননপ্যারমেট্রিক পদ্ধতি হিসাবে ব্যবহার করতে পারেন, আপনি এলোমেলো বন তৈরির বিষয়টিও বিবেচনা করতে পারেন this এটি মূলত ডেটা উপগ্রহগুলি থেকে এক বিশাল সংখ্যক পৃথক সিদ্ধান্ত গাছ উত্পন্ন করে এবং শেষ শ্রেণিবদ্ধকরণ সমস্ত গাছের সংযুক্ত ভোট vote । একটি এলোমেলো বন আপনাকে প্রতিটি ভবিষ্যদ্বাণী পরিবর্তনশীল প্রতিক্রিয়ায় অবদান রাখার জন্য ভাগ সম্পর্কে ধারণা দিতে সহায়তা করে।

মাথায় রাখার আরেকটি বিষয় হ'ল ব্যাখ্যাযোগ্যতা। আপনি যদি কেবল ডেটা শ্রেণিবদ্ধ করার চেষ্টা করছেন, তবে সম্ভবত আপনি ব্যাখ্যামূলক এবং প্রতিক্রিয়াশীল ভেরিয়েবলের মধ্যে অন্তর্নিহিত সম্পর্কের বিষয়ে চিন্তা করবেন না। যাইহোক, আপনি যদি ব্যাখ্যায় আগ্রহী হন তবে একটি বহুজাতিক লজিস্টিক রিগ্রেশনটি সাধারণভাবে প্যারামিট্রিক পদ্ধতিগুলি ব্যাখ্যা করা অনেক সহজ, কারণ তারা অন্তর্নিহিত বিতরণ সম্পর্কে অনুমান করে, আপনাকে আরও স্বজ্ঞাতভাবে ব্যাখ্যাযোগ্য সম্পর্ক বলুন।


0

সিদ্ধান্ত গাছ ব্যবহার করার জন্য, আপনার অবিচ্ছিন্ন পরিবর্তনশীলটিকে শ্রেণিবদ্ধে রূপান্তর করা উচিত।

আরও একটি জিনিস, লজিস্টিক রিগ্রেশন সাধারণত সম্ভাবনা অনুসারে ফলাফল পূর্বাভাস দেওয়ার জন্য ব্যবহৃত হয়।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.