CHAID বনাম সিআরটি (বা কার্ট)


23

আমি প্রায় 20 ভবিষ্যদ্বাণী (কয়েকটি বিভাগ সহ শ্রেণীবদ্ধ) সহ ডেটা সেটটিতে এসপিএসএস ব্যবহার করে একটি সিদ্ধান্ত গাছ শ্রেণিবিন্যাস পরিচালনা করছি । CHAID (চি-স্কোয়ার্ড অটোমেটিক ইন্টারঅ্যাকশন ডিটেকশন) এবং সিআরটি / কার্ট (শ্রেণিবদ্ধতা এবং রিগ্রেশন ট্রি) আমাকে বিভিন্ন গাছ দিচ্ছে। CHAID বনাম সিআরটি-র তুলনামূলক যোগ্যতা কি কেউ ব্যাখ্যা করতে পারেন? অন্য পদ্ধতিতে একটি পদ্ধতি ব্যবহারের কী কী প্রভাব রয়েছে?

উত্তর:


23

আমি কিছু সম্পত্তি তালিকাবদ্ধ করব এবং পরে এর মূল্যটির জন্য আমার মূল্যায়ন দেব:

  • CHAID ডিফল্টরূপে মাল্টওয়ে বিভক্ত ব্যবহার করে (মাল্টওয়ে বিভক্ত হওয়ার অর্থ বর্তমান নোডটি দুটি নোডে বিভক্ত)। এটি পছন্দসই বা নাও হতে পারে (এটি আরও ভাল বিভাগ বা সহজ ব্যাখ্যা হতে পারে)। এটি স্পষ্টতই যা করে তা নোডের নমুনার আকারের চেয়ে কম পাতলা হয় এবং এর ফলে কম গভীর গাছ হয়। বিভাগকরণের উদ্দেশ্যে যখন ব্যবহার করা হয় তখনই শীঘ্রই CHAID এর ভালভাবে কাজ করার জন্য একটি বড় নমুনা আকারের প্রয়োজন পড়লে তা ব্যাকফায়ার হতে পারে। কার্ট বাইনারি বিভাজন করে (প্রতিটি নোড দুটি কন্যা নোডে বিভক্ত) ডিফল্টরূপে।
  • CHAID এর উদ্দেশ্য শ্রেণীবদ্ধ / বিযুক্ত লক্ষ্য নিয়ে কাজ করা (XAID প্রতিরোধের জন্য ছিল তবে সম্ভবত সেগুলি পরে মিশে গেছে)। কার্ট অবশ্যই রিগ্রেশন এবং শ্রেণিবিন্যাস করতে পারে।
  • CHAID একটি প্রাক-ছাঁটাই ধারণা ব্যবহার করে । কোনও নোড কেবল তখনই বিভক্ত হয় যখন কোনও তাৎপর্য মাপদণ্ড পূর্ণ হয়। বৃহত্তর নমুনা আকারের প্রয়োজনের উপরের সমস্যার সাথে এই সম্পর্ক কারণ চি-স্কোয়ার পরীক্ষায় ক্ষুদ্র নমুনায় কেবল সামান্য শক্তি থাকে (যা কার্যকরভাবে আরও একাধিক পরীক্ষার জন্য একটি Bonferroni সংশোধন দ্বারা আরও কমে যায়)। অন্যদিকে কার্ট একটি বড় গাছ বাড়ায় এবং তারপরে গাছটিকে আরও ছোট সংস্করণে ছাঁটাই করে দেয়।
  • সুতরাং CHAID শুরু থেকেই ওভারফিটিং প্রতিরোধের চেষ্টা করে (কেবলমাত্র বিভাজন সেখানে উল্লেখযোগ্য সংস্থান রয়েছে ), অন্যদিকে গাছটি ছাঁটাই না করা পারলে কার্ট সহজেই পরাস্ত হতে পারে । অন্যদিকে এটি সিআরএটি CHAID এর চেয়ে ভাল এবং পার্শ্ব-নমুনা (প্রদত্ত টিউনিং প্যারামিটার সংমিশ্রণের জন্য) এর চেয়ে আরও ভাল পারফরম্যান্সের অনুমতি দেয়।
  • আমার মতে সর্বাধিক গুরুত্বপূর্ণ পার্থক্যটি হ'ল CHAID এ বিভক্ত পরিবর্তনশীল এবং বিভাজন পয়েন্ট নির্বাচন কার্টের মতো কম জোরালোভাবে বিভ্রান্ত হয় । গাছগুলি পূর্বাভাসের জন্য ব্যবহৃত হয় তবে এটি ব্যাখ্যার জন্য যখন গাছগুলি ব্যবহার করা হয় তখন এটি একটি গুরুত্বপূর্ণ বিষয়: এমন একটি গাছ যা অ্যালগরিদমের সেই দুটি অংশকে অত্যন্ত বিভ্রান্ত করে তোলে তাকে বলা হয় "পরিবর্তনশীল নির্বাচনের পক্ষপাতদুষ্ট" (একটি দুর্ভাগ্যজনক নাম) । এর অর্থ এই যে স্প্লিট ভেরিয়েবল নির্বাচন অনেক সম্ভাব্য বিভাজন (মেট্রিক প্রেডিক্টর বলুন) সহ ভেরিয়েবলগুলিকে পছন্দ করে। কার্ট সেই অর্থে অত্যন্ত "পক্ষপাতদুষ্ট", CHAID তেমন কিছু নয়।
  • সার্গেট বিভক্ত হয়ে কার্ট কীভাবে অনুপস্থিত মানগুলি হ্যান্ডেল করতে জানে (সারোগেট বিভাজনগুলি অর্থ অনুমানকারী ভেরিয়েবলগুলির জন্য অনুপস্থিত মান (এনএ) সহ অ্যালগরিদম অন্যান্য প্রেডিকটর ভেরিয়েবলগুলি ব্যবহার করে যা প্রাথমিক বিভাজন ভেরিয়েবল হিসাবে "ভাল" নয় তবে প্রাথমিক দ্বারা উত্পাদিত স্প্লিটগুলি অনুকরণ করে বিদারণ)। CHAID এর কাছে আফাইক নেই।

সুতরাং আপনার প্রয়োজনের উপর নির্ভর করে আমি নমুনা কিছু আকারের এবং ব্যাখ্যার দিকগুলি আরও গুরুত্বপূর্ণ হলে CHAID ব্যবহার করার পরামর্শ দেব। এছাড়াও, যদি মাল্টওয়ে বিভক্ত বা ছোট গাছগুলি পছন্দ হয় তবে CHAID আরও ভাল। অন্যদিকে কার্ট একটি ভাল কাজ করার পূর্বাভাস মেশিন তাই ভবিষ্যদ্বাণীটি যদি আপনার লক্ষ্য হয় তবে আমি কার্টের জন্য যাব।


1
(+1 টি)। চমৎকার ওভারভিউ। "মাল্টওয়ে স্প্লিট" এবং "সারোগেট বিভক্ত" কী কী তা আপনি ব্যাখ্যা করতে পারেন? মাল্টিওয়ে বিভক্ত যদি বিভাজনগুলি দ্বিখণ্ডিত না হয়?
COOLSerdash

1
@ মোমো: আপডেট হওয়া উত্তরের জন্য অনেক ধন্যবাদ। মাল্টিওয়ে বিভাজন সম্পর্কে, আমি Hastie এট আল থেকে নিম্নলিখিত আকর্ষণীয় বিবৃতি পেয়েছি। (২০১৩) পরিসংখ্যানগত শিক্ষার উপাদান : "[...] যদিও এই [মাল্টওয়ে বিভক্তকরণ] কখনও কখনও দরকারী হতে পারে তবে এটি একটি ভাল সাধারণ কৌশল নয় [[...] যেহেতু মাল্টওয়ে বিভাজনগুলি বাইনারিগুলির একটি সিরিজ দ্বারা অর্জন করা যেতে পারে বিভাজন, পরেরটি পছন্দ করা হয়। " আমি অবাক হয়েছি তারা যদি বলে যে এটি সত্যিই তত্ক্ষণাতীত (আমি মেশিন লার্নিংয়ের সাথে খুব বেশি অভিজ্ঞ নই) তবে অন্যদিকে, তাদের বইটিকে একটি রেফারেন্স হিসাবে বিবেচনা করা হয়।
COOLSerdash

হ্যাঁ, বাইনারি বিভাজনগুলির একটি সিরিজ মাল্টিওয়ে বিভাজনের মতোই হতে পারে। তারা বিভিন্ন হতে পারে। আমি বিবৃতিতে একমত হতে ঝোঁক। অন্য একটি বিষয় লক্ষণীয় যে পরিপূর্ণ অনুসন্ধানের সাথে বিভক্ত পয়েন্টগুলি সন্ধান করা একটি প্রদত্ত নোডের বাইনারি বিভাজনের জন্য অ্যালগোরিদমিকভাবে সহজ এবং দ্রুত।
মোমো

খুব সম্পূর্ণ উত্তর। আমি 100.000 এর বেশি ডাটাবেস সহ একটি রিসার্চে CHAID ব্যবহার করেছি। এই স্তরে, শ্রেণিবিন্যাস খুব নির্ভুল হয় তবে আমি বিভিন্ন সংখ্যক পার্টিশন এবং গাছের কম গভীর স্তরের (এসপিএসএস সফ্টওয়্যারটি আগে এই পরামিতিগুলি নির্ধারণ করতে সহায়তা করে) কয়েকবার চেষ্টা করে দেখি। এটি হ'ল CHAID বিভিন্ন গ্রুপ (মাল্টিস্প্লিট) সহ শ্রেণিবিন্যাস গাছ উত্পন্ন করে এবং ডাটাবেস বড় হলে আরও খারাপ। চূড়ান্ত গাছ বড় হবে। শেষ অবধি, ডাটাবেসের নমুনা বিভাগের "অভ্যন্তরীণ নিয়ন্ত্রণ" ব্যবহার করতে ভুলবেন না। এছাড়াও এসপিএসএসের শ্রেণিবদ্ধকরণ গাছ ম্যানুয়ালটি
গু

কোয়েস্ট সম্পর্কে কি ??
মধু স্যারীন

8

সমস্ত একক গাছের পদ্ধতিতে বিস্ময়কর সংখ্যক একাধিক তুলনা জড়িত যা ফলাফলটিতে দুর্দান্ত অস্থিতিশীলতা নিয়ে আসে। এজন্য সন্তোষজনক ভবিষ্যদ্বাণীমূলক বৈষম্য অর্জনের জন্য গাছের গড় কিছু ফর্ম (ব্যাগিং, বস্টিং, এলোমেলো বন) প্রয়োজনীয় (আপনি গাছের সুবিধা হারাবেন - ব্যাখ্যাযোগ্যতা বাদে)। একক গাছের সরলতা মূলত একটি মায়া। এগুলি সহজ কারণ তারা এই অর্থে ভুল যে উপাত্তের একাধিক বৃহত উপগ্রহে গাছকে প্রশিক্ষণ দেওয়ার ফলে গাছের কাঠামোর মধ্যে প্রচুর মতবিরোধ প্রকাশিত হয়।

আমি সাম্প্রতিক কোনও CHAID পদ্ধতিটির দিকে নজর দিইনি তবে CHAID এর মূল অবতারে ডেটা অতিমাত্রায় ব্যাখ্যা করার একটি দুর্দান্ত অনুশীলন ছিল।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.