আমার একটি ডেটাসেটে 5 টি বৈশিষ্ট্য রয়েছে: এ, বি, সি, ডি, ই They এগুলি সমস্ত সংখ্যার মান। ঘনত্ব ভিত্তিক ক্লাস্টারিংয়ের পরিবর্তে, আমি যা করতে চাই তা হ'ল সিদ্ধান্ত-গাছের মতো পদ্ধতিতে ডেটা ক্লাস্টার করা।
পদ্ধতির অর্থ আমি এইরকম:
বৈশিষ্ট্য সি এর উপর ভিত্তি করে অ্যালগরিদমটি ডেটা এক্স প্রাথমিক ক্লাস্টারে বিভক্ত করতে পারে, অর্থাৎ এক্স ক্লাস্টারগুলিতে ছোট সি, মাঝারি সি, বড় সি এবং খুব বড় সি মান ইত্যাদি থাকতে পারে। পরবর্তী, এক্স ক্লাস্টার নোডের প্রত্যেকটির অধীনে অ্যালগোরিদম আরও বিভাজক হয় বৈশিষ্ট্য A. এর উপর ভিত্তি করে ওয়াই ক্লাস্টারে ডেটাগুলি সমস্ত বৈশিষ্ট্য ব্যবহার না করা অবধি অ্যালগরিদম অব্যাহত থাকে।
আমি উপরে বর্ণিত অ্যালগরিদম সিদ্ধান্ত-গাছের অ্যালগোরিদমের মতো। তবে তদারকি করা শ্রেণিবিন্যাসের পরিবর্তে আমার এটি অপ্রচারিত ক্লাস্টারিংয়ের জন্য প্রয়োজন।
আমার প্রশ্নগুলি নিম্নলিখিত:
- এই জাতীয় অ্যালগরিদম কি ইতিমধ্যে বিদ্যমান? এই জাতীয় অ্যালগরিদমের সঠিক নাম কী
- এখানে কি কোনও আর / পাইথন প্যাকেজ / লাইব্রেরি রয়েছে যা এই ধরণের অ্যালগরিদমের প্রয়োগ করে?
CHAID
উদাহরণস্বরূপ গাছ নিন Take আপনাকে অবশ্যই নির্ভরশীল পরিবর্তনশীল নির্বাচন করতে হবে। এটি A. হতে দিন, এল, অ্যালগরিদম B, C, D, E এর মধ্যে সবচেয়ে পরিবর্তনশীল এ এবং বেনসের সাথে নির্বাচন করে যা চলক (বলুন, এটি ভবিষ্যদ্বাণীকারী, D) দুটি বা ততোধিক বিভাগগুলিতে "অনুকূলভাবে" - যাতে পারস্পরিক সম্পর্ক (শ্রেণীবদ্ধ ভেরিয়েবল ডি এবং ভেরিয়েবল এ এর মধ্যে সর্বাধিক করা হয়। বলুন, এটি 3 টি গ্রুপ, ডি 1, ডি 2, ডি 3 রেখে গেছে। পরবর্তী, ডি এর প্রতিটি বিভাগের (গোষ্ঠী) আলাদাভাবে একই পদ্ধতি পুনরাবৃত্তি করা হয়, এবং বি, সি এর মধ্যে সেরা ভবিষ্যদ্বাণীকারী , E এটি বেনিংয়ের নিচে অনুসন্ধান করা হয়েছে E ইত্যাদি
But I need it for unsupervised clustering, instead of supervised classification
এই মূল বাক্যাংশটি খুব সংক্ষিপ্ত এবং আপনি কী চান তা পরিষ্কারভাবে প্রকাশিত হয় না। এর উপরে আপনি বর্ণনা করেছেন যা আমার কাছে সিদ্ধান্ত গাছ বলে মনে হয়। আপনি যে আলগো চান তা সম্পর্কে এখন কি একই প্যাসেজ দিতে পারেন?