অকার্যকর ক্লাস্টারিংয়ের জন্য কি সিদ্ধান্ত-গাছের মতো অ্যালগরিদম রয়েছে?


20

আমার একটি ডেটাসেটে 5 টি বৈশিষ্ট্য রয়েছে: এ, বি, সি, ডি, ই They এগুলি সমস্ত সংখ্যার মান। ঘনত্ব ভিত্তিক ক্লাস্টারিংয়ের পরিবর্তে, আমি যা করতে চাই তা হ'ল সিদ্ধান্ত-গাছের মতো পদ্ধতিতে ডেটা ক্লাস্টার করা।

পদ্ধতির অর্থ আমি এইরকম:

বৈশিষ্ট্য সি এর উপর ভিত্তি করে অ্যালগরিদমটি ডেটা এক্স প্রাথমিক ক্লাস্টারে বিভক্ত করতে পারে, অর্থাৎ এক্স ক্লাস্টারগুলিতে ছোট সি, মাঝারি সি, বড় সি এবং খুব বড় সি মান ইত্যাদি থাকতে পারে। পরবর্তী, এক্স ক্লাস্টার নোডের প্রত্যেকটির অধীনে অ্যালগোরিদম আরও বিভাজক হয় বৈশিষ্ট্য A. এর উপর ভিত্তি করে ওয়াই ক্লাস্টারে ডেটাগুলি সমস্ত বৈশিষ্ট্য ব্যবহার না করা অবধি অ্যালগরিদম অব্যাহত থাকে।

আমি উপরে বর্ণিত অ্যালগরিদম সিদ্ধান্ত-গাছের অ্যালগোরিদমের মতো। তবে তদারকি করা শ্রেণিবিন্যাসের পরিবর্তে আমার এটি অপ্রচারিত ক্লাস্টারিংয়ের জন্য প্রয়োজন।

আমার প্রশ্নগুলি নিম্নলিখিত:

  1. এই জাতীয় অ্যালগরিদম কি ইতিমধ্যে বিদ্যমান? এই জাতীয় অ্যালগরিদমের সঠিক নাম কী
  2. এখানে কি কোনও আর / পাইথন প্যাকেজ / লাইব্রেরি রয়েছে যা এই ধরণের অ্যালগরিদমের প্রয়োগ করে?

3
But I need it for unsupervised clustering, instead of supervised classificationএই মূল বাক্যাংশটি খুব সংক্ষিপ্ত এবং আপনি কী চান তা পরিষ্কারভাবে প্রকাশিত হয় না। এর উপরে আপনি বর্ণনা করেছেন যা আমার কাছে সিদ্ধান্ত গাছ বলে মনে হয়। আপনি যে আলগো চান তা সম্পর্কে এখন কি একই প্যাসেজ দিতে পারেন?
ttnphns

1
@ttnphns হাই, যেমন আপনি জানেন, সিদ্ধান্ত গাছ একটি তদারকি পদ্ধতি। আপনি প্রতিটি বৈশিষ্ট্য ভেক্টরকে Class1 বা Class2 হিসাবে লেবেল করেছেন। অ্যালগরিদম জ্ঞাত লেবেলের উপর ভিত্তি করে প্রতিটি বৈশিষ্ট্যের জন্য প্রান্তিকতা নির্ধারণ করে। তবে, আমি একটি ক্লাস্টারিং সমস্যার মুখোমুখি। আমি প্রতিটি বৈশিষ্ট্য ভেক্টরের সঠিক লেবেল জানি না। আমি একটি অ্যালগরিদম সন্ধান করতে চাই যা প্রতিটি বৈশিষ্ট্যের জন্য স্বয়ংক্রিয়ভাবে একটি গাছ নির্মানের জন্য প্রান্তিক মান নির্ধারণ করে। এইভাবে, ফলস্বরূপ ক্লাস্টারিং সহজেই উদাহরণস্বরূপ ব্যাখ্যা করা যেতে পারে যেমন ক্লাস্টার 1: হাই এ-লো বি-মিডিয়াম সি- হাই ডি - লো ই, ক্লাস্টার 2 কম এ - হাই বি-মিডিয়াম সি-মিডিয়াম ডি - লো ই।
ন্যান

আপনাকে বেশ বোঝা যায় না CHAIDউদাহরণস্বরূপ গাছ নিন Take আপনাকে অবশ্যই নির্ভরশীল পরিবর্তনশীল নির্বাচন করতে হবে। এটি A. হতে দিন, এল, অ্যালগরিদম B, C, D, E এর মধ্যে সবচেয়ে পরিবর্তনশীল এ এবং বেনসের সাথে নির্বাচন করে যা চলক (বলুন, এটি ভবিষ্যদ্বাণীকারী, D) দুটি বা ততোধিক বিভাগগুলিতে "অনুকূলভাবে" - যাতে পারস্পরিক সম্পর্ক (শ্রেণীবদ্ধ ভেরিয়েবল ডি এবং ভেরিয়েবল এ এর ​​মধ্যে সর্বাধিক করা হয়। বলুন, এটি 3 টি গ্রুপ, ডি 1, ডি 2, ডি 3 রেখে গেছে। পরবর্তী, ডি এর প্রতিটি বিভাগের (গোষ্ঠী) আলাদাভাবে একই পদ্ধতি পুনরাবৃত্তি করা হয়, এবং বি, সি এর মধ্যে সেরা ভবিষ্যদ্বাণীকারী , E এটি বেনিংয়ের নিচে অনুসন্ধান করা হয়েছে E ইত্যাদি
you

2
@ttnphns আমি এই কাগজটি সবেমাত্র পেয়েছি, আমার মনে হয় তারা আমার অর্থ বোঝায় did ftp.cse.buffalo.edu/users/azhang/disc/disc01/cd1/out/papers/…
nan

1
@ ন্যান আপনি কি এই জাতীয় গাছের কোন প্রয়োগ খুঁজে পেয়েছেন? তারা নিবন্ধটিতে কোডের কোনও লিঙ্ক সরবরাহ করে না
অ্যালেও

উত্তর:


12

আপনি নিম্নলিখিত পদ্ধতির বিবেচনা করতে চাইতে পারেন:

  • যে কোনও ক্লাস্টারিং অ্যালগরিদম ব্যবহার করুন যা আপনার ডেটার জন্য পর্যাপ্ত
  • ধরুন ফলস্বরূপ ক্লাস্টারটি ক্লাস
  • গুচ্ছগুলিতে সিদ্ধান্ত গাছ প্রশিক্ষণ দিন

এটি আপনাকে বিভিন্ন ক্লাস্টারিং অ্যালগরিদমগুলি চেষ্টা করার অনুমতি দেবে, তবে আপনি তাদের প্রত্যেকের জন্য একটি সিদ্ধান্ত গাছের প্রায় অনুমান পাবেন।


1
এটি সম্মত হন যে এটি "উপযুক্ত", তবে অবশ্যই অবশ্যই সর্বদা মনে রাখা উচিত যে একটি ক্লাস্টারিং অ্যালগরিদম থেকে একটি লেবেল তৈরি করা কোনও পর্যবেক্ষণের "প্রকৃত" বৈশিষ্ট্য নয়। গুচ্ছের গুণমান এবং ধরণের উপর নির্ভর করে প্রবর্তিত পক্ষপাতটি বৃহত্তর বা কম পরিমাণে উপস্থিত থাকবে।
নিুবিবাং

আপনি কি আমাকে কোনও কাগজে ইশারা করতে পারেন যা এই কৌশলটি নিয়ে আলোচনা করে?
এনসিটিসিটি

2

প্রথম কাগজটি যা মনে আসে তা হ'ল: ক্লাস্টারিংয়ের মাধ্যমে সিদ্ধান্ত গাছ নির্মাণ https://pdfs.semanticscholar.org/8996/148e8f0b34308e2d22f78ff89bf1f038d1d6.pdf

অন্য বর্ণিত হিসাবে, "শ্রেণিবদ্ধ" (উপরে নীচে) এবং "শ্রেণিবিন্যাসিক সমষ্টি" (নীচে আপ) উভয়ই ক্লাস্টারিংয়ের জন্য গাছ ব্যবহার করে তৈরি কৌশলগত কৌশল। স্কিপি এই আছে।

যদি আপনি কাস্টম কোডটি ঠিক রাখেন কারণ আমি কোনও লাইব্রেরি জানি না, এমন দুটি কৌশল রয়েছে যা আমি সুপারিশ করতে পারি। সতর্কতা অবলম্বন করুন যে এগুলি নির্ভর করে এমন মেকানিক্সের কারণে এগুলি প্রযুক্তিগতভাবে ক্লাস্টারিং করছে না। আপনি এই ছদ্ম ক্লাস্টারিং কল করতে পারেন।

1) তদারকি: এটি কাগজের সাথে কিছুটা মিল (পড়ার মতো মূল্যবান)। কিছু লক্ষ্য শিখতে একক সিদ্ধান্তের গাছের মডেল তৈরি করুন (আপনি কী বোঝেন তা সিদ্ধান্ত নেন)। লক্ষ্যটি এলোমেলোভাবে উত্পন্ন কলাম হতে পারে (পুনরাবৃত্তি করতে হবে এবং পুনরাবৃত্তি করতে হবে যা পুনরাবৃত্তিটি সর্বোত্তম ছিল তা নীচে দেখুন)। গাছের প্রতিটি পূর্ণ পথকে একটি "ক্লাস্টার" হিসাবে সংজ্ঞায়িত করুন যেহেতু সেই ধারাবাহিক শাখার মধ্য দিয়ে পড়া পয়েন্টগুলি লক্ষ্য অনুসারে প্রযুক্তিগতভাবে সমান। এটি কেবল কিছু সমস্যা নিয়ে ভাল কাজ করে তবে এটি বৃহত আকারে দক্ষ। আপনি কে ক্লাস্টারগুলি দিয়ে শেষ করেছেন (নীচে দেখুন)।

২) সেমিসুপারভাইজড (ধরণের অব্যবহৃত, তবে যান্ত্রিকভাবে তদারকি করা), # 1 ব্যবহার করে: আপনি একটি ছুটির আউট প্যাটার্নে কলামগুলি পূর্বাভাস দেওয়ার জন্য গাছ তৈরির চেষ্টা করতে পারেন। অর্থাত্ যদি স্কিমাটি [এ, বি, সি] হয় তবে 3 টি মডেল তৈরি করুন [এ, বি] -> সি, [এ, সি] -> বি, [বি, সি] -> এ। আপনি কেএন ক্লাস্টার পান (নীচে দেখুন)। এন = LEN (স্কিমা)। এই বৈশিষ্ট্যগুলির মধ্যে কিছু আকর্ষণীয় বা খুব ভারসাম্যহীন না হলে (বিভাগগুলির ক্ষেত্রে), সেগুলি লক্ষ্য হিসাবে ব্যবহার করবেন না।

সংক্ষিপ্তসার: মডেল তথ্য বা বিশুদ্ধতার উপর ভিত্তি করে বৈশিষ্ট্যগুলি নির্বাচন করবে এবং ক্লাস্টারগুলি সকলের চেয়ে কয়েকটি বৈশিষ্ট্যের উপর ভিত্তি করে তৈরি হবে। এই গুচ্ছগুলিতে দূরত্বের কোনও ধারণা নেই, তবে আপনি অবশ্যই কেন্দ্রগুলির উপর নির্ভর করে একটি তৈরি করতে পারেন।

পেশাদাররা: বোঝা ও ব্যাখ্যা করা সহজ, দ্রুত প্রশিক্ষণ এবং অনুমান, কয়েকটি শক্তিশালী বৈশিষ্ট্য সহ ভাল কাজ করে, বিভাগগুলির সাথে কাজ করে। যখন আপনার বৈশিষ্ট্যগুলি সার্বিকভাবে ভিন্নধর্মী এবং আপনার অনেকগুলি বৈশিষ্ট্য রয়েছে, তখন আপনাকে দূরত্ব ফাংশনটিতে কোনটি ব্যবহার করবেন তা সিদ্ধান্ত নেওয়ার জন্য এতটা সময় ব্যয় করতে হবে না।

কনস: স্ট্যান্ডার্ড নয়, অবশ্যই লিখতে হবে, নিষ্পাপ পক্ষপাত, লক্ষ্য সহ কোলাইনারিটি খারাপ ফলাফলের কারণ, 1000 সমান গুরুত্বপূর্ণ বৈশিষ্ট্যগুলি ভাল কাজ করবে না (ইউক্লিডিয়ান দূরত্ব সহ কেম্যানগুলি এখানে আরও ভাল)।

আপনি কতগুলি গুচ্ছ পাবেন? আপনার অবশ্যই, একেবারে ডিটি মডেলকে খুব বেশি না বাড়ানোর জন্য সীমাবদ্ধ করতে হবে। যেমন প্রতি পাতায় ন্যূনতম নমুনা সেট করুন, সর্বোচ্চ পাতাগুলি (পছন্দসই), বা সর্বোচ্চ গভীরতা। Allyচ্ছিকভাবে, বিশুদ্ধতা বা এনট্রপি সীমাবদ্ধতা সেট করুন। এটি আপনাকে কতগুলি ক্লাস্টার দিয়েছে তা অবশ্যই পরীক্ষা করে দেখুন এবং মূল্যায়ন করতে হবে যদি এই পদ্ধতিটি বাস্তব ক্লাস্টারিংয়ের চেয়ে ভাল।

কৌশল এবং পরামিতিগুলি কি আপনার পক্ষে ভাল কাজ করেছে? কোনটি সেরা ছিল? এটির জন্য, আপনাকে ক্লাস্টার মূল্যায়ন করতে হবে: নিরীক্ষণযোগ্য শেখার মূল্যায়ন করতে পারফরম্যান্স মেট্রিক্স


2

আপনি যা খুঁজছেন তা হ'ল একটি বিভাজক ক্লাস্টারিং অ্যালগরিদম।

সর্বাধিক সাধারণ অ্যালগরিদমগুলি হ'ল agglomerative, যা নিচের দিকে উপায়ে ক্লাস্টার করে - প্রতিটি পর্যবেক্ষণ তার নিজস্ব ক্লাস্টার হিসাবে শুরু হয় এবং ক্লাস্টারগুলি একত্রিত হয়ে যায়। বিভাজক ক্লাস্টারিং শীর্ষে ডাউন - পর্যবেক্ষণগুলি একটি ক্লাস্টারে শুরু হয় যা ধীরে ধীরে বিভক্ত হয়।

সিদ্ধান্ত গাছের মতো দেখতে আকাঙ্ক্ষা পছন্দগুলিকে সীমিত করে দেয় কারণ বেশিরভাগ অ্যালগরিদমগুলি একবারে একটি পরিবর্তনশীল বিভক্ত না করে সম্পূর্ণ ডেটা স্পেসের মধ্যে দূরত্বগুলিতে কাজ করে।

ডিআইএনএ হ'ল একমাত্র বিভাজনযুক্ত ক্লাস্টারিং অ্যালগরিদম যা আমি জানি এবং আমি মনে করি এটি সিদ্ধান্তের গাছের মতো কাঠামোযুক্ত। সেখানে অন্য কেউ না থাকলে আমি অবাক হয়ে যাব।

আপনি যদি কোনও বিভাজন নিয়মকে কোনও মেট্রিককে সংজ্ঞায়িত করেন যা কোনও সংজ্ঞায়িত নির্ভরশীল ভেরিয়েবল বিবেচনা করে না, তবে একটি ক্লাস্টার গুডনেস মেট্রিক ব্যবহার করে আপনি একটি স্ট্যান্ডার্ড ডিসিশন ট্রি অ্যালগরিদম ব্যবহার করতে পারেন।


0

বিবেচনা করার জন্য একটি ধারণা ধরা যাক আপনার কাছে কে বৈশিষ্ট্য এবং এন পয়েন্ট রয়েছে। আপনি নির্ভরশীল ভেরিয়েবল হিসাবে (কে -1) বৈশিষ্ট্য এবং 1 টি বৈশিষ্ট্য ব্যবহার করে এলোমেলো গাছ তৈরি করতে পারেন। ওয়াই আপনি একটি উচ্চতা h নির্বাচন করতে পারেন যার পরে আপনার শিকড়গুলিতে ডেটা পয়েন্ট থাকবে। আপনি বিভিন্ন ধরণের ভোট দিতে পারেন can শুধু একটি ভাবনা.

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.