উভয় পৃথক এবং অবিচ্ছিন্ন ভেরিয়েবল সহ একটি ডেটাসেট ক্লাস্টারিং


33

আমার একটি ডেটাসেট এক্স রয়েছে যার 10 টি মাত্রা রয়েছে যার মধ্যে 4 টি আলাদা মান। আসলে, এই 4 টি পৃথক ভেরিয়েবলগুলি অর্ডিনাল, অর্থাত্ একটি উচ্চতর মান উচ্চতর / আরও ভাল শব্দার্থ বোঝায়।

এই পৃথক ভেরিয়েবলগুলির মধ্যে 2 এই অর্থে শ্রেণিবদ্ধ যে এই প্রতিটি পরিবর্তকের জন্য, 11 থেকে 12 পর্যন্ত দূরত্ব 5 থেকে 6 এর দূরত্বের মতো নয় তবে উচ্চতর ভেরিয়েবলের মান বাস্তবে উচ্চতর বোঝায়, স্কেলটি হ'ল অগত্যা রৈখিক নয় (বাস্তবে এটি সংজ্ঞায়িত নয়)।

আমার প্রশ্নটি হ'ল:

  • এই ডেটাসেটে পৃথক এবং অবিচ্ছিন্ন ভেরিয়েবল উভয়ই রয়েছে এমন একটি সাধারণ ক্লাস্টারিং অ্যালগরিদম (উদাহরণস্বরূপ কে-মিনস এবং তারপরে গাউসিয়ান মিক্সচার (জিএমএম)) প্রয়োগ করা কি ভাল ধারণা?

যদি না:

  • আমার কি পৃথক ভেরিয়েবলগুলি সরিয়ে ফেলা উচিত এবং কেবল ধারাবাহিকের উপর ফোকাস করা উচিত?
  • আমি কি আরও অবিরতগুলিকে আরও ভালভাবে বিবেচনা করব এবং আলাদা ডেটার জন্য একটি ক্লাস্টারিং অ্যালগরিদম ব্যবহার করব?

3
আপনাকে একটি ভাল দূরত্বের পরিমাপটি খুঁজে বের করতে হবে (প্রায়শই ক্লাস্টারিংয়ের মধ্যে সবচেয়ে কঠিন কাজ): আপনি যদি এমন কোনও দূরত্ব পরিমাপ খুঁজে পেতে পারেন যা আপনার ডেটা আইটেমগুলির সাথে কতটা মিল (বা না) সঠিকভাবে এবং সঠিকভাবে বর্ণনা করে, তবে আপনার কোনও সমস্যা হবে না।
অ্যান্ড্রু

এই 2 টি স্পষ্টতাল ভেরিয়েবল সম্পর্কে আপনি কার্যকরভাবে এগুলিকে সাধারণ হিসাবে বর্ণনা করেছেন। এখন, বাকি 2 "অর্ডিনাল" ভেরিয়েবলগুলি সম্পর্কে কী? তারা কিভাবে তাদের থেকে আলাদা?
ttnphns

এগুলিও স্বতন্ত্র, তবে উভয়ের উভয়েরই একটি অর্থপূর্ণ দূরত্বের কার্য রয়েছে, অর্থাত্ তারা অন্তরভিত্তিক (যদি আমি অন্তর্বর্তী-ভিত্তিক সংজ্ঞাটি বিঘ্নিত না করি)।
ptikobj

উত্তর:


14

7

অতীতে আমাকে এই ধরণের সমস্যাটি মোকাবেলা করতে হয়েছিল এবং আমি মনে করি 2 টি আকর্ষণীয় উপায় থাকতে পারে:

  • ধারাবাহিকতা: পূর্ণসংখ্যার ক্রম সহ প্রতীকী বৈশিষ্ট্যগুলিকে রূপান্তর করুন। এটি করার বিভিন্ন উপায় রয়েছে, যা সমস্ত এই পত্রিকায় বর্ণিত । আপনি এনবিএফ, ভিডিএম এবং এমডিভি অ্যালগোরিদম চেষ্টা করতে পারেন।

  • বিবেচ্যতা: ধারাবাহিক গুণাবলীকে প্রতীকী মানগুলিতে রূপান্তর করুন। আবার অনেক অ্যালগরিদম এবং এই সম্পর্কে একটি ভাল বক্তৃতাটি এই নিবন্ধটি হবে । আমি বিশ্বাস করি যে সর্বাধিক ব্যবহৃত পদ্ধতি হোল্টের 1 আর, তবে নিশ্চিতভাবে জানার সর্বোত্তম উপায় হ'ল ইডাব্লুডি, ইএফডি, আইডি, এলডি বা এনডিডি-এর মতো অ্যালগরিদমের বিরুদ্ধে আরওসি বক্ররেখার দিকে নজর দেওয়া।

আপনার একই বৈশিষ্ট্যে একবারে আপনার সমস্ত বৈশিষ্ট্য উপস্থিত হয়ে গেলে এটি স্বাভাবিক ক্লাস্টারিং সমস্যায় পরিণত হয়।

ধারাবাহিকতা বা বিচক্ষণতার মধ্যে নির্বাচন করা আপনার ডেটাসেট এবং আপনার বৈশিষ্ট্যগুলি দেখতে কেমন তার উপর নির্ভর করে, তাই বলা বাহুল্য, তবে আমি আপনাকে সেই বিষয়ে যে নিবন্ধগুলি দিয়েছি তা পড়তে পরামর্শ দিচ্ছি।


4

কে-মানে স্পষ্টত কোনও অর্থবোধ করে না, কারণ এটির গণনা মানে (যা অযৌক্তিক)। একই GMM জন্য যায়।

আপনি দূরত্ব ভিত্তিক ক্লাস্টারিং অ্যালগরিদমগুলি যথাযথ দূরত্ব ফাংশন সহ চেষ্টা করতে চাইতে পারেন, উদাহরণস্বরূপ DBSCAN।

মূল চ্যালেঞ্জটি হ'ল দূরত্বের ফাংশন সন্ধান করা!

আপনি কে-ইমেজে একটি আলাদা দূরত্বের ফাংশন রাখতে পারলেও এটি এখনও সেই গড়টি গণনা করবে যা সম্ভবত খুব বেশি অর্থবোধ করে না (এবং সম্ভবত পৃথক মানগুলির জন্য একটি দূরত্বের ক্রিয়াটি মেসেজ করে)।

যাইহোক, প্রথমে "অনুরূপ" কী তা নির্ধারণের দিকে মনোনিবেশ করুন । তারপরে গুচ্ছ এই সংজ্ঞা ব্যবহার করে!


2

আপনি যদি মাপের দূরত্বের ম্যাট্রিক্সের সাথে কাজ করতে স্বাচ্ছন্দ্য বোধ করেন তবে আপনিও এটি num_of_samples x num_of_samplesব্যবহার করতে পারেন random forests

শিরোনামে একটি রেফারেন্স পেপারের জন্য এখানে ক্লিক করুনUnsupervised learning with random forest predictors

ধারণাটি shufflingমূল ডেটাসেটে মান অনুসারে একটি সিন্থেটিক ডেটাसेट তৈরি করছে এবং উভয়কে আলাদা করার জন্য একটি শ্রেণিবদ্ধকারীকে প্রশিক্ষণ দিচ্ছে। শ্রেণিবিন্যাসের সময় আপনি একটি পাবেন inter-sample distance matrix, যার উপরে আপনি আপনার প্রিয় ক্লাস্টারিং অ্যালগরিদম পরীক্ষা করতে পারেন।


-2

গ্রহণযোগ্য মিশ্র পদ্ধতি: 1) 2 শ্রেণিতে বিভক্ত ডেটা শ্রেণীবদ্ধ করার জন্য শ্রেণিবদ্ধকরণ কৌশল (সি 4.5 সিদ্ধান্ত ট্রি) ব্যবহার করুন। 2) এটি শেষ হয়ে গেলে, স্পষ্টতাল ভেরিয়েবলগুলি ছেড়ে দিন এবং ক্লাস্টারিংয়ের জন্য অবিচ্ছিন্ন ভেরিয়েবলগুলি নিয়ে এগিয়ে যান।


আমি আপনার পরামর্শ অনুসরণ করতে পারে না। কোন দুটি ক্লাস, এবং এটি কীভাবে সহায়তা করবে?
কার্তিক এস

আমি মনে করি স্বপ্নিল সোনির যা বলা দরকার তা হ'ল একবার আমরা শ্রেণিবিন্যাস কৌশলটি এটি দুটি শ্রেণিতে শ্রেণিবদ্ধ করার জন্য ব্যবহার করি। তারপরে আমরা বাইনারি ভেরিয়েবল হিসাবে শ্রেণিবদ্ধকরণ আউটপুট লেবেলটি ব্যবহার করতে পারি। সুতরাং সমস্ত শ্রেণিবদ্ধ ভেরিয়েবলের পরিবর্তে আপনি একটি সূচক বাইনারি ভেরিয়েবল পান এবং তারপরে আপনার ক্লাস্টারিং অ্যালগরিদম ডেটা (সমস্ত ধ্রুবক প্লাস 1 বাইনারি ভেরিয়েবল সমন্বিত) সহ এগিয়ে যেতে পারে। আমার ব্যাখ্যা যদিও ভুল হতে পারে।
তুষারশার

পুরোপুরি ঠিক আছে!
স্বপ্নিল সনি
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.