আর-তে মিশ্র ডেটার জন্য শক্তসমর্থ ক্লাস্টার পদ্ধতি


12

আমি একটি ছোট ডেটা সেট ক্লাস্টার করতে দেখছি (4 ইন্টারভাল ভেরিয়েবলের 64 টি পর্যবেক্ষণ এবং একটি একক তিন-গুণক শ্রেণিবদ্ধ ভেরিয়েবল)। এখন, আমি ক্লাস্টার বিশ্লেষণে বেশ নতুন, তবে আমি জানি যে দিনগুলি থেকে ক্রমবর্ধমান ক্লাস্টারিং বা কে-মানে একমাত্র উপলভ্য বিকল্প ছিল since বিশেষত, দেখে মনে হয় যে মডেল ভিত্তিক ক্লাস্টারিংয়ের নতুন পদ্ধতিগুলি উপলব্ধ যেগুলি chl দ্বারা নির্দেশিত হিসাবে , "ক্লাস্টার বা শ্রেণীর সংখ্যা সম্পর্কে সিদ্ধান্ত নিতে" সদল্য-বুদ্ধিমান সূচকগুলি "সক্ষম করে।

তবে মডেল ভিত্তিক ক্লাস্টারিংয়ের জন্য স্ট্যান্ডার্ড আর প্যাকেজটি mclustদৃশ্যত মিশ্র ডেটা ধরণের মডেলগুলিতে ফিট করে না। fpcমডেল হবে, কিন্তু কষ্ট একটি মডেল ঝুলানো আছে, আমি ক্রমাগত ভেরিয়েবল অ গসিয়ান প্রকৃতির কারণে সন্দেহ। আমার কি মডেল-ভিত্তিক পদ্ধতির সাথে চালিয়ে যাওয়া উচিত? আমি সম্ভব হলে আর ব্যবহার চালিয়ে যেতে চাই। আমি এটি দেখতে হিসাবে আমার কাছে কয়েকটি বিকল্প রয়েছে:

  1. তিন স্তরের শ্রেণিবদ্ধ ভেরিয়েবলকে দুটি ডামি ভেরিয়েবলে রূপান্তর করুন এবং ব্যবহার করুন mclust। আমি নিশ্চিত না যে এটি ফলাফলগুলিকে পক্ষপাতিত্ব করবে কিনা, তবে তা না হলে এটি আমার পছন্দসই বিকল্প।
  2. অবিচ্ছিন্ন ভেরিয়েবলগুলি কোনওভাবে রূপান্তর করুন এবং fpcপ্যাকেজটি ব্যবহার করুন ।
  3. আমি এখনও মুখোমুখি হইনি এমন আরও কিছু আর প্যাকেজ ব্যবহার করুন।
  4. গওয়ারের পরিমাপ ব্যবহার করে একটি ভিন্নতা ম্যাট্রিক্স তৈরি করুন এবং traditionalতিহ্যগত শ্রেণিবিন্যাস বা স্থানান্তরকরণ ক্লাস্টার কৌশলগুলি ব্যবহার করুন।

Stats.se hivemind এখানে কোন পরামর্শ আছে?


আপনার শ্রেণিবদ্ধ তথ্যকে ডামি কোডেড (একটি হট এনকোডযুক্ত) এ রূপান্তর করতে আপনি dummy.data.frame ফাংশন ব্যবহার করতে পারেন। ইনপুট হিসাবে, আপনি আপনার মিশ্র ডেটা দিতে পারেন এবং আউটপুট হিসাবে এটি কেবল শ্রেণিবদ্ধগুলিকে এনকোড করে।
নাঘমেহে

উত্তর:


7

আমি আপনাকে পরবর্তী স্তরের শ্রেণিবিন্যাসের সাথে গাওয়ার ব্যবহার করার পরামর্শ দিচ্ছি । হায়ারারিকিকাল ক্লাস্টারিং অল্প সংখ্যক অবজেক্টের ক্ষেত্রে (যেমন 64৪) ক্ষেত্রে সবচেয়ে নমনীয় এবং উপযুক্ত পদ্ধতি থেকে যায়। যদি আপনার শ্রেণিবদ্ধ ভেরিয়েবল নামমাত্র হয় তবে গওয়ার তাদের অভ্যন্তরীণভাবে এটিকে ডামি ভেরিয়েবল এবং বেস ডাইস মিল (গওয়ারের অংশ হিসাবে) এ পুনরায় পুনঃনির্মাণ করবে। আপনার পরিবর্তনশীল যদি নিয়মিত হয় তবে আপনার জানা উচিত যে গাওয়ার সহগের সর্বশেষতম সংস্করণ এটিও সামঞ্জস্য করতে পারে।

"সেরা" ক্লাস্টারের সংখ্যা নির্ধারণ করতে অসংখ্য সূচক হিসাবে, তাদের বেশিরভাগই এই বা সেই ক্লাস্টারিং অ্যালগরিদম থেকে স্বতন্ত্রভাবে বিদ্যমান। আপনার ক্লাস্টারিং প্যাকেজগুলির সন্ধান করার দরকার নেই যা প্রয়োজনীয় সূচকগুলি অন্তর্ভুক্ত করে কারণ পরবর্তী প্যাকেজ হিসাবে উপস্থিত থাকতে পারে। আপনি একটি ক্লাস্টারিং প্যাকেজ পরে ক্লাস্টার সমাধানের একটি পরিসীমা ছেড়ে যান এবং তারপরে অন্য প্যাকেজ থেকে সূচী দ্বারা সেগুলি তুলনা করুন।


টিপটির জন্য ধন্যবাদ, আমি এই পথে নামা শেষ করেছি।
fmark
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.