আমার ডেটাসেটে আমাদের দুটি ধারাবাহিক এবং প্রাকৃতিকভাবে পৃথক পৃথক ভেরিয়েবল রয়েছে। আমি জানতে চাই যে আমরা উভয় প্রকারের ভেরিয়েবল ব্যবহার করে শ্রেণিবদ্ধ ক্লাস্টারিং করতে পারি কিনা। এবং যদি হ্যাঁ, তবে কোন দূরত্ব পরিমাপ উপযুক্ত?
আমার ডেটাসেটে আমাদের দুটি ধারাবাহিক এবং প্রাকৃতিকভাবে পৃথক পৃথক ভেরিয়েবল রয়েছে। আমি জানতে চাই যে আমরা উভয় প্রকারের ভেরিয়েবল ব্যবহার করে শ্রেণিবদ্ধ ক্লাস্টারিং করতে পারি কিনা। এবং যদি হ্যাঁ, তবে কোন দূরত্ব পরিমাপ উপযুক্ত?
উত্তর:
একটি উপায় হ'ল গওয়ার সমতা সহগ ব্যবহার করা যা একটি যৌগিক পরিমাপ 1 ; এটি পরিমাণগত (যেমন রেটিং স্কেল), বাইনারি (যেমন বর্তমান / অনুপস্থিত) এবং নামমাত্র (যেমন কর্মী / শিক্ষক / কেরানি) পরিবর্তনশীল লাগে। পরবর্তীতে পোদানি 2 পাশাপাশি সাধারণ ভেরিয়েবলগুলি গ্রহণের জন্য একটি বিকল্প যুক্ত করেছে।
সূত্র ছাড়াও সহগ সহজেই বোঝা যায়; আপনি প্রতিটি ভেরিয়েবল দ্বারা ব্যক্তির মধ্যে সাদৃশ্য মানটি গণনা করে ভেরিয়েবলের ধরণটিকে বিবেচনায় আনেন এবং তারপরে গড়গুলি সমস্ত ভেরিয়েবল জুড়ে গড়ে তুলুন। সাধারণত, গওয়ারের গণনা করা একটি প্রোগ্রাম আপনাকে যৌগিক সূত্রে ভেরিয়েবল, অর্থাৎ তাদের অবদানের ওজন দিতে দেয়। তবে বিভিন্ন ধরণের ভেরিয়েবলের যথাযথ ওজন একটি সমস্যা , কোনও পরিষ্কার-নির্দেশিকা নির্দেশ নেই, যা গাওয়ার বা অন্যান্য "সম্মিলিত" সূচকগুলির নিকটবর্তী হওয়ার সূচকগুলিকে তৈরি করে।
উত্পাদক মিল ( ) এর দিকগুলি :
(প্রকারের তালিকাটি প্রসারিত করা সহজ example উদাহরণস্বরূপ, সাধারণ গতিযুক্ত চি-স্কোয়ার্ড দূরত্বকে একইরূপে রূপান্তরিত করে কাউন্ট ভেরিয়েবলের যোগফল যোগ করতে পারে))
সহগ 0 এবং 1 এর মধ্যে রয়েছে।
ইউক্লিডিয়ান দূরত্ব (ইউক্লিডিয়ান স্পেসকে সমর্থনকারী দূরত্বগুলি) সহ কার্যত কোনও ক্লাসিক ক্লাস্টারিং কৌশলটি করবে। কে- মানেগুলি সহ (যদি আপনার কে-মানে প্রোগ্রাম অবশ্যই দূরত্বের ম্যাট্রিকগুলি প্রসেস করতে পারে) এবং ওয়ার্ডস, সেন্ট্রয়েড, হায়ারারিকাল ক্লাস্টারিংয়ের মাঝারি পদ্ধতিগুলি সহ । ন-ইউক্লিডিয়ান সহ ইউক্লিডিয়ান দূরত্বের ভিত্তিতে কে-মানে বা অন্যান্য পদ্ধতিগুলি ব্যবহার করা এখনও মেট্রিক দূরত্ব হ'ল হিউরিস্টিকভাবে মান্যযোগ্য, সম্ভবত। অ-মেট্রিক দূরত্ব সহ, এই জাতীয় কোনও পদ্ধতি ব্যবহার করা যাবে না।
অথবা যদি কে-উপায় বা ওয়ার্ড এর বা এই ধরনের ক্লাস্টারিং বৈধ সম্পর্কে পূর্ববর্তী অনুচ্ছেদ আলোচনা না গাওয়ার দূরত্ব সঙ্গে গাণিতিকভাবে (জ্যামিতিক)। থেকে পরিমাপ মাপের ( "সাইকোমেট্রিক") দৃশ্য এক বিন্দু কোনো নিঃশর্ত এটা থেকে গড় বা ইউক্লিডিয় দূরবর্তী ডেভিয়েশন (নামমাত্র, বাইনারি, সেইসাথে পূরণবাচক) ডেটা গনা করা উচিত নয়; অতএব এই অবস্থান থেকে আপনি কে-ইনস, ওয়ার্ড ইত্যাদি দ্বারা উত্পাদক সহগের প্রক্রিয়াজাত করতে পারবেন না view এই দৃষ্টিভঙ্গি সতর্ক করে যে কোনও ইউক্যালিডিয়ান স্থান উপস্থিত থাকলেও এটি দানাদার হতে পারে, মসৃণ নয় ( সম্পর্কিত দেখুন )।
আপনি যদি এই প্রশ্নটিতে হোঁচট খেয়ে থাকেন এবং ভাবছেন যে আর-তে গওয়ার মেট্রিক ব্যবহারের জন্য কোন প্যাকেজটি ডাউনলোড করবেন , cluster
প্যাকেজে ডেইজি () নামে একটি ফাংশন রয়েছে যা মিক্সড ধরণের ভেরিয়েবল ব্যবহার করার সময় ডিফল্টরূপে গওয়ারের মেট্রিক ব্যবহার করে। অথবা আপনি এটি ম্যানুয়ালি গওয়ারের মেট্রিক ব্যবহার করতে সেট করতে পারেন।
daisy(x, metric = c("euclidean", "manhattan", "gower"),
stand = FALSE, type = list(), weights = rep.int(1, p))
StatMatch
।