ক্লাস্টার বিশ্লেষণে ভেরিয়েবলগুলিকে ওজন নির্ধারণ করুন


12

আমি আমার ক্লাস্টার বিশ্লেষণে ভেরিয়েবলগুলিকে বিভিন্ন ওজন নির্ধারণ করতে চাই, তবে আমার প্রোগ্রাম (স্টাটা) এর পক্ষে এর কোনও বিকল্প নেই বলে মনে হচ্ছে, তাই আমার নিজের হাতে এটি করা দরকার।

4, ভেরিয়েবল এ, বি, সি, ডি কল্পনা করুন those ভেরিয়েবলের ওজন হওয়া উচিত

w(A)=50%
w(B)=25%
w(C)=10%
w(D)=15%

আমি ভাবছি যে নিম্নলিখিত দুটি পদ্ধতির একটি আসলে কৌশলটি করবে কিনা:

  1. প্রথমে আমি সমস্ত ভেরিয়েবল মানক করে (যেমন তাদের পরিসর অনুসারে)। তারপরে আমি প্রতিটি মানক পরিবর্তনশীলকে তাদের ওজন দিয়ে গুণিত করি weight তারপরে গুচ্ছ বিশ্লেষণ করুন।
  2. আমি সমস্ত ভেরিয়েবলকে তাদের ওজন দিয়ে গুণিত করি এবং পরে তাদের মানক করি। তারপরে গুচ্ছ বিশ্লেষণ করুন।

না উভয় ধারণা সম্পূর্ণ বাজে?

[সম্পাদনা] ক্লাস্টারিং অ্যালগোরিদম (আমি 3 টি ভিন্ন চেষ্টা করি) আমি ব্যবহার করতে চাই তা হ'ল কে-মানে, ওজনযুক্ত-গড় লিঙ্কেজ এবং গড়-লিঙ্কেজ। আমি কে-মানেতে পরে প্লাগ ইন করে যাচ্ছি এমন একটি ভাল সংখ্যক ক্লাস্টার নির্ধারণ করতে আমি ওয়েট-গড় লিঙ্কেজ ব্যবহার করার পরিকল্পনা করছি।


1
দুটি উপায়ই সঠিক নয় not ভেরিয়েবলের গুণাগুণগুলি ক্লাস্টারিংয়ের জন্য ওজনীয় চলক গুরুত্বের সমতুল্য নয়। যদি প্রোগ্রামটির ওজন বিকল্প না থাকে আপনি কখনও কখনও আপনার ইচ্ছামতো ডেটা দিয়ে তা করতে পারেন - তবে এটি আপনার ক্লাস্টারিংয়ের প্রকৃতির উপর নির্ভর করে। সুতরাং, আপনার ক্লাস্টারিংয়ের বিবরণটি (আপনার প্রশ্নে) বর্ণনা করুন: আপনি কোন অ্যালগরিদম এবং পদ্ধতিটি ব্যবহার করছেন।
ttnphns

2
নোট করুন যে ওজন পরিবর্তনশীলগুলির সবচেয়ে সহজ এবং সর্বজনীন উপায় (এবং ওজনগুলি পূর্ণসংখ্যা বা পূর্ণসংখ্যক তৈরি করা যেতে পারে) কেবল সেই ওজনগুলির পরিবর্তনশীলগুলি প্রচার করতে পারে। আপনার উদাহরণস্বরূপ, আপনি আপনার ক্লাস্টারিংয়ে 50 হিসাবে, 25 বিএস, 10 সিসি, 15 ডিএস নিতে পারেন।
ttnphns

8
বা, বিকল্প: আপনি যদি ইউক্যালিডিয়ান পরিমাপের উপর ভিত্তি করে ক্লাস্টারিং ব্যবহার করেন বা আপনি কে-মাধ্যম ব্যবহার করেন, তবে প্রতিটি ভেরিয়েবলের ওজনের বর্গমূলের দ্বারা গুণন করুন। এই গুণটি অবশ্যই কোনও প্রাক-প্রক্রিয়াজাতকরণের পরে সম্পন্ন করা উচিত (যেমন মানককরণ ) আপনি ক্লাস্টারিংয়ের আগে করতে চান।
ttnphns

উত্তর:


7

কোনও পরিবর্তনশীলকে ওজন নির্ধারণের একটি উপায় হল এর স্কেল পরিবর্তন করা। কৌশলটি আপনি উল্লিখিত ক্লাস্টারিং অ্যালগরিদমগুলির জন্য কাজ করে, যেমন। কে-মানে, ওজনযুক্ত-গড় লিঙ্কেজ এবং গড়-লিঙ্কেজ।

কাউফম্যান, লিওনার্ড এবং পিটার জে রুসিউউ। " ডেটাতে গোষ্ঠী সন্ধান করা: গুচ্ছ বিশ্লেষণের একটি ভূমিকা ।" (2005) - পৃষ্ঠা 11:

পরিমাপ ইউনিটগুলির পছন্দ ভেরিয়েবলগুলির আপেক্ষিক ওজনকে বাড়িয়ে তোলে। ছোট ইউনিটগুলিতে ভেরিয়েবল প্রকাশ করা হলে সেই ভেরিয়েবলের জন্য বৃহত্তর পরিসীমা বাড়ে, যার ফলে ফলাফলের কাঠামোর উপর একটি বড় প্রভাব পড়বে। অন্যদিকে, উদ্দেশ্যপ্রণালী অর্জনের আশায়, সমস্ত পরিবর্তনশীলকে একটি সমান ওজন দেয়ার প্রয়াসকে মানক করে তোলা। এর মতো, এটি কোনও অনুশীলনকারী দ্বারা ব্যবহার করা যেতে পারে যার কোনও পূর্ব জ্ঞান নেই। তবে এটি ভালভাবে হতে পারে যে কোনও নির্দিষ্ট প্রয়োগের ক্ষেত্রে কিছু পরিবর্তনশীল অন্যদের চেয়ে অভ্যন্তরীণভাবে আরও বেশি গুরুত্বপূর্ণ এবং তারপরে ওজন নির্ধারণের বিষয়টি বিষয়বস্তু জ্ঞানের উপর ভিত্তি করে হওয়া উচিত (দেখুন, উদাহরণস্বরূপ, আব্রাহামোভিজ, 1985)।

অন্যদিকে, ক্লাস্টারিং কৌশলগুলি তৈরি করার চেষ্টা করা হয়েছে যা ভেরিয়েবলগুলির স্কেল থেকে পৃথক (ফ্রেডম্যান এবং রুবিন, 1967) of হার্ডি এবং রাসনের প্রস্তাব (1982) ক্লাস্টারগুলির উত্তল হালগুলির মোট পরিমাণকে হ্রাস করে এমন একটি পার্টিশন অনুসন্ধান করা। নীতিগতভাবে এই জাতীয় পদ্ধতিটি ডেটাগুলির রৈখিক রূপান্তরগুলির সাথে সম্পর্কিত, তবে দুর্ভাগ্যক্রমে এর বাস্তবায়নের জন্য কোনও অ্যালগরিদম বিদ্যমান নেই (দুটি মাত্রায় সীমাবদ্ধ এমন একটি আনুমানিক ব্যতীত)। সুতরাং, বর্তমানে মানকতার দ্বিধাটি অপরিহার্য বলে মনে হয় এবং এই বইয়ে বর্ণিত প্রোগ্রামগুলি ব্যবহারকারীকে পছন্দ হিসাবে ছেড়ে দেয়

আব্রাহামোইক্জ, এম। (1985), সাইকোমেট্রিক সোসাইটি এবং ক্লাসিফিকেশন সোসাইটির চতুর্থ ইউরোপীয় সভায় উপস্থাপিত কাগজ, অসামঞ্জস্যতা পরিমাপের জন্য অ-সংখ্যাসূচক একটি পোন তথ্য ব্যবহার, 2-5 জুলাই, কেমব্রিজ (ইউকে)।

ফ্রাইডম্যান, এইচপি, এবং রুবিন, জে। (1967), ডেটা গ্রুপিংয়ের জন্য কিছু আক্রমণাত্মক মানদণ্ডে। জে। আমের। পরিসংখ্যানবিৎ। এএসএসওসি 6।, 2, 1159-1178।

হার্ডি, এ। এবং রাসন, জেপি (1982), উনি নওভেল অ্যাপ্রোচ ডেস সমস্যাগুলি ডি শ্রেণিবিন্যাস অটোমেটিক, স্ট্যাটিস্ট। পায়ুসংক্রান্ত। ডোনিস, 7, 41-56।


1
আপনার প্রথম রেফারেন্সটি কোনওভাবে মিলেছে: লিওনার্ড কাউফম্যান এবং পিটার জে রুসিয়েউ আপনার লিঙ্ক করা বইটির লেখক of
নিক কক্স

ওহ , এটি দেখানোর জন্য ধন্যবাদ ... আমি ল্যাভয়েসিয়র দ্বারা বিভ্রান্ত হয়ে পড়েছিলাম, যা তাদের পৃষ্ঠায় "আউটস: সেল্ই গ্র্যান্ডভিল, রোসইইউডাব্লু পিটার জে" ভুল করেছে, যা ঘৃণ্যকারীকে ভ্রষ্ট করেছিল যা আমি রেফারেন্স পাওয়ার জন্য ব্যবহার করছিলাম।
ফ্রাঙ্ক ডারননকোর্ট

ধন্যবাদ @ ফ্র্যাঙ্কডারননকোর্ট! আমার প্রাথমিক প্রশ্নে যদি ভেরিয়েবলের স্কেল (এবং এভাবে পরিসর) তার ওজন নির্ধারণ করে তবে 1 এর কাছে যাবেন না?) কোনওভাবে সঠিক সমাধান হতে পারে?
এসপিআই

2
হ্যাঁ, পন্থা 1 হ'ল সঠিক and
মানককরণের ওজনগুলি
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.