কম সিলুয়েটের প্রস্থের অর্থ কি ডেটাটির অন্তর্নিহিত কাঠামো খুব কম?


10

আমি সিকোয়েন্স বিশ্লেষণে নতুন, এবং আমি ভাবছিলাম যে সর্বোত্তম ম্যাচিং-ভিত্তিক ভিন্নতা ম্যাট্রিকগুলির ক্লাস্টার বিশ্লেষণগুলি থেকে গড় সিলুয়েট প্রস্থগুলি (এএসডাব্লু) কম হলে (প্রায় 25)) এই সিদ্ধান্তটি গ্রহণ করা কি যথাযথ বলে মনে হচ্ছে যে এখানে সামান্য অন্তর্নিহিত কাঠামো রয়েছে যা অনুক্রমগুলি ক্লাস্টার করার অনুমতি দেয়? গুচ্ছ মানের অন্যান্য ব্যবস্থা (আমি নীচে কিছু পেস্ট করেছি) এর উপর ভিত্তি করে আপনি কি নিম্ন এএসডাব্লু অবহেলা করতে পারেন? অথবা এটি সম্ভবত সিকোয়েন্স বিশ্লেষণ বা পরবর্তী ক্লাস্টার বিশ্লেষণের সময় করা পছন্দগুলি কম ASW সংখ্যার জন্য দায়ী হতে পারে?

কোন পরামর্শ প্রশংসা হবে। ধন্যবাদ।

আরও প্রসঙ্গে প্রয়োজন হলে:

আমি তাদের 20 এর দশকের লোকদের মধ্যে কাজের ঘন্টাের অমিলের (6 উদাহরণস্বরূপ, একজন ব্যক্তি একটি সপ্তাহে কত ঘন্টা কাজ করতে পছন্দ করে এবং কত ঘন্টা তারা বাস্তবে কাজ করে) এর মধ্যে মেলে না of এর সিকোয়েন্সগুলি পরীক্ষা করে দেখছি। আমি যে সমস্ত অনুক্রমের পরীক্ষা নিরীক্ষা করছি তার দৈর্ঘ্য 10 হবে। আমার সিকোয়েন্স অবজেক্টের পাঁচটি স্টেট রয়েছে (এম = আরও ঘন্টা চায়, এস = একই ঘন্টা চায়, এফ = কম ঘন্টা চায়, ও = শ্রমশক্তি থেকে বাইরে, এবং ইউ = বেকার )।

এএসডাব্লু ফলাফলগুলি বিভিন্ন পদ্ধতির বিভিন্ন সংমিশ্রণের সাথে কীভাবে পরিবর্তিত হয় তার একটি পদ্ধতিগত অ্যাকাউন্টিং আমি করিনি। তবুও, আমি স্বল্প ও মাঝারি ইনডেল ব্যয় (সর্বাধিক প্রতিস্থাপন ব্যয়ের .1 এবং .6 - আমি তাদের সময়ের চেয়ে ইভেন্টের ক্রম সম্পর্কে বেশি যত্নশীল) এবং বিভিন্ন ক্লাস্টারিং পদ্ধতি (ওয়ার্ড, গড় এবং পাম) চেষ্টা করেছি। আমার সামগ্রিক ধারণাটি হ'ল ASW সংখ্যা কম থাকে।

সম্ভবত কম এএসডব্লিউ ফলাফলগুলি বোঝায়। আমি আশা করব যে এই রাজ্যগুলি বিভিন্ন রকম অর্ডারে আসে এবং রাজ্যগুলি পুনরাবৃত্তি করতে পারে। সদৃশ পর্যবেক্ষণগুলি সরানো কেবলমাত্র এনকে 624 থেকে 536 এর মধ্যে কমিয়ে দেয় the মিল নেই এবং মিল নেই এবং না মিলিয়ে পেছনে পিছনে ফেলেছে। সম্ভবত স্পষ্টত আলাদা আলাদা ক্লাস্টারের অভাব আকর্ষণীয় পরিবর্তনের অভাব হিসাবে একই জিনিস নয়। তবুও, দুর্বল ক্লাস্টারের ফলাফলগুলি ক্রমগুলি সংক্ষিপ্ত করার জন্য দুর্দান্ত উপায় ছাড়াই আমাকে ছেড়ে চলেছে বলে মনে হচ্ছে।

ইনডেল সহ ওয়ার্ডের পদ্ধতি থেকে প্রাপ্ত ফলাফলগুলি 2 প্রতিস্থাপন ব্যয়ের 1 .1 সেট করে এই পরিসংখ্যানগুলিতে 6 টি ক্লাস্টারের সমাধানটি ভাল হতে পারে বলে মনে হয়। যদিও এএসডাব্লু কম - কমপক্ষে সমাধানগুলির জন্য যার যুক্তিসঙ্গত সংখ্যক ক্লাস্টার রয়েছে (2 বা 3 খুব কম)।

           PBC   HG HGSD  ASW ASWw     CH   R2   CHsq R2sq   HC
cluster2  0.56 0.78 0.75 0.38 0.38 110.76 0.15 241.65 0.28 0.14
cluster3  0.51 0.68 0.65 0.27 0.27 108.10 0.26 237.60 0.43 0.17
cluster4  0.54 0.74 0.71 0.25 0.25  88.66 0.30 203.72 0.50 0.14
cluster5  0.59 0.83 0.79 0.25 0.25  75.85 0.33 183.21 0.54 0.09
cluster6  0.59 0.85 0.82 0.24 0.25  66.94 0.35 164.51 0.57 0.08
cluster7  0.47 0.79 0.75 0.18 0.19  64.09 0.38 154.47 0.60 0.12
cluster8  0.47 0.81 0.77 0.20 0.21  59.47 0.40 152.36 0.63 0.11
cluster9  0.48 0.84 0.80 0.19 0.21  56.68 0.42 147.83 0.66 0.10
cluster10 0.47 0.86 0.82 0.19 0.21  53.24 0.44 140.18 0.67 0.08

উত্তর:


11

এএসডাব্লু হ'ল ক্লাস্টারিং সলিউশনের সংহততার একটি পরিমাপ। একটি উচ্চ এএসডাব্লু মান বলতে বোঝায় যে ক্লাস্টারগুলি একজাতীয় (সমস্ত পর্যবেক্ষণ ক্লাস্টার কেন্দ্রের কাছাকাছি), এবং এগুলি ভালভাবে পৃথক করা হয়েছে। কাউফম্যান এবং রুসউউ (1990) এর মতে, 0.25 এর নীচের মানটির অর্থ হল ডেটাটি কাঠামোগত নয়। 0.25 এবং 0.5 এর মধ্যে, ডেটা কাঠামোযুক্ত হতে পারে তবে এটি একটি শৈল্পিকও হতে পারে। দয়া করে মনে রাখবেন যে এই মানগুলি নির্দেশক এবং কোনও সিদ্ধান্তের দ্বার হিসাবে ব্যবহার করা উচিত নয়। এই মানগুলি তাত্ত্বিকভাবে সংজ্ঞায়িত করা হয়নি (কিছু পি-মানের উপর ভিত্তি করে নেই) তবে এটি লেখকের অভিজ্ঞতার ভিত্তিতে। অতএব, এই নিম্ন ASW মান অনুসারে, আপনার ডেটাটি বেশ কাঠামোগত বলে মনে হচ্ছে। যদি ক্লাস্টার বিশ্লেষণের উদ্দেশ্যটি কেবল বর্ণনামূলক হয় তবে আপনি যুক্তি দিতে পারেন যে এটি কিছু (তবে কিছু কিছু) অত্যন্ত সুনির্দিষ্ট নিদর্শন প্রকাশ করে। যাহোক,

আপনি "প্রতি ক্লাস্টার" এএসডাব্লু মানগুলি দেখার চেষ্টা করতে পারেন (এটি ফাংশন দ্বারা দেওয়া হয়েছে wcClusterQuality)। হতে পারে আপনার কিছু ক্লাস্টারগুলি সু-সংজ্ঞায়িত এবং কিছু "উত্সাহী" (এএসডাব্লু <0) হতে পারে, যার ফলে সামগ্রিকভাবে এএসডাব্লু মান কম থাকে।

আপনি বুটস্ট্র্যাপ কৌশলগুলি ব্যবহার করার চেষ্টা করতে পারেন, যা আপনাকে আরও ভাল ইঙ্গিত দেয়। আর-তে, clusterbootপ্যাকেজটির ফাংশনটি fpcএই উদ্দেশ্যে ব্যবহার করা যেতে পারে (সহায়তা পৃষ্ঠায় দেখুন)। তবে এটি ওজনযুক্ত ডেটা নিয়ে কাজ করে না। যদি আপনার ডেটা অপ্রত্যাশিত হয় তবে আমি মনে করি এটি চেষ্টা করে দেখার উপযুক্ত।

অবশেষে, আপনি আপনার ডেটা এবং আপনার শ্রেণিবিন্যাসের দিকে আরও ঘনিষ্ঠভাবে নজর রাখতে চাইতে পারেন। হতে পারে, আপনার বিভাগগুলি খুব অস্থির বা ভাল সংজ্ঞাযুক্ত নয়। তবে এখানে বিষয়টি মনে হয় না।

যেমনটি আপনি বলেছেন, "স্পষ্টত আলাদা আলাদা ক্লাস্টারের অভাব আকর্ষণীয় প্রকরণের অভাব হিসাবে একই জিনিস নয়"। আপনার ক্রমগুলির পরিবর্তনশীলতা যেমন বৈষম্য বিশ্লেষণ বিশ্লেষণের অন্যান্য পদ্ধতি রয়েছে। এই পদ্ধতিগুলি আপনাকে ক্রম এবং ব্যাখ্যামূলক কারণগুলির মধ্যে লিঙ্কগুলি অধ্যয়ন করতে দেয়। আপনি উদাহরণস্বরূপ, সিকোয়েন্স রিগ্রেশন ট্রি (প্যাকেজ ট্রামাইনআরে "সেক্ট্রিট্রি") তৈরি করার চেষ্টা করতে পারেন।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.