ক্লাস্টার বিশ্লেষণের জন্য পরিবর্তনীয় নির্বাচন করতে আমি পিসিএ ব্যবহার করতে পারি?


12

গুচ্ছ বিশ্লেষণ পরিচালনা করতে আমাকে ভেরিয়েবলের সংখ্যা হ্রাস করতে হবে। আমার ভেরিয়েবলগুলি দৃ corre়ভাবে সম্পর্কিত, তাই আমি একটি ফ্যাক্টর বিশ্লেষণ পিসিএ (মূল উপাদান বিশ্লেষণ) করার চিন্তা করলাম । তবে, আমি যদি ফলাফল প্রাপ্ত স্কোরগুলি ব্যবহার করি তবে আমার ক্লাস্টারগুলি বেশ সঠিক নয় (সাহিত্যের পূর্ববর্তী শ্রেণিবিন্যাসের তুলনায়)।

প্রশ্ন:

প্রতিটি উপাদান / ফ্যাক্টরের জন্য সবচেয়ে বড় লোড সহ ভেরিয়েবলগুলি নির্বাচন করতে এবং আমার ক্লাস্টারিংয়ের জন্য কেবল এই ভেরিয়েবলগুলি ব্যবহার করতে কি আমি ঘূর্ণন ম্যাট্রিক্সটি ব্যবহার করতে পারি?

যে কোনও গ্রন্থপঞ্জি উল্লেখগুলি সহায়ক হবে।

হালনাগাদ:

কিছু স্পষ্টতা:

  • আমার লক্ষ্য: এসপিএসএসের দ্বি-পদক্ষেপ অ্যালগরিদম সহ আমাকে একটি ক্লাস্টার বিশ্লেষণ চালাতে হবে, তবে আমার পরিবর্তনগুলি স্বতন্ত্র নয়, তাই আমি তাদের কয়েকটি ত্যাগের বিষয়ে চিন্তা করেছি।

  • আমার ডেটাসেট: আমি 100,000 কেসের 15 স্কেলার পরামিতিগুলিতে (আমার ভেরিয়েবল) কাজ করছি। কিছু ভেরিয়েবল দৃ strongly়ভাবে সম্পর্কিত হয় ( পিয়ারসন)>0.9

  • আমার সন্দেহ: যেহেতু আমার কেবল স্বাধীন ভেরিয়েবলগুলি দরকার, তাই আমি একটি প্রধান অধ্যায় বিশ্লেষণ চালানোর চিন্তা করলাম (দুঃখিত: আমি ভুলভাবে আমার মূল প্রশ্নে ফ্যাক্টর বিশ্লেষণ সম্পর্কে কথা বললাম) এবং প্রতিটি উপাদানগুলির জন্য সবচেয়ে বড় লোডিংয়ের সাথে কেবলমাত্র ভেরিয়েবলগুলি নির্বাচন করি। আমি জানি যে পিসিএ প্রক্রিয়াটি কিছু স্বেচ্ছাচারিত পদক্ষেপ উপস্থাপন করে তবে আমি জানতে পেরেছিলাম যে এই নির্বাচনটি আসলে আইটি জোলিফের প্রস্তাবিত " পদ্ধতি বি 4 " এর অনুরূপ (1972 এবং 2002) ভেরিয়েবলগুলি নির্বাচন করতে এবং জেআর কিং এবং ডিএ জ্যাকসন দ্বারা প্রস্তাবিত 1999 সালে ।

    সুতরাং আমি এইভাবে কিছু নির্বাচন করতে চাইছিলাম স্বাধীন ভেরিয়েবলের উপ-গ্রুপ। তারপরে আমি গ্রুপগুলি বিভিন্ন ক্লাস্টার বিশ্লেষণ চালানোর জন্য ব্যবহার করব এবং আমি ফলাফলগুলি তুলনা করব।


1
আপনি যদি সঠিক উত্তরটি জানেন তবে বিশ্লেষণটি কেন মোটেও?
স্টাসকে

1
অন্য নোটে, আপনি কেন ক্লাস্টার বিশ্লেষণের জন্য ভেরিয়েবলের সংখ্যা হ্রাস করতে হবে বলে মনে করেন? আমি মনে করি না যে ক্লাস্টার বিশ্লেষণের আধুনিক সরঞ্জামগুলির কোনওটিরই ইনপুট ভেরিয়েবলগুলির সংখ্যা সম্পর্কে কোনও সীমাবদ্ধতা রয়েছে। অবশ্যই আপনার যদি 120 টি আইটেম পরীক্ষা করে থাকে তবে জিনিসগুলি এতে জটিল হবে।
স্টাসকে


আমার কাছে মনে হয় এই Q এর ক্লাস্টার বিশ্লেষণের দিকটি যুক্ত করা এটিকে খোলার জন্য যথেষ্ট আলাদা করে তোলে।
গুং - মনিকা পুনরায়

আপনি আমার চেয়ে সদৃশগুলিতে আরও কঠোর মানদণ্ড প্রয়োগ করেছেন বলে মনে হয়, @ গ্যাং; সম্ভবত আপনি ঠিক বলেছেন (এবং ভোটদানটি এটির ক্ষেত্রেও ভাল যায় না)। তবে, এই বিশেষ ক্ষেত্রে ওপিটি আমার প্রস্তাবিত থ্রেডে আচ্ছাদিত সহজতম পিসিএ-ভিত্তিক বৈশিষ্ট্য নির্বাচন (যা তার আপডেটে স্পষ্ট করা হয়েছে) সম্পর্কে জিজ্ঞাসা করছিল। অন্যদিকে, স্টাসক এখানে একটি আকর্ষণীয় উত্তর পোস্ট করেছেন যা বিশেষত গুচ্ছবৃত্তির বিষয়ে ...
অ্যামিবা বলেছেন মনিকা

উত্তর:


7

আমি, আমার রীতি অনুসারে, একধাপ পিছনে নেব এবং আপনি ঠিক কী করার চেষ্টা করছেন তা জিজ্ঞাসা করব। ফ্যাক্টর বিশ্লেষণ সুপ্ত পরিবর্তনশীলগুলি সন্ধানের জন্য ডিজাইন করা হয়েছে। আপনি যদি সুপ্ত পরিবর্তনশীলগুলি খুঁজে পেতে এবং সেগুলি ক্লাস্টার করতে চান তবে আপনি যা করছেন তা সঠিক। তবে আপনি বলছেন যে আপনি কেবল ভেরিয়েবলের সংখ্যা হ্রাস করতে চান - এটি পরিবর্তে মূল উপাদান বিশ্লেষণের পরামর্শ দেয়।

তবে, এর যে কোনও একটির সাথে আপনাকে নতুন ভেরিয়েবলগুলির উপর ক্লাস্টার বিশ্লেষণের ব্যাখ্যা করতে হবে এবং new নতুন ভেরিয়েবলগুলি কেবল পুরানোগুলির ভারসাম্য পরিমাণ।

আপনি কতগুলি ভেরিয়েবল পেয়েছেন? এগুলি কীভাবে সম্পর্কযুক্ত? যদি এখানে অনেক বেশি থাকে এবং এগুলি খুব দৃ strongly়ভাবে সম্পর্কিত হয় তবে আপনি কিছু খুব উচ্চ সংখ্যার সাথে সমস্ত সম্পর্কগুলি সন্ধান করতে পারেন এবং এলোমেলোভাবে প্রতিটি জোড়া থেকে একটি পরিবর্তনশীল মুছতে পারেন। এটি ভেরিয়েবলের সংখ্যা হ্রাস করে এবং ভেরিয়েবলগুলি যেমন রয়েছে তেমনই ফেলে দেয়।

আমাকে আদৌ এটি করার প্রয়োজনীয়তা সম্পর্কে @ স্ট্যাসকে, এবং @ রোল্যান্ডো 2 এর পূর্বে যা পাওয়া গেছে তার থেকে আলাদা কিছু খুঁজে পাওয়ার উপযোগিতা সম্পর্কেও প্রতিধ্বনিত করা যাক। গ্রেড স্কুলে আমার প্রিয় অধ্যাপক হিসাবে বলতেন "আপনি যদি অবাক না হন তবে আপনি কিছুই শিখেননি"।


1
প্রথমত, আমি দুঃখিত: আমি আসলে একটি প্রিন্টিক উপাদান বিশ্লেষণ উল্লেখ করছি, ফ্যাক্টর বিশ্লেষণকে নয়, আমার ভুল। তদ্ব্যতীত, আমি নির্ধারণ করি যে নির্বিচারে ডাইনী সহকর্মী ভেরিয়েবল আমি রাখব না তা নির্বাচন করার উপায় খুঁজে পেয়েছি। আমি উপরের সমস্যাটি সম্পর্কে আরও তথ্য যুক্ত করছি .. আবার আপনাকে ধন্যবাদ
এন।

5

কাঠামোগত সমীকরণ মিশ্রণ মডেলগুলির মাধ্যমে একই সময়ে ফ্যাক্টর বিশ্লেষণ এবং ক্লাস্টার বিশ্লেষণ করার একটি উপায়। এই মডেলগুলিতে, আপনি পোষ্ট করুন যে প্রতিটি ক্লাস্টারের জন্য পৃথক মডেল (এই ক্ষেত্রে, ফ্যাক্টর মডেল) রয়েছে। সমবায় বিশ্লেষণের সাথে আপনার গড় বিশ্লেষণ থাকা দরকার এবং প্লেইন ভ্যানিলা ফ্যাক্টর বিশ্লেষণে আরও বেশি পরিমাণে সনাক্তকরণের সাথে উদ্বিগ্ন হতে হবে। এসইএম দিক থেকে আসা ধারণাটি জেডিদি এটে প্রদর্শিত হবে অল। (1997) এবং ক্লাস্টারিংয়ের দিক থেকে, অ্যাড্রিয়ান রাফ্ট্রি দ্বারা মডেল-ভিত্তিক ক্লাস্টারিংয়ে । এই ধরণের বিশ্লেষণ এমপ্লাসে স্পষ্টতই উপলব্ধ ।


1
বিশেষত উল্লেখগুলির জন্য ইনপুটগুলির জন্য আপনাকে ধন্যবাদ, তবে আমি ফ্যাক্টর বিশ্লেষণকে ভুলভাবে রেফার করেছিলাম: আমার ভেরিয়েবলগুলি স্বাধীন ভেরিয়েবলের উপ-গ্রুপে সেট করা আমার ভেরিয়েবলগুলি হ্রাস করার জন্য আমি আসলে প্রিন্সিপাল উপাদানগুলি সম্পর্কে ভাবছিলাম। আমার ভুল
en।

2

আমি এটি "নির্ভুলতা" খাঁটি এবং সাধারণ বিষয় বলে মনে করি না, বরং আপনি যা করতে চাইছেন তা এটি সম্পাদন করবে কিনা তা নয়। আপনি যে পদ্ধতির বর্ণনা করেছেন তাতে জলীয়-ডাউন উপায়ে নির্দিষ্ট উপাদানগুলি অনুসারে ক্লাস্টারিং শেষ হবে, যেহেতু আপনি প্রতিটি উপাদানকে উপস্থাপন করার জন্য কেবল একটি সূচক ব্যবহার করবেন using অন্তর্নিহিত, সুপ্ত ফ্যাক্টরের পক্ষে এই জাতীয় প্রতিটি সূচক পরিসংখ্যানকে অসম্পূর্ণ স্থায়ী হতে হবে। এটি একটি ইস্যু।

আর একটি বিষয় হ'ল ফ্যাক্টর বিশ্লেষণ নিজেই, যেমনটি আমি (এবং অন্যান্য অনেক লোক) বর্ণনা করেছি , কীভাবে নিখোঁজ তথ্য, কীভাবে উত্তোলনের উপাদানগুলির সংখ্যা, কীভাবে নিষ্কাশন করা যায়, কীভাবে এবং কীভাবে আবর্তিত করা যায় এবং কীভাবে ঘোরানো যায় সে সম্পর্কে জড়িত বিষয়গত সিদ্ধান্তে পূর্ণ চালু. সুতরাং এটি পরিষ্কার থেকে দূরে থাকতে পারে যে আপনি দ্রুত, সফ্টওয়্যার-ডিফল্ট পদ্ধতিতে যে কারণগুলি বের করতে পেরেছেন (যেমন আমি মনে করি যে আপনি বোঝাচ্ছেন) যে কোনও দিক থেকে "সেরা"।

সামগ্রিকভাবে, তবে, আপনি আপনার ডেটা অন্তর্নিহিত থিমগুলিকে বৈশিষ্ট্যযুক্ত করার সর্বোত্তম উপায় হিসাবে বিতর্কযোগ্য কারণগুলির ওয়াটারড-ডাউন সংস্করণগুলি ব্যবহার করতে পারেন। আমি প্রত্যাশা করব না যে এই জাতীয় ইনপুট ভেরিয়েবলগুলি থেকে প্রাপ্ত ক্লাস্টারগুলি সবচেয়ে তথ্যবহুল বা সবচেয়ে স্বতন্ত্র হবে।

অন্য একটি নোটে, এটি আকর্ষণীয় বলে মনে হচ্ছে যে আপনি এটি ক্লাস্টারের সদস্যতা / প্রোফাইল থাকতে সমস্যা হিসাবে বিবেচনা করছেন যা অন্যান্য গবেষকরা যা পেয়েছেন তার সাথে সামঞ্জস্য হয় না। কখনও কখনও সংজ্ঞা নিশ্চিতকরণগুলি খুব স্বাস্থ্যকর হতে পারে!


আপনাকে অনেক ধন্যবাদ, আমি আমার সন্দেহগুলি নির্দিষ্ট করতে উপরে আরও তথ্য যুক্ত করেছি
এন।

0

আপনার ক্ষেত্রে যা ঘটতে পারে তা হ'ল ফ্যাক্টর বিশ্লেষণে প্রাপ্ত উপাদানগুলি মূল ভেরিয়েবলগুলি থেকে ইতিবাচক এবং নেতিবাচক লোডগুলি ক্ষতিপূরণ দেয়। এটি পৃথকীকরণ হ্রাস করবে যা ক্লাস্টারিংয়ের উদ্দেশ্য।

আপনি কি প্রত্যাহারকৃত প্রতিটি উপাদানকে 2 এ ভাঙতে পারেন - একটিতে কেবল ইতিবাচক লোডিং রয়েছে, অন্যটি কেবল নেতিবাচক লোডিং রয়েছে?

প্রতিটি ফ্যাক্টরের জন্য প্রতিটি ক্ষেত্রে ফ্যাক্টর স্কোরকে ধনাত্মক স্কোর এবং নেতিবাচক স্কোর দ্বারা প্রতিস্থাপন করুন এবং স্কোরগুলির এই নতুন সেটটিতে ক্লাস্টারিংয়ের চেষ্টা করুন।

যদি এটি আপনার পক্ষে কাজ করে তবে একটি লাইনে ফেলে দিন।


0

আপনি উচ্চ মানের জন্য এবং নিম্ন মানের জন্য উভয়ই স্ক্যান করতে এবং কারণগুলিতে সমস্ত পরিবর্তনশীল রেখে যেতে পারেন। এইভাবে, কারণগুলি কাটা দরকার নেই। ফ্যাক্টর 2-এ আপনি লোডিংয়ের লক্ষণগুলির উপর ভিত্তি করে ফ্যাক্টর 1 (বলুন) একটি নির্দিষ্ট উপায়ে বিভক্ত করলে লক্ষণগুলি বেশ আলাদা হতে পারে। আপনি কি তখন ফ্যাক্টর 2 থেকে ফ্যাক্টর 2 কে আলাদা করতে পারবেন? এটি বিভ্রান্তিকর বলে মনে হচ্ছে।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.