অবিচ্ছিন্ন এবং শ্রেণিবদ্ধ ভেরিয়েবলের মিশ্রণযুক্ত ডেটাসেটগুলিতে মূল উপাদান বিশ্লেষণ প্রয়োগ করা যেতে পারে?


147

আমার কাছে একটি ডেটাসেট রয়েছে যাতে ক্রমাগত এবং শ্রেণিবদ্ধ উভয় ডেটা থাকে। আমি পিসিএ ব্যবহার করে বিশ্লেষণ করছি এবং ভাবছি যে বিশ্লেষণের অংশ হিসাবে শ্রেণিবদ্ধ ভেরিয়েবলগুলি অন্তর্ভুক্ত করা ভাল কিনা। আমার বোধগম্যতা হল পিসিএ কেবলমাত্র অবিচ্ছিন্ন চলকগুলিতে প্রয়োগ করা যেতে পারে। এটা কি ঠিক? যদি এটি শ্রেণিবদ্ধ ডেটার জন্য ব্যবহার না করা যায় তবে তাদের বিশ্লেষণের জন্য কোন বিকল্প বিদ্যমান?



আছে: দ্বারা প্রস্তুত একটি আলোচনা researchgate.net/post/Should_I_use_PCA_with_categorical_data
GoingMyWay

উত্তর:


87

যদিও বাইনারি ডেটাতে প্রয়োগ করা একটি পিসিএ একাধিক সংবাদপত্র বিশ্লেষণ (ফ্যাক্টর স্কোর এবং ইজেনভ্যালুগুলি লাইন সম্পর্কিতভাবে সম্পর্কিত) এর সাথে তুলনামূলকভাবে ফল দেয় তবে মিশ্র তথ্যের জন্য একাধিক ফ্যাক্টর বিশ্লেষণ যেমন মিশ্রিত ডেটা পাওয়া যায় তার জন্য আরও উপযুক্ত কৌশল রয়েছে FactoMineR আর প্যাকেজ ( AFDM())। যদি আপনার ভেরিয়েবলগুলি বর্ণনামূলক বৈশিষ্ট্যের কাঠামোগত সাবসেট হিসাবে বিবেচনা করা যায়, তবে একাধিক ফ্যাক্টর বিশ্লেষণ ( MFA()) এছাড়াও একটি বিকল্প।

শ্রেণিবদ্ধ ভেরিয়েবলগুলির সাথে চ্যালেঞ্জটি হ'ল ফ্যাকটোরিয়াল স্পেসে পরিবর্তনশীল বিভাগ এবং ব্যক্তিদের মধ্যে দূরত্ব উপস্থাপনের উপযুক্ত উপায় খুঁজে পাওয়া। এই সমস্যাটি কাটিয়ে ওঠার জন্য, আপনি প্রতিটি ভেরিয়েবলের একটি অ-রৈখিক রূপান্তর অনুসন্ধান করতে পারেন - এটি নামমাত্র, সাধারণ, বহুপদী বা সংখ্যাসূচক - সর্বোত্তম স্কেলিং সহ। এটি আর- তে সর্বোত্তম স্কেলিংয়ের জন্য গিফি পদ্ধতিগুলিতে সুস্পষ্টভাবে ব্যাখ্যা করা হয়েছে : প্যাকেজ হোমালস এবং এটি সম্পর্কিত আর প্যাকেজ হোমালগুলিতে একটি বাস্তবায়ন উপলভ্য ।


2
chl, FADM এর পয়েন্টারটির জন্য ধন্যবাদ। যদিও আমি ভাবছিলাম: একবার আমি কোনও ডেটা সেটে FADM প্রয়োগ করি (اعتراض <- FADM (x)), আমি সহজেই রূপান্তরিত ডেটা সেটটি অ্যাক্সেস করতে পারি: اعتراض $ ইন্ড $ কোর্ডের মাধ্যমে। তবে, যদি আমি একই রূপান্তরটি অন্য ডেটা সেটে প্রয়োগ করতে চাই, তবে আমি কীভাবে এটি করতে পারি? (এটি উদাহরণস্বরূপ প্রয়োজনীয়, যদি আমার কাছে কোনও ট্রেন সেট থাকে এবং আমি এই ট্রেনের সেট থেকে "মূল উপাদানগুলি" খুঁজে পাই এবং তারপরে সেই "প্রধান উপাদানগুলির" মাধ্যমে পরীক্ষার সেটটি দেখতে চাই)। ডকুমেন্টেশন এ সম্পর্কে প্রকৃতপক্ষে পরিষ্কার নয়, এবং ফাংশনটি ভিত্তিক কাগজটি ফরাসি ভাষায় রয়েছে।
ক্যাসান্দ্রা

সম্পর্কিত:, Although a PCA applied on binary data would yield results comparable to those obtained from a Multiple Correspondence Analysisআমরা একটি নামমাত্র শ্রেণীবদ্ধ পরিবর্তনশীল (এন কার্ডিনালিটি দিয়ে বলি) কে (এন -1) ডামি বাইনারিগুলির সংগ্রহে রূপান্তর করতে পারি না এবং তারপরে এই ডেটাতে পিসিএ করতে পারি না? (আমি বুঝতে পারি আরও উপযুক্ত কৌশল রয়েছে)
ঝুবার্ব

31

এস. কোলেনিকভ (@ স্ট্যাসকে) এবং জি। অ্যাঞ্জেলস দ্বারা গুগল অনুসন্ধান "পিসিএর জন্য পৃথক ভেরিয়েবল" এই সুন্দর ওভারভিউ দেয় । চিএল উত্তরে যুক্ত করার জন্য, পিসি বিশ্লেষণটি সত্যই কোভারিয়েন্স ম্যাট্রিক্সের ইগেনভেেক্টরগুলির বিশ্লেষণ। সুতরাং সমস্যাটি কীভাবে "সঠিক" কোভেরিয়েন্স ম্যাট্রিক্স গণনা করা যায়। পদ্ধতির একটি হ'ল পলিচোরিক পারস্পরিক সম্পর্ক ব্যবহার করা ।


(+1) লিঙ্কটির জন্য ধন্যবাদ a এটি ভিন্নধর্মী পারস্পরিক সম্পর্কের ম্যাট্রিক্স বিবেচনা করাও সম্ভব (উদাহরণস্বরূপ hetcor(), পলিকর প্যাকেজ থেকে)। প্রদত্ত ভিসি ম্যাট্রিক্সটি এসডিপি হয়, কাজটি করা উচিত - বেশিরভাগ ফ্যাক্টর বিশ্লেষণের চেতনায়। নামমাত্র ভেরিয়েবলগুলি ডামি কোডড হতে পারে।
chl

@ স্ট্যাস্ক, কুডোস :) মনে হচ্ছে কেবল এই আলাপটি আমাকে কার্যকর মনে হয়নি, অন্যথায় গুগল অনুসন্ধানে এটি শীর্ষে থাকবে না। এই প্রশ্নটি সময়ে সময়ে পপ আপ হয়, তাই সম্ভবত আপনি আমাদের সম্প্রদায় ব্লগের জন্য এটি সম্পর্কে একটি ব্লগ পোস্ট করতে চান?
এমপিক্টাস

@ স্ট্যাস্ক, আমি সংক্ষিপ্ত বিবরণটির লেখকদের উল্লেখ করার জন্য পোস্টটি সম্পাদনা করেছি। আমার প্রাথমিক অভিপ্রায়টি ছিল যে গুগলে অনুসন্ধান করা ভাল উত্তর নিয়ে আসতে পারে, তাই এখানে জিজ্ঞাসা করার কোনও স্পষ্ট প্রয়োজন নেই। তবে ইন্টারনেটের অস্থিরতার কারণে লেখকদের উদ্ধৃতি না দেওয়ার জন্য এটি বাহানা নয়।
এমপিক্টাস

1
@ এমপিক্টাস, ধন্যবাদ এই কাজটি থেকে উত্পাদিত অর্থনীতিবিদদের লক্ষ্য করে একটি আসল নিবন্ধ ছিল: dx.doi.org/10.1111/j.1475-4991.2008.00309.x , যদিও সম্পাদকরা আমাদের এতটা কাটতে বলেছিলেন যে আমি কাজের কাগজটি পড়ার পরামর্শ দিই তথ্য, এবং প্রকাশিত একটি উদ্ধৃত।
StasK

9

আমি লিন্টিং এবং কুইজ, ২০১২ " সিএটিপসিএ সহ অ লিনিয়ার মূল উপাদান বিশ্লেষণ: একটি টিউটোরিয়াল ", জার্নাল অফ পার্সোনালিটি অ্যাসেসমেন্টটি একবার দেখার পরামর্শ দিচ্ছি ; 94 (1)।

বিমূর্ত

এই নিবন্ধটি অরৈখিক মূল উপাদানগুলির বিশ্লেষণ (এনএলপিসিএ) এর টিউটোরিয়াল হিসাবে সেট আপ করা হয়েছে, রর্শচ ইনকব্লট টেস্ট দ্বারা ব্যক্তিত্ব মূল্যায়নের প্রকৃত তথ্য বিশ্লেষণের প্রক্রিয়াটির মাধ্যমে পাঠককে নিয়মিতভাবে গাইড করে। লিনিয়ার পিসিএর জন্য এনএলপিসিএ একটি আরও নমনীয় বিকল্প যা বিভিন্ন ধরণের পরিমাপের স্তরের সাথে সম্ভবত ননলাইন সম্পর্কিত সম্পর্কিত ভেরিয়েবলগুলির বিশ্লেষণ পরিচালনা করতে পারে। নামমাত্র (গুণগত) এবং অর্ডিনাল (উদাহরণস্বরূপ, লিকার্ট টাইপ) ডেটা বিশ্লেষণের জন্য এই পদ্ধতিটি বিশেষত উপযুক্ত, সম্ভবত সংখ্যার ডেটার সাথে মিলিত। এসপিএসএসে বিভাগগুলি মডিউল থেকে প্রোগ্রামটি সিএটিপসিএ বিশ্লেষণে ব্যবহৃত হয়, তবে পদ্ধতির বিবরণটি সহজেই অন্যান্য সফ্টওয়্যার প্যাকেজগুলিতে সাধারণীকরণ করা যায়।


4

কারও পোস্টে মন্তব্য করার জন্য আমি এখনও সুযোগ পাচ্ছি না তাই আমি আমার মন্তব্যকে পৃথক উত্তর হিসাবে যুক্ত করছি, তাই দয়া করে আমার সাথে সহ্য করুন।

@ মার্টিন এফ কী মন্তব্য করেছেন তা অবিরত করে, সম্প্রতি আমি ননলাইনার পিসিএগুলি নিয়ে এসেছি। আমি ননলাইনার পিসিএগুলিকে একটি সম্ভাব্য বিকল্প হিসাবে সন্ধান করছিলাম যখন ডেটা স্পার হয়ে যাওয়ার সাথে অবিচ্ছিন্ন পরিবর্তনশীল একটি অর্ডিনাল ভেরিয়েবলের বিতরণে পৌঁছায় (যখন জেনেটিক্সে অনেক সময় ঘটে যখন ভেরিয়েবলের মাইনাল অ্যালিল ফ্রিকোয়েন্সিটি নিম্ন এবং নিম্ন হয় এবং আপনি চলে যান খুব কম সংখ্যক সংখ্যার সাথে আপনি সত্যিই একটি ধ্রুবক ভেরিয়েবলের বিতরণকে ন্যায়সঙ্গত করতে পারবেন না এবং আপনি একটি সাধারণ ভেরিয়েবল বা শ্রেণিবদ্ধ ভেরিয়েবল তৈরি করে বন্টনমূলক অনুমানকে ooিলা করতে হবে।) অ লিনিয়ার পিসিএ এই উভয় শর্তকে পরিচালনা করতে পারে তবে জেনেটিক্স অনুষদে স্ট্যাটিস্টিকাল মাস্টারদের সাথে আলোচনা করা, sensকমত্য কলটি ছিল যে ননলাইনার পিসিএগুলি প্রায়শই ব্যবহৃত হয় না এবং সেই পিসিএগুলির আচরণ এখনও ব্যাপকভাবে পরীক্ষা করা হয় না (হতে পারে তারা কেবল জিনেটিক্স ক্ষেত্রের কথা উল্লেখ করছিলেন, তাই দয়া করে এটি লবণের দানা দিয়ে নিয়ে যান)। প্রকৃতপক্ষে এটি একটি আকর্ষণীয় বিকল্প। আমি আশা করি আলোচনায় আমি 2 টি যুক্ত (ভাগ্যক্রমে প্রাসঙ্গিক) যুক্ত করেছি।


আপনার উত্তর স্বাগত জানানো, মান্দার। আপনি কি সিএটিপিসিএ পদ্ধতি বা অন্য একটি ননলাইনার পিসিএ (কোন পদ্ধতি, তারপরে) দ্বারা ননলাইনার পিসিএ উল্লেখ করছেন? এছাড়াও নোট জন্য বাইনারি ভেরিয়েবল, CATPCA হয় বলুন, বেহুদা বা তুচ্ছ কারণ একটি dichotomous স্কেল হচ্ছে ... dichotomous ছাড়া অন্য সংখ্যায় করা যাবে না!
ttnphns

আপনাকে @ttnphns বাইনারি ভেরিয়েবল হিসাবে বাইনারি ভেরিয়েবল সম্পর্কে আমি আপনার বক্তব্যের সাথে একমত, কোনও অনুমানের বিষয়টি বিবেচ্য নয়। অন্যথায় আমি আসলে " ননলাইনার পিসিএর পরিচিতি" থেকে একটি বইয়ের অধ্যায়টি উল্লেখ করছিলাম [লিঙ্ক] ( openaccess.leidenuniv.nl/bitstream/handle/1887/12386/… )। এটি মূলত সিএটিপিসিএ এবং এসএএস থেকে প্রাপ্ত মূল প্যাকেজগুলিকে বোঝায়।
মন্দার

2

এই জাতীয় সমস্যাগুলির জন্য একটি সম্প্রতি বিকাশিত পদ্ধতি রয়েছে: সাধারণীকৃত নিম্ন র্যাঙ্ক মডেল

এই কৌশলটি ব্যবহার করে এমন একটি কাগজকে এমনকি ডেটা ফ্রেমে পিসিএ বলা হয়


পিসিএ এভাবে পোস্ট করা যেতে পারে:

nmM

nkX^kmY^k

X^,Y^argminX,YMXYF2

জিএলআরএম থেকে 'জেনারালাইজড' হ'ল changingsomething অন্য কোনও কিছুর সাথে নিয়মিতকরণের পদ যুক্ত করা।F2


এটি নতুন ধারণার চেয়ে পুনর্নবীকরণের মতো শোনাচ্ছে। জিফির জন্য অনুসন্ধান করুন!
কেজেটিল বি হালওয়ারসেন

আপনি ঠিক ঠিক নন, দেখে মনে হচ্ছে জিএলআরএম একটি সাধারণীকরণ (আসলে আমি যে কাগজটি সংযুক্ত করেছি তা জিআইফাই প্যাকেজ পেপারটি উদ্ধৃত করে)।
জাকুব বার্টকজুক

1

PCAmixdata# প্রতিবেদন প্যাকেজ :

পরিমাণগত এবং গুণগত ভেরিয়েবলের মিশ্রণের জন্য মূল উপাদান বিশ্লেষণ, অर्थোগোনাল ঘূর্ণন এবং একাধিক ফ্যাক্টর বিশ্লেষণ কার্যকর করে।

ভিগনেট থেকে উদাহরণ ক্রমাগত এবং বিভাগীয় আউটপুট উভয়ের ফলাফল দেখায়

এখানে চিত্র বর্ণনা লিখুন

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.