কখন পিসিএ বনাম এলএসএ / এলএসআই নির্বাচন করবেন


9

প্রশ্ন:

ইনপুট ডেটা বৈশিষ্ট্যগুলির সাথে সম্পর্কিত কোনও সাধারণ নির্দেশিকা রয়েছে, যা পিসিএ বনাম এলএসএ / এলএসআই প্রয়োগের মধ্যে সিদ্ধান্ত নিতে ব্যবহার করা যেতে পারে?

পিসিএ বনাম এলএসএ / এলএসআই এর সংক্ষিপ্তসার:

মূল উপাদান উপাদান বিশ্লেষণ (পিসিএ) এবং ল্যাটেন্ট সিমেেন্টিক অ্যানালাইসিস (এলএসএ) বা ল্যাটেন্ট সিমেটিক ইনডেক্সিং (এলএসআই) এই অর্থে একই যে তারা সকলেই একক মান মানিক পচন (এসভিডি) প্রয়োগকে ম্যাট্রিক্সে মৌলিকভাবে নির্ভর করে।

এলএসএ এবং এলএসআই হ'ল যতদূর আমি বলতে পারি একই জিনিস। এলএসএ মূলত পিসিএ থেকে পৃথক নয়, তবে এসভিডি প্রয়োগের আগে ম্যাট্রিক্সের এন্ট্রিগুলি প্রাক প্রক্রিয়াজাতকরণের দিক থেকে।

এলএসএতে প্রাক-প্রসেসিং পদক্ষেপটি সাধারণত একটি গণনা ম্যাট্রিক্সকে স্বাভাবিককরণের সাথে জড়িত থাকে যেখানে কলামগুলি 'নথিগুলির সাথে' এবং সারিগুলি একরকম শব্দের সাথে মিলে যায়। এন্ট্রিগুলিকে একরকম (সাধারণীকরণ) শব্দ-সংঘটন-নথির জন্য গণনা হিসাবে ভাবা যেতে পারে।

পিসিএতে প্রিপ্রোসেসিং পদক্ষেপটি মূল ম্যাট্রিক্স থেকে কোভারিয়েন্স ম্যাট্রিক্সের গণনা জড়িত। আসল ম্যাট্রিক্সটি LSA এর চেয়ে প্রকৃতভাবে ধারণাগতভাবে আরও 'সাধারণ'। পিসিএ যেখানে উদ্বিগ্ন, কলামগুলি সাধারণত জেনেরিক নমুনা ভেক্টরকে উল্লেখ করে এবং সারিগুলিকে পৃথক ভেরিয়েবলগুলি বোঝানো হয় যা পরিমাপ করা হচ্ছে। কোভরিয়েন্স ম্যাট্রিক্স সংজ্ঞা স্কোয়ার এবং সিমেট্রিক দ্বারা হয় এবং আসলে এসভিডি প্রয়োগ করা প্রয়োজন হয় না, কারণ কোভারিয়েন্স ম্যাট্রিক্সটি তির্যককরণের মাধ্যমে ক্ষয় হতে পারে। উল্লেখযোগ্যভাবে, পিসিএ ম্যাট্রিক্স প্রায় অবশ্যই এলএসএ / এলএসআই বৈকল্পিকের চেয়ে কম হবে - শূন্য এন্ট্রিগুলি কেবল তখনই ঘটবে যেখানে ভেরিয়েবলগুলির মধ্যে স্বতন্ত্রতা শূন্য হয়, সেখানে ভেরিয়েবলগুলি স্বতন্ত্র থাকে।

অবশেষে আরও একটি বর্ণনামূলক বিন্দু যে দুটি পার্থক্য করতে মোটামুটি ঘন ঘন তৈরি হয় তা হ'ল

এলএসএ ফ্রোবিনিয়াস আদর্শের সেরা লিনিয়ার উপ-স্থানের সন্ধান করে, যখন পিসিএ সেরা অ্যাফাইন লিনিয়ার সাবস্পেসের জন্য লক্ষ্য করে।

যাই হোক না কেন, এই কৌশলগুলির পার্থক্য এবং সাদৃশ্যগুলি আন্তঃসমাজজুড়ে বিভিন্ন ফোরামে উষ্ণভাবে বিতর্কিত হয়েছিল এবং স্পষ্টতই কিছু স্পষ্ট পার্থক্য রয়েছে এবং স্পষ্টতই এই দুটি কৌশল বিভিন্ন ফলাফল তৈরি করবে।

এইভাবে আমি আমার প্রশ্নের পুনরাবৃত্তি করছি: ইনপুট ডেটা বৈশিষ্ট্যের সাথে সম্পর্কিত কোনও সাধারণ নির্দেশিকা রয়েছে, যা পিসিএ বনাম এলএসএ / এলএসআই প্রয়োগের মধ্যে সিদ্ধান্ত নিতে ব্যবহার করা যেতে পারে? আমার কাছে যদি টার্ম-ডকুমেন্ট ম্যাট্রিক্সের অনুরূপ কিছু থাকে তবে এলএসএ / এলএসআই সর্বদা সেরা পছন্দ হতে পারে? এলএসএ / এলএসআইয়ের জন্য ডক / ডক ম্যাট্রিক্স প্রস্তুত করে এবং তারপরে সরাসরি এসভিডি প্রয়োগের পরিবর্তে ফলাফলের জন্য পিসিএ প্রয়োগ করে কিছু ক্ষেত্রে আরও ভাল ফলাফলের আশা করতে পারে?


1
আপনার এলএসএ / এলএসআই-এর বর্ণনাটি আমার কাছে চিঠিপত্র বিশ্লেষণের মতো (সিএ) এবং আমার সন্দেহ হয় যে টেক্সট মাইনিংয়ের সংক্ষিপ্ত বিবরণ এলএসএ পরিসংখ্যানগুলিতে সিএকে বোঝায়। সিএ এবং পিসিএ প্রকৃতপক্ষে খুব ঘনিষ্ঠভাবে সম্পর্কিত।
ttnphns

আরে কেবল আপনি জানতে চেয়েছিলেন যে আপনি এর উত্তর খুঁজে পেয়েছেন কিনা, আমার এই একই প্রশ্নটি রয়েছে।
পুষ্পেন্দ্রে

আপনি কি করতে চেষ্টা করছেন? এটি আরও কার্যকর হতে পারে সে সম্পর্কে কিছু ধারণা দিতে পারে। আপনি কি পাঠ্য নিদর্শন এবং শব্দার্থক পারস্পরিক সম্পর্ক বা নথি এবং পদ উভয় বিবেচনায় নিম্ন মাত্রিক সুপ্ত স্থান সন্ধান করতে আগ্রহী?
ui_90jax

উত্তর:


2

একটি পার্থক্য যা আমি লক্ষ্য করেছি তা হ'ল পিসিএ আপনাকে কেবলমাত্র টার্ম-টার্ম বা ডকুমেন্ট-ডকুমেন্টের সাদৃশ্য দিতে পারে (আপনি কীভাবে কোরেন্টার্স ম্যাট্রিক্সকে গুণিত করেছেন তার উপর নির্ভর করে) AA অথবা AA) তবে এসভিডি / এলএসএ উভয়ই সরবরাহ করতে পারে যেহেতু আপনার উভয়ের ইজিভেক্টর রয়েছে AA এবং AA। আসলে আমি এসভিডি এর মাধ্যমে পিসিএ ব্যবহার করার কোনও কারণ দেখতে পাচ্ছি না।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.