এলএসএ বনাম পিসিএ (নথি ক্লাস্টারিং)


25

আমি ডকুমেন্ট ক্লাস্টারিংয়ে ব্যবহৃত বিভিন্ন কৌশলগুলি তদন্ত করছি এবং আমি পিসিএ (মূল উপাদান বিশ্লেষণ) এবং এলএসএ (সুপ্ত শব্দার্থ বিশ্লেষণ) সম্পর্কিত কিছু সন্দেহ মুছে ফেলতে চাই।

প্রথম জিনিস - তাদের মধ্যে পার্থক্য কি? আমি জানি যে পিসিএতে, এসভিডি পচনটি টার্ম-কোভারিয়েন্স ম্যাট্রিক্সে প্রয়োগ করা হয়, যখন এলএসএতে এটি টার্ম-ডকুমেন্ট ম্যাট্রিক্স হয়। আর কিছু আছে?

দ্বিতীয় - ডকুমেন্ট ক্লাস্টারিং পদ্ধতিতে তাদের ভূমিকা কী? আমি এ পর্যন্ত যা পড়েছি তা থেকে, আমি অনুমান করি যে তাদের উদ্দেশ্যটি মাত্রিকতা হ্রাস করা, গোলমাল হ্রাস এবং শর্তাদির মধ্যে সম্পর্কগুলিকে প্রতিনিধিত্বতে অন্তর্ভুক্ত করা। পিসিএ বা এলএসএ সম্পাদন করার পরে, কে-মানে বা অ্যাগ্রোমেটিভ পদ্ধতিগুলির মতো traditionalতিহ্যবাহী অ্যালগরিদমগুলি হ্রাসকৃত স্থানে প্রয়োগ করা হয় এবং কোস্টিনের দূরত্বের মতো সাধারণ মিলতার ব্যবস্থাগুলি ব্যবহৃত হয়। আমি ভুল হলে আমাকে সংশোধন করুন।

তৃতীয় - পিসিএ / এলএসএ প্রয়োগের আগে টিএফ / আইডিএফ টার্ম ভেক্টরগুলি স্বাভাবিক করা হয়েছে কিনা তা বিবেচনা করে? এবং তারপরে কি এগুলি আবার স্বাভাবিক করা উচিত?

চতুর্থ - ধরা যাক আমি এলএসএ / পিসিএ দ্বারা হ্রাস স্থান শব্দটি সম্পর্কে কিছু ক্লাস্টারিং করেছি। এখন, আমি কীভাবে ফলাফল ক্লাস্টারে লেবেলগুলি অর্পণ করব? যেহেতু মাত্রাগুলি প্রকৃত শব্দের সাথে মিল নয়, এটি বরং একটি কঠিন সমস্যা। আমার মনে একমাত্র ধারণাটি আসল শব্দ ভেক্টর ব্যবহার করে প্রতিটি ক্লাস্টারের জন্য সেন্ট্রয়েডগুলি গণনা করা এবং শীর্ষ ওজনের সাথে পদ নির্বাচন করা তবে এটি খুব কার্যকর বলে মনে হয় না। এই সমস্যার জন্য কিছু নির্দিষ্ট সমাধান আছে? আমি কিছুই খুঁজে পাচ্ছিলাম না।

আমি এই বিষয়গুলি পরিষ্কার করার জন্য খুব কৃতজ্ঞ থাকব।


এলএসএ বা এলএসআই: একই বা আলাদা? আপনি যদি এলএসআই = সুপ্ত অর্থসূচক সূচক বোঝাতে চান তবে দয়া করে সংশোধন করুন এবং মানিক করুন।
নিক কক্স

3
এলএসআই এবং এলএসএ কি দুটি ভিন্ন জিনিস? আমি ভেবেছিলাম তারা সমতুল্য।
ব্যবহারকারী 1315305

1
আমার কোন ধারণা নাই; বিন্দুটি (দয়া করে) একটি জিনিসের জন্য একটি শব্দ ব্যবহার করুন এবং দুটি নয়; অন্যথায় আপনার প্রশ্নটি বোঝা আরও জটিল।
নিক কক্স

ঠিক আছে, আমি এটিকে ঠিক করে দিয়েছি। এটি
দেখানোর

3
উইকিপিডিয়া এই ধারণা দেয় যে এলএসএ = এলএসআই। তবে এলএসআই হ'ল সংবাদপত্র বিশ্লেষণ (সিএ)। সিএ হ'ল একটি পরিসংখ্যান বিশ্লেষণ শব্দ, পিসিএর মতো, যখন এলএসআই / এলএসএ পাঠ্য খনির শব্দ। সুতরাং, পিসিএ এবং সিএ এর তুলনা করে নিবন্ধগুলি অনুসন্ধান করুন
ttnphns

উত্তর:


8
  1. পিসিএ এবং এলএসএ উভয়ই বিশ্লেষণ যা এসভিডি ব্যবহার করে। পিসিএ বিশ্লেষণের একটি সাধারণ শ্রেণি এবং নীতিগতভাবে বিভিন্ন উপায়ে অঙ্কিত পাঠ্য কর্পোরায় প্রয়োগ করা যেতে পারে। বিপরীতে এলএসএ হ'ল পাঠ্য বিশ্লেষণ এবং হ্রাস করার একটি খুব স্পষ্টভাবে নির্দিষ্ট উপায়। উভয়ই প্রসঙ্গ থেকে অর্থ বের করা যেতে পারে এই ধারণাটি কাজে লাগিয়ে চলেছে। এলএসএতে একটি শব্দ-নথি ম্যাট্রিক্সের মাধ্যমে সংখ্যায় প্রসঙ্গটি সরবরাহ করা হয়। পিসিএতে আপনি প্রস্তাবিত প্রসঙ্গটি সংখ্যায় কোভারিয়েন্স ম্যাট্রিক্স প্রদানের মাধ্যমে সরবরাহ করা হয়েছে (যে প্রজন্মের বিবরণ সম্ভবত আপনাকে আপনার পিসিএ এবং এলএসএর মধ্যে সম্পর্ক সম্পর্কে আরও অনেক কিছু বলতে পারে)। আপনি আরও বিশদ জন্য এখানে দেখতে চাইতে পারেন ।
  2. আপনি মূলত এখানে ট্র্যাক এ। এগুলি ব্যবহার করার সঠিক কারণগুলি প্রসঙ্গ এবং ডেটা নিয়ে খেলতে থাকা ব্যক্তির লক্ষ্যগুলির উপর নির্ভর করবে।
  3. উত্তর সম্ভবত আপনি যে পদ্ধতিটি ব্যবহার করছেন তার প্রয়োগের উপর নির্ভর করবে।
  4. যত্ন সহকারে এবং দুর্দান্ত শিল্প দিয়ে। বেশিরভাগ ক্ষেত্রে এই শব্দার্থক মডেলগুলির মাত্রাগুলি ব্যাখ্যাহীন বলে বিবেচনা করুন। মনে রাখবেন যে আপনি প্রায় নিশ্চিতভাবেই একাধিক অন্তর্নিহিত মাত্রা আশা করবেন। যখন ফ্যাক্টর বিশ্লেষণে একাধিক মাত্রা থাকে তখন আমরা আন্তঃনৈতিক কারণগুলি উত্পাদন করার জন্য ফ্যাক্টর সমাধানটি ঘোরান। তবে কোনও কারণে সাধারণত এই মডেলগুলির জন্য এটি করা হয় না। আপনার পদ্ধতিটি আপনার শিল্প শুরু করার মূলত উপায় বলে মনে হচ্ছে ... যদিও আমি নির্দিষ্ট মাত্রার মধ্যে স্কেলিংয়ের তুলনায় একটি ক্লাস্টার বিশ্লেষণ সমাধানকে বিশ্বাস করার জন্য যথেষ্ট সমান। আপনি যদি অর্থ নিয়ে ঘুরে বেড়াতে চান তবে আপনি একটি সহজ পদ্ধতির বিষয়টিও বিবেচনা করতে পারেন যাতে নির্দিষ্ট শব্দের সাথে ভেক্টরগুলির সরাসরি সম্পর্ক রয়েছে, যেমন এইচএএল

6

এলএসআই টার্ম-ডকুমেন্ট ম্যাট্রিক্সে গণনা করা হয়, যখন পিসিএ কোভরিয়েন্স ম্যাট্রিক্সে গণনা করা হয় যার অর্থ এলএসআই ডেটা সেটটি বর্ণনা করার জন্য সেরা লিনিয়ার সাবস্পেস সন্ধান করার চেষ্টা করে, যখন পিসিএ সেরা সমান্তরাল লিনিয়ার সাবস্পেসটি সন্ধান করার চেষ্টা করে।


4
নিক, আপনি কি সেরা লিনিয়ার সাবস্পেস এবং সেরা সমান্তরাল লিনিয়ার সাবস্পেসের মধ্যে পার্থক্য সম্পর্কে আরও বিশদ সরবরাহ করতে পারেন? এটি কি অরথোগোনালিটির সাথে সম্পর্কিত? এগুলি কি আমাকে নতুন প্রশ্ন হিসাবে জিজ্ঞাসা করা উচিত?
রাসেলপিয়ের্স

1
কোন অর্থে সেরা? পুনর্নির্মাণের ত্রুটির ফ্রোবিনিয়াস আদর্শ কমানো? সেক্ষেত্রে আমার কাছে অবশ্যই পিসিএর মতো সুর শোনা যাচ্ছে।
অ্যান্ড্রু এম

2

রাসেলপিয়ার্সের উত্তরের কিছুটা এক্সটেনশন।

1) মূলত এলএসএ হ'ল পিসিএ টেক্সট ডেটা প্রয়োগ করা হয়।পিসিএর জন্য এসভিডি ব্যবহার করার সময়, এটি কোভরিয়েন্স ম্যাট্রিক্সে প্রয়োগ করা হয়নি তবে সরাসরি বৈশিষ্ট্য-নমুনা ম্যাট্রিক্স যা এলএসএ-তে কেবল টার্ম-ডকুমেন্ট ম্যাট্রিক্স। পার্থক্যটি হ'ল পিসিএ প্রায়শই ডেটাগুলির জন্য বৈশিষ্ট্য অনুসারে স্বাভাবিককরণের প্রয়োজন হয় যখন এলএসএ না করে।

অ্যান্ড্রু এনগের একটি সুন্দর বক্তৃতা রয়েছে যা পিসিএ এবং এলএসএর মধ্যে সংযোগগুলি চিত্রিত করে।

2/3) যেহেতু নথির ডেটা বিভিন্ন দৈর্ঘ্যের, সাধারণত এটি দৈর্ঘ্যকে স্বাভাবিক করতে সহায়ক। এখানে নমুনা-ভিত্তিক নরমালাইজেশনটি বৈশিষ্ট্য-ভিত্তিক স্বাভাবিককরণ ব্যবহার করা উচিত নয়। অনুশীলনে আমি এলএসআইয়ের আগে এবং পরে উভয়কেই স্বাভাবিক রাখতে সহায়ক বলে মনে করেছি।

যদি ক্লাস্টারিং অ্যালগরিদম মেট্রিক প্রস্থের উপর নির্ভর না করে (কোসাইন দূরত্ব বলে) তবে সর্বশেষ স্বাভাবিককরণের পদক্ষেপটি বাদ দেওয়া যেতে পারে।

৪) এটি সাধারণভাবে ক্লাস্টারগুলি থেকে অর্থবহ লেবেল পেতে একটি কঠিন সমস্যা বলে মনে করে। কিছু লোক শর্তাবলী / বাক্যাংশগুলি বের করে যা কর্পস এবং ক্লাস্টারের মধ্যে বিতরণের পার্থক্য সর্বাধিক করে তোলে। অন্য উপায়টি হ'ল পূর্বনির্ধারিত লেবেলগুলির সাথে আধা-তত্ত্বাবধানে ক্লাস্টারিং ব্যবহার করা।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.