এলএসআই এর প্রসঙ্গে একক মান পচন বোঝা


9

আমার প্রশ্নটি সাধারণত একক মান মানিক পচন (এসভিডি) এবং বিশেষত প্রচ্ছন্ন সিনমেটিক ইনডেক্সিং (এলএসআই) সম্পর্কিত।

বলুন, আমার আছে একজনWR×তোমার দর্শন লগ করামিএনটি এতে 7 টি নথির 5 টি ফ্রিকোয়েন্সি রয়েছে।

A =  matrix(data=c(2,0,8,6,0,3,1,
                   1,6,0,1,7,0,1,
                   5,0,7,4,0,5,6,
                   7,0,8,5,0,8,5,
                   0,10,0,0,7,0,0), ncol=7, byrow=TRUE)
rownames(A) <- c('doctor','car','nurse','hospital','wheel')

আমি ম্যাট্রিক্স ফ্যাক্টেরাইজেশন পেয়েছি একজন এসভিডি ব্যবহার করে: একজন=ইউডিভীটি

s = svd(A)
D = diag(s$d) # singular value matrix
S = diag(s$d^0.5 ) # diag matrix with square roots of singular values.

ইন 1 এবং 2 , এটা যে বিবৃত হয়:

ওয়াটRএসআমিমি=ইউএসম্যাট্রিক্স শব্দটির মিল দেয় যেখানে সারি রয়েছেওয়াটRএসআমিমি বিভিন্ন শব্দ উপস্থাপন।

WordSim = s$u %*% S

ডিএসআমিমি=এসভীটিনথির অনুরূপ ম্যাট্রিক্স দেয় যেখানে কলামগুলিডিএসআমিমি বিভিন্ন নথি প্রতিনিধিত্ব করুন।

DocSim = S %*% t(s$v)

প্রশ্নাবলী:

  1. বীজগণিতভাবে, কেন হয় ওয়াটRএসআমিমি এবং ডিএসআমিমিএসশব্দ / নথির মিল ম্যাট্রিক? কোন স্বজ্ঞাত ব্যাখ্যা আছে?
  2. প্রদত্ত আর উদাহরণের উপর ভিত্তি করে, আমরা কেবল তাকিয়েই কোনও স্বজ্ঞাত শব্দের গণনা / মিলের পর্যবেক্ষণ করতে পারি ওয়াটRএসআমিমি এবং ডিএসআমিমি (সারি / কলামগুলির মধ্যে কোসাইন সাদৃশ্য বা পারস্পরিক সম্পর্ক সহ) ব্যবহার না করে?

এখানে চিত্র বর্ণনা লিখুন


আমি এলএসআই সম্পর্কে খুব কম জানি, তবে একটি ম্যাট্রিক্সের এসভিডি লিনিয়ার মাত্রা-হ্রাস, ম্যাপিংয়ের পদ্ধতিগুলি যেমন প্রধান উপাদান, বাইপলটস, চিঠিপত্র বিশ্লেষণের মূল ভিত্তিতে থাকে। এসভিডির প্রধান "আইন" এটিAV=UD = সারিগুলির প্রজেকশন Aপ্রধান অক্ষ উপর; এবংAU=VD = এর কলামগুলির প্রক্ষেপণ একজনপ্রধান অক্ষ উপর। এক অর্থে এটি পয়েন্ট (সারি বা কলাম) এবং প্রধান অক্ষগুলির মধ্যে "মিল" মান " পয়েন্টগুলির মধ্যে এটি সাদৃশ্য হিসাবে বিবেচনা করা যায় কিনা তা প্রসঙ্গে নির্ভর করে বলে আমি মনে করি।
ttnphns

আহ .. আমি উইকিপিডিয়ায় দেখতে পাচ্ছি যে এলএসআই কেবল চিঠিপত্র বিশ্লেষণ (সিএ)। এটা তুলনামূলক ভাল. সিএ হ'ল বিশেষত প্রস্তুত ডেটা টেবিলের বাইপ্লট । পূর্বোক্ত অনুমানগুলি বা স্থানাঙ্কগুলি - আপনি এগুলি প্রধান অক্ষগুলির জায়গায় সারি এবং কলাম পয়েন্ট প্লট করতে ব্যবহার করেন। সারি-সারি, কল-কোল এবং সারি-কল পয়েন্টের মধ্যে ঘনিষ্ঠতা তাদের মিল খুঁজে দেয়। যাইহোক, প্লটের লেআউটটি আপনি কীভাবে সারি এবং কর্ন পয়েন্টগুলিতে জড়তা (বৈকল্পিকতা) ছড়িয়ে দেন তার উপর নির্ভরশীল।
ttnphns

@ttnphns। আপনাকে ধন্যবাদ, আপনি কি এখানে একটি উল্লেখ দিতে পারেন: "একজনভী=ইউডিপ্রধান অক্ষের উপর সারি সারিগুলির প্রজেকশন; এবংএকজন'ইউ=ভীডি' মূল কৌণের উপর ক এর কলামগুলির প্রজেকশন "? আমি মনে করি এটি আমার জন্য বিষয়গুলি পরিষ্কার করে দেবে principal মূল অক্ষ অনুসারে, আপনি কী বোঝাতে চাইছেন শীর্ষস্থানীয় একক মানগুলির সাথে সম্পর্কিত ইগান ভেক্টর? ডি? আমি এটিও পেরিয়ে এসেছি: "পিসিএর জন্য, আমাদের বাম একক ভেক্টরগুলি গণনা করার দরকার নেই", তবে কেন এটি ঘটছে তা পুরোপুরি বুঝতে পারছি না।
ঝুবার্ব

2
আপনার ডকুমেন্টটি কী বলেছে তা সঠিকভাবে প্রতিফলিত করার জন্য এটি সম্পাদনা করে আপনার প্রশ্নের উন্নতি করা যেতে পারে। পি। 22 এটি সংজ্ঞায়িত করেএসযেমন ধারণকারী বর্গমূল এরডি, সবচেয়ে বড়গুলিতে "সীমাবদ্ধ"। অতএব নাইউডি না ডিভী'জড়িত, বা তাদের "মিলের ম্যাট্রিক্স" হিসাবে ব্যাখ্যা নেই। পরিবর্তে সম্পর্কিত ম্যাট্রিকগুলি হয়ইউএস এবং এসভী'। এগুলির একটি আনুমানিক পুনর্গঠন করতে ব্যবহার করা যেতে পারেএকজন=ইউডিভী'ইউ(এস2)ভী'=(ইউএস)(এসভী')
whuber

1
আমি ধরে নিয়েছি যে D=svd(A)$dআর-শূন্য ইগেন মানগুলির বর্গাকার শিকড়গুলি ফেরত দেয়, তাই আমি ব্যবহার করেছিইউডি। মাত্রিকতা হ্রাসের দিকটি নিয়ে আমার কোনও সমস্যা নেই এবং আমি বুঝতে পারি যে এগুলি বর্ণনা করার সাথে সাথে একটি নীচের র‌্যাঙ্কের প্রায় অনুমান করা যায়। আমি এই লিঙ্কটিতে উত্তর পেয়েছি আমার প্রশ্নের আংশিক উত্তর।
ঝুবার্ব

উত্তর:


2

এসভিডি ব্যবহার করে ম্যাট্রিক্স ফ্যাক্টেরাইজেশন ইনপুট ম্যাট্রিক্সকে তিন ভাগে বিভক্ত করে:

  • বাম একক ভেক্টর ইউ। এই ম্যাট্রিক্সের প্রথম কলামটি নির্দিষ্ট করে যে ইনপুট ম্যাট্রিক্সের সারিগুলি সর্বাধিক পরিবর্তিত হয়। আপনার ক্ষেত্রে, প্রথম কলাম আপনাকে জানায় যে কোন শব্দগুলির মধ্যে সবচেয়ে বেশি আলাদা হয়।
  • একক মান ডি। এগুলি স্কেলিংস। এগুলি একে অপরের সাথে আপেক্ষিক। যদি প্রথম মান হয়ডি দ্বিতীয়টির চেয়ে দ্বিগুণ বড় এটির অর্থ প্রথম একবিন্দু ভেক্টর (ইন) ইউ এবং ভীটি) সেকেন্ডের একক ভেক্টরের দ্বিগুণ প্রকরণ ব্যাখ্যা কর।
  • ডান একবাক্য ভেক্টর ভীটি। এই ম্যাট্রিক্সের প্রথম সারিতে ইনপুট ম্যাট্রিক্সের কলামগুলির অক্ষটি সর্বাধিক পরিবর্তিত হয় তা সুনির্দিষ্ট করে। আপনার ক্ষেত্রে, প্রথম সারিটি আপনাকে জানায় যে কোন দস্তাবেজগুলি এক সাথে সর্বাধিক পরিবর্তিত হয়।

শব্দ বা দস্তাবেজগুলি যখন এক সাথে পরিবর্তিত হয় তখন এটি ইঙ্গিত করে যে সেগুলি একই রকম। উদাহরণস্বরূপ, যদি ডকুমেন্টে ডাক্তার শব্দটি প্রায়শই দেখা যায় তবে নার্স এবং হাসপাতাল শব্দটিও বেশি ঘটে। এটি প্রথম স্কেল করা বাম একক ভেক্টর দ্বারা দেখানো হয়েছে, এর প্রথম কলামওয়াটRএসআমিমি.আপনি ইনপুট ডেটা দেখে এই ফলাফলটি যাচাই করতে পারেন। লক্ষ করুন যে নার্স যখন ঘটে তখন হাসপাতালটিও ঘটে এবং যখন এটি হয় না তখন হাসপাতালও ঘটে না।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.