আমার প্রশ্নটি সাধারণত একক মান মানিক পচন (এসভিডি) এবং বিশেষত প্রচ্ছন্ন সিনমেটিক ইনডেক্সিং (এলএসআই) সম্পর্কিত।
বলুন, আমার আছে এতে 7 টি নথির 5 টি ফ্রিকোয়েন্সি রয়েছে।
A = matrix(data=c(2,0,8,6,0,3,1,
1,6,0,1,7,0,1,
5,0,7,4,0,5,6,
7,0,8,5,0,8,5,
0,10,0,0,7,0,0), ncol=7, byrow=TRUE)
rownames(A) <- c('doctor','car','nurse','hospital','wheel')
আমি ম্যাট্রিক্স ফ্যাক্টেরাইজেশন পেয়েছি এসভিডি ব্যবহার করে: ।
s = svd(A)
D = diag(s$d) # singular value matrix
S = diag(s$d^0.5 ) # diag matrix with square roots of singular values.
ইন 1 এবং 2 , এটা যে বিবৃত হয়:
ম্যাট্রিক্স শব্দটির মিল দেয় যেখানে সারি রয়েছে বিভিন্ন শব্দ উপস্থাপন।
WordSim = s$u %*% S
নথির অনুরূপ ম্যাট্রিক্স দেয় যেখানে কলামগুলি বিভিন্ন নথি প্রতিনিধিত্ব করুন।
DocSim = S %*% t(s$v)
প্রশ্নাবলী:
- বীজগণিতভাবে, কেন হয় এবং শব্দ / নথির মিল ম্যাট্রিক? কোন স্বজ্ঞাত ব্যাখ্যা আছে?
- প্রদত্ত আর উদাহরণের উপর ভিত্তি করে, আমরা কেবল তাকিয়েই কোনও স্বজ্ঞাত শব্দের গণনা / মিলের পর্যবেক্ষণ করতে পারি এবং (সারি / কলামগুলির মধ্যে কোসাইন সাদৃশ্য বা পারস্পরিক সম্পর্ক সহ) ব্যবহার না করে?
D=svd(A)$d
আর-শূন্য ইগেন মানগুলির বর্গাকার শিকড়গুলি ফেরত দেয়, তাই আমি ব্যবহার করেছি। মাত্রিকতা হ্রাসের দিকটি নিয়ে আমার কোনও সমস্যা নেই এবং আমি বুঝতে পারি যে এগুলি বর্ণনা করার সাথে সাথে একটি নীচের র্যাঙ্কের প্রায় অনুমান করা যায়। আমি এই লিঙ্কটিতে উত্তর পেয়েছি আমার প্রশ্নের আংশিক উত্তর।