এলএসএ এবং পিএলএসএর মধ্যে একটি প্যারেলেল


9

পিএলএসএর মূল কাগজে লেখক টমাস হফম্যান পিএলএসএ এবং এলএসএ ডেটা স্ট্রাকচারের মধ্যে একটি সমান্তরাল আঁকুন যা আমি আপনার সাথে আলোচনা করতে চাই।

পটভূমি:

অনুপ্রেরণা গ্রহণ করে তথ্য পুনরুদ্ধার মনে করুন আমাদের কাছে নথি এবং পদগুলির একটি শব্দভাণ্ডারN

D={d1,d2,....,dN}
M
Ω={ω1,ω2,...,ωM}

একটি কর্পাস কো-কোকোরেসেন্সের একটি ম্যাট্রিক্স দ্বারা প্রতিনিধিত্ব করা যেতে পারে ।XN×M

ইন প্রচ্ছন্ন শব্দার্থিক Analisys দ্বারা SVD ম্যাট্রিক্স তিনটি ম্যাট্রিক্স মধ্যে factorized হয় যেখানে এবং হয় একবচন মান এর এবং পদে হয় ।X

X=UΣVT
Σ=diag{σ1,...,σs}σiXsX

in of এর এলএসএ অনুমানের পরে চিত্রের মতো দেখানো হয়েছে যে তিনটি ম্যাট্রিককে কিছু স্তরের করতে হবে:X

X^=U^Σ^VT^
k<s

এখানে চিত্র বর্ণনা লিখুন

পিএলএসএতে, বিষয়গুলির একটি স্থির সেট বেছে নিন (সুপ্ত ভেরিয়েবল) এর এর অনুমান হিসাবে গণনা করা হয়: যেখানে তিনটি ম্যাট্রিক মডেলের সম্ভাবনা সর্বাধিক করে তোলে।Z={z1,z2,...,zZ}X

X=[P(di|zk)]×[diag(P(zk)]×[P(fj|zk)]T

আসল প্রশ্ন:

লেখক বলেছেন যে এই সম্পর্কগুলি টিকে আছে:

  • U=[P(di|zk)]
  • Σ^=[diag(P(zk)]
  • V=[P(fj|zk)]

এবং যে এলএসএ এবং পিএলএসএর মধ্যে গুরুত্বপূর্ণ পার্থক্যটি হ'ল অনুকূল পঁচন / আনুমানিকতা নির্ধারণের জন্য উদ্দেশ্যমূলক ফাংশন।

আমি নিশ্চিত নই যে তিনি ঠিক আছেন, যেহেতু আমি মনে করি যে দুটি ম্যাট্রিক different বিভিন্ন ধারণার নিন্দা করে: এলএসএতে এটি কোনও নথিতে একটি শব্দ প্রকাশিত সময়ের সংখ্যার প্রায় অনুমান এবং পিএলএসএতে হয় (আনুমানিক) ) সম্ভাব্যতা যে কোনও শব্দ নথিতে উপস্থিত হয়।X^

আপনি কি আমাকে এই বিষয়টি পরিষ্কার করতে সাহায্য করতে পারেন?

তদুপরি, ধরুন, আমরা একটি নতুন দলিল ডি- দিয়ে একটি কর্পাসে দুটি মডেল গণনা করেছি , এলএসএতে আমি এটির কাছাকাছি গণনা করতে ব্যবহার করি: d

d^=d×V×VT
  1. এটি কি সর্বদা বৈধ?
  2. আমি পিএলএসএতে একই পদ্ধতি প্রয়োগ করে কেন অর্থবহ ফলাফল পাচ্ছি না?
    d^=d×[P(fj|zk)]×[P(fj|zk)]T

ধন্যবাদ.

উত্তর:


12

সরলতার জন্য, আমি এখানে এলএসএ এবং অ-নেতিবাচক ম্যাট্রিক্স ফ্যাক্টেরাইজেশন (এনএমএফ) এর মধ্যে সংযোগ দিচ্ছি, এবং তারপরে দেখান কীভাবে ব্যয় কার্যের একটি সাধারণ পরিবর্তন পিএলএসএ বাড়ে। যেমন আগেই বলা হয়েছে, এলএসএ এবং পিএলএসএ হ'ল উভয় ক্ষেত্রেই ফ্যাক্টেরাইজেশন পদ্ধতি যা সারি এবং কলামগুলির স্বাভাবিকীকরণ পর্যন্ত, নথির পদ ম্যাট্রিক্সের নিম্ন-স্তরের ক্ষয়:

X=UΣD

পূর্ববর্তী স্বরলিপি ব্যবহার করে। আরও সহজভাবে, ম্যাট্রিক্স নথির শব্দটি দুটি ম্যাট্রিকের পণ্য হিসাবে লেখা যেতে পারে:

X=ABT

যেখানে এবং । LSA জন্য, পূর্ববর্তী সূত্র সঙ্গে চিঠিপত্রের সেটিং দ্বারা প্রাপ্ত হয় এবং ।AN×sBM×sA=UΣB=VΣ

এলএসএ এবং এনএমএফের মধ্যে পার্থক্য বোঝার একটি সহজ উপায় হ'ল তাদের জ্যামিতিক ব্যাখ্যা ব্যবহার করা:

  • এলএসএ এর সমাধান:

    minA,BXABTF2,
  • NMF- সমাধান হল: L2

    minA0,B0XABTF2,
  • এনএমএফ-কেএল পিএলএসএর সমতুল্য এবং এর সমাধান:

    minA0,B0KL(X||ABT).

যেখানে হয় Kullback-Leibler ম্যাট্রিক্স বারবার ফিরে এবং । এটি দেখতে যে উপরোক্ত সব সমস্যার একটি অনন্য সমাধান হবে না সহজ, যেহেতু এক করতে পারেন সংখ্যাবৃদ্ধি একটি ধনাত্মক সংখ্যা এবং ডিভাইড দ্বারাKL(X||Y)=ijxijlogxijyijXYABএকই উদ্দেশ্য মান পেতে একই সংখ্যা দ্বারা। অতএব, - এলএসএর ক্ষেত্রে, লোকেরা সাধারণত স্থানীয় মূল্য হ্রাস করে বাছাই করা অর্থোগোনাল ভিত্তি পছন্দ করে। এটি এসভিডি পচন দ্বারা প্রদত্ত এবং এলএসএ সমাধান সনাক্ত করে, তবে অন্য কোনও পছন্দ সম্ভব হবে কারণ এটি বেশিরভাগ অপারেশনে (কোসাইন মিল, উপরে বর্ণিত মসৃণ সূত্র ইত্যাদি) এর কোনও প্রভাব নেই। - এনএমএফের ক্ষেত্রে, অরথোগোনাল পচন সম্ভব নয়, তবে এ এর ​​সারিগুলি সাধারণত হিসাবে সমষ্টি করতে বাধ্য হয়, কারণ এর হিসাবে সরাসরি সম্ভাবনাবাদী ব্যাখ্যা রয়েছে । যদি অতিরিক্ত হয়, এর সারিগুলি স্বাভাবিক করা হয় (অর্থাত একের যোগফল) তবে এর সারিগুলিকে একটি করে যোগ করতে হবে, সম্ভাব্য ব্যাখ্যার জন্যAp(zk|di)XBp(fj|zk) । সেখানে কারণ কলাম pLSA সংস্করণ উপরে প্রশ্নে দেওয়া সামান্য পার্থক্য আছে এক সমষ্টি করতে বাধ্য করছি যাতে মান হয় কিন্তু পার্থক্য কেবল parametrization একটি পরিবর্তন , সমস্যা একই হিসাবে বাকি।AAp(di|zk)

এখন, প্রাথমিক প্রশ্নের উত্তর দেওয়ার জন্য, এলএসএ এবং পিএলএসএ (এবং অন্যান্য এনএমএফ অ্যালগরিদম) এর মধ্যে পার্থক্যের মধ্যে কিছু সূক্ষ্মতা রয়েছে: অ-নেতিবাচকতা বাধা দেয় এ "ক্লাস্টারিং এফেক্ট" যা ক্লাসিকাল এলএসএ ক্ষেত্রে বৈধ নয় কারণ একক মান পচন দ্রবণটি আবর্তনীয়ভাবে অচল। নেতিবাচকতা বাধাগ্রস্থতা কোনওভাবে এই ঘূর্ণমান আক্রমণকে ভেঙে দেয় এবং কিছু ধরণের অর্থপূর্ণ অর্থ (পাঠ্য বিশ্লেষণের বিষয়গুলি) দিয়ে দেয়। এটি ব্যাখ্যা করার জন্য প্রথম কাগজটি হ'ল:

ডোনহো, ডেভিড এল।, এবং ভিক্টোরিয়া সি স্টডডেন। "অ-নেতিবাচক ম্যাট্রিক্স ফ্যাক্টেরাইজেশন অংশগুলিতে কখন একটি সঠিক পচন ঘটায়?" নিউরাল ইনফরমেশন প্রসেসিং সিস্টেমে অগ্রগতি 16: 2003 সম্মেলনের কার্যক্রম। এমআইটি প্রেস, 2004. [লিঙ্ক]

অন্যথায়, পিএলএসএ এবং এনএমএফের সম্পর্কের বর্ণনা এখানে দেওয়া হয়েছে:

ডিং, ক্রিস, টাও লি এবং ওয়ে পেং। "অ-নেতিবাচক ম্যাট্রিক্স ফ্যাক্টরীকরণ এবং সম্ভাব্য সুপ্ত সিমেটিক ইনডেক্সিংয়ের মধ্যে সমতা On" গণনা পরিসংখ্যান এবং ডেটা বিশ্লেষণ 52.8 (2008): 3913-3927। [লিংক]

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.