এলডিএ বনাম word2vec


39

শব্দের মিলের জন্য গণ্য করার জন্য লেটেন্ট ডিরিচলেট বরাদ্দ এবং ওয়ার্ড 2vec এর মধ্যে মিল কী তা আমি বুঝতে চেষ্টা করছি ।

আমি যেমন বুঝতে পেরেছি, এলডিএ প্রচ্ছন্ন বিষয়গুলির সম্ভাবনার একটি ভেক্টরকে শব্দের মানচিত্র দেয়, যখন ওয়ার্ড 2vec এগুলি প্রকৃত সংখ্যার ভেক্টরের কাছে মানচিত্র করে (পয়েন্টওয়াইস পারস্পরিক তথ্যের একক মান পচনের সাথে সম্পর্কিত, ও। লেভি, ওয়াই গোল্ডবার্গ, "নিউরাল ওয়ার্ড এম্বেডিং দেখুন) ইম্পিপ্লেড ম্যাট্রিক্স ফ্যাক্টরাইজেশন হিসাবে " ; আরও দেখুন ওয়ার্ড 2vec কীভাবে কাজ করে? )।

আমি তাত্ত্বিক সম্পর্কগুলিতে (একজনকে সাধারণীকরণ, বা অন্যের বৈচিত্র হিসাবে বিবেচনা করা যেতে পারে) এবং ব্যবহারিক (কখন একটি ব্যবহার করতে হবে তবে অন্যটি নয়) উভয়ই আগ্রহী।

সম্পর্কিত:


আমি এই উপস্থাপনাটি স্পটটিতে
পাইওর মিগডাল

আপনার ডকোভেক (আ। অনুচ্ছেদে 2 অনুচ্ছেদ) দেখতে হবে। ডকুমেন্ট ভেক্টর শব্দের পরিবর্তে নথির সংক্ষিপ্তসার করে।
sachinruk

উত্তর:


19

টপিক মডেলগুলির একটি উত্তর এবং শব্দের সহ-উপস্থিতি পদ্ধতির পার্থক্যটি কভার করে (স্কিপ-গ্রাম ওয়ার্ড 2vec পয়েন্টওয়াইজ মিউচুয়াল ইনফরমেশন (পিএমআই) ) এর সংক্ষেপণ ।

তাই:

  • কোনও পদ্ধতিই অন্যের সাধারণীকরণ নয়,
  • word2vec আমাদের ভেক্টর জ্যামিতি ব্যবহার করতে দেয় (যেমন শব্দ সাদৃশ্য, যেমন বনামআমিএন-বনামমিএকটিএন+ +বনামWমিএকটিএনবনামকুইতোমার দর্শন লগ করাএন , আমি word2vec এর একটি ওভারভিউ লিখেছি )
  • এলডিএ দ্বি-উপাদানগুলির চেয়ে উচ্চতর পারস্পরিক সম্পর্ক দেখছে,
  • এলডিএ ব্যাখ্যাযোগ্য বিষয় দেয়।

এলডিএ- র স্লাইডগুলিতে কিছুটা পার্থক্য আলোচনা করা হয়েছে এবং একটি নতুন হাইব্রিড অ্যালগরিদম প্রবর্তন: lda2vec - ক্রিস্টোফার মুডি


1
"এলডিএ ব্যাখ্যামূলক বিষয় দেয়" এই বিবৃতিটি আমি বলি যে এলডিএর বিষয়গুলি সম্ভাব্য ব্যাখ্যাযোগ্য। "বিষয়" সম্পর্কে এলডিএর ধারণাটি একটি নিখরচায় গাণিতিক গঠন যা একটি বিষয় হিসাবে সর্বদাই বিবেচনা করে তা ম্যাপ করে না।
ওয়েইন

আপনি যে মূল ধারণাটি রেখে গেছেন তা হ'ল এলডিএ একটি ব্যাগ-অফ-শব্দের পদ্ধতির ব্যবহার করে, সুতরাং এটি কেবলমাত্র একটি নথির মধ্যে সহ-উপস্থিতি সম্পর্কে জানে, যখন ওয়ার্ড 2vec (বা আরও তুলনামূলকভাবে ডক 2vec) একটি শব্দের প্রসঙ্গে বিবেচনা করে।
ওয়েইন

13

দুটি উদ্দেশ্য অনুসারে দুটি অ্যালগরিদম কিছুটা আলাদা।

এলডিএ বেশিরভাগ ক্ষেত্রে দলিল ও নথি সংগ্রহের বিষয়ে তাদের কাছে বিষয়বস্তু বিতরণ বরাদ্দ করে লক্ষ্য করা হয়, যার পরিবর্তে শব্দ বিতরণ বরাদ্দ করা হয়, যেমনটি আপনি উল্লেখ করেছেন।

word2vec একটি সুপ্ত ফ্যাক্টর ভেক্টর স্পেসে শব্দগুলি এম্বেড করতে দেখায়, এটি বেনজিও এট আল এর বিতরণ উপস্থাপনাগুলি থেকে উদ্ভূত একটি ধারণা। এটি ডকুমেন্টগুলি বর্ণনা করতেও ব্যবহার করা যেতে পারে তবে এটি কার্যকরীভাবে তৈরি করা হয়নি।


1
আপনি তাত্ত্বিকভাবে এলডিএ থেকে পি (বিষয় | শব্দ) গণনা করে ওয়ার্ড টুভেকের ভেক্টর এম্বেডিংয়ের সাথে সামঞ্জস্যপূর্ণ কিছু পেতে পারেন, তবে @ বার হিসাবে বলেছেন যে এই মডেলগুলি বিভিন্ন কাজের জন্য তৈরি করা হয়েছিল। আপনি যদি এলডিএর পি (বিষয় | শব্দ) বিতরণকে ওয়ার্ড 2vec এর ভেক্টর এম্বেডিংয়ের সাথে তুলনা করেন তবে আমি সন্দেহ করি যে এগুলি খুব একই রকম হবে। এলডিএ নথির স্তরের অ্যাসোসিয়েশনগুলি ক্যাপচার করছে যখন ওয়ার্ড 2vec খুব স্থানীয় লোককে ক্যাপচার করছে।
জুবিন

4

টিপিআমি2ভীটিটিR Wআমিটি

ডি={W1:z- র1,,Wএম:z- রএম}z- রআমিWআমি

এলসিবিহেওয়াট(ডি)=1এমΣআমি=1এম(লগপি(Wআমি|Wএক্সটি)+ +লগপি(z- রআমি|Wএক্সটি))

এলএসআমিপি-Rএকটিমি(ডি)=1এমΣআমি=1এমΣ-,0(লগপি(Wআমি+ +|Wআমি)+ +লগপি(Wআমি+ +|z- রআমি))

সিহেএসআমিএন এসআমিএমআমিএলএকজনআরআমিটিওয়াই

তদুপরি, আপনি এই কাজের ভিতরে কিছু বাক্যাংশ খুঁজে পাবেন:

"বৈশিষ্ট্য উপস্থাপনের জন্য সম্ভাবনা সর্বোত্তম পছন্দ নয়"

এবং

"এলডিএ শব্দ, বিষয় এবং নথিতে এম্বেড হওয়া আসল অর্থ সংক্রান্ত তথ্যের চেয়ে ঘটনার পরিসংখ্যানগত সম্পর্কের বর্ণনা দিতে পছন্দ করে"

যা আপনাকে বিভিন্ন মডেলকে আরও ভালভাবে বুঝতে সহায়তা করবে।


2

অন্যান্য উত্তরগুলি এখানে সেই দুটি অ্যালগরিদমের মধ্যে প্রযুক্তিগত পার্থক্যগুলি কভার করে, তবে আমি মনে করি মূল পার্থক্যটি তাদের উদ্দেশ্য: এই দুটি অ্যালগরিদম বিভিন্ন জিনিস করার জন্য ডিজাইন করা হয়েছিল:

word2vecশেষ পর্যন্ত শব্দ এবং একটি নির্দিষ্ট দৈর্ঘ্যের ভেক্টরের মধ্যে একটি ম্যাপিং দেয় pping যদি আমরা এটি অন্য একটি সুপরিচিত পদ্ধতির সাথে তুলনা করি, তবে ব্যাগ অফ ওয়ার্ডস (বোউ মডেল) এর মতো একই উদ্দেশ্যে তৈরি করা অন্য একটি সরঞ্জাম ব্যবহার করে এটি করা আরও বুদ্ধিমান হবে। এটি একটি একই কাজ করে তবে word2vecশব্দের ক্রম ব্যবহার এবং শব্দের উপস্থাপনার মধ্যবর্তী দূরত্বগুলিকে অর্থপূর্ণ অর্থ নির্ধারণের মতো কিছু পছন্দসই বৈশিষ্ট্যগুলির অভাব রয়েছে ।

LDAঅন্যদিকে কোনও দৈর্ঘ্যের নথি থেকে ভেক্টরে ম্যাপিং তৈরি করা হয় । এই দস্তাবেজটি একটি বাক্য, অনুচ্ছেদ বা পূর্ণ পাঠ্য ফাইল হতে পারে তবে এটি কোনও একক শব্দ নয়। এটি doc2vecএকই কাজের সাথে এটির তুলনা করা আরও অর্থপূর্ণ হবে এবং টমাস মিকোলভ এখানে প্রবর্তন করেছেন (লেখক শব্দটি ব্যবহার করেছেন paragraph vectors)। বা LSIযে বিষয়ে জন্য।

সুতরাং আপনার দুটি প্রশ্নের সরাসরি উত্তর দিতে:

  1. এগুলির কোনওটিই অন্যের সাধারণীকরণ বা তারতম্য নয়
  2. একটি নির্দিষ্ট দৈর্ঘ্যের ভেক্টরটিতে একটি দস্তাবেজ মানচিত্র করতে এলডিএ ব্যবহার করুন । তারপরে আপনি এই ভেক্টরটি কোনও শ্রেণিবদ্ধের মতো একটি traditionalতিহ্যবাহী এমএল অ্যালগরিদমে ব্যবহার করতে পারেন যা কোনও দস্তাবেজ গ্রহণ করে এবং উদাহরণস্বরূপ একটি সংবেদনশীল লেবেলের পূর্বাভাস দেয়।
  3. একটি নির্দিষ্ট দৈর্ঘ্যের ভেক্টরটিতে word2vecকোনও শব্দ মানচিত্র করতে ব্যবহার করুন । এমএল মডেলগুলিকে খাওয়ানোর জন্য আপনি একইভাবে এই ভেক্টরগুলি ব্যবহার করতে পারেন ইনপুটটি হ'ল উদাহরণস্বরূপ, একটি স্বয়ংক্রিয়-পূর্ণকারী বিকাশকালে যা পূর্ববর্তী শব্দগুলিতে ফিড দেয় এবং পরবর্তীটির পূর্বাভাস দেওয়ার চেষ্টা করে।

1

ব্যবহারিক দৃষ্টিকোণ থেকে ...

এলডিএ ব্যাগ-অফ-ওয়ার্ড ইনপুট দিয়ে শুরু হয় যা ডকুমেন্টগুলিতে কী শব্দগুলি সহ-ঘটে তা বিবেচনা করে তবে শব্দের তাত্ক্ষণিক প্রসঙ্গে মনোযোগ দেয় না। এর অর্থ শব্দটি নথিতে এবং যে কোনও ক্রমে যে কোনও জায়গায় উপস্থিত হতে পারে, যা একটি নির্দিষ্ট স্তরের তথ্যের বাইরে চলে যায়। বিপরীতে শব্দ 2vec সমস্ত প্রসঙ্গে যেখানে একটি শব্দ ব্যবহৃত হয় - যদিও সম্ভবত সঠিক ক্রম নয়।

এলডিএর "বিষয়গুলি" একটি গাণিতিক গঠন এবং আপনার এগুলি প্রকৃত মানবিক বিষয়গুলিতে বিভ্রান্ত করা উচিত নয়। আপনি এমন বিষয়ের সাথে শেষ করতে পারেন যার কোনও মানবিক ব্যাখ্যা নেই - এগুলি প্রকৃত বিষয়ের চেয়ে প্রক্রিয়াটির নিদর্শনগুলির মতো - এবং মূলত একই মানবিক বিষয়কে অন্তর্ভুক্ত করে এমন বিষয়গুলি সহ আপনি বিমূর্তির বিভিন্ন স্তরের বিষয়গুলি নিয়ে শেষ করতে পারেন। এ যেন চা পাতা পড়ার মতো কিছুটা।

আমি ডেটা অন্বেষণে এলডিএকে দরকারী বলে মনে করেছি, তবে সমাধান সরবরাহের জন্য তেমন দরকারী নয়, তবে আপনার মাইলেজটি আলাদা হতে পারে।

ওয়ার্ড 2vec সরাসরি কোনও বিষয় তৈরি করে না। এটি শব্দগুলিকে অনুরূপ ব্যবহারের ভিত্তিতে একটি উচ্চ-মাত্রিক স্থানে প্রজেক্ট করে, তাই শব্দের ক্ষেত্রে এটির নিজস্ব আশ্চর্য হতে পারে যা আপনি আলাদা হিসাবে বিবেচনা করেন - বা এমনকি বিপরীতে - মহাকাশে একে অপরের কাছাকাছি থাকতে পারে।

শব্দগুলি "অনুরূপ" কিনা আপনি তা নির্ধারণ করতে ব্যবহার করতে পারেন। এলডিএর সাথে: শব্দগুলির একই বিষয়গুলিতে ওজন হ'ল। Word2vec সহ: এম্বেডিং স্পেসে এগুলি কি কিছুটা (কিছু পরিমাপের দ্বারা) নিকটে রয়েছে?

আপনি নথির অনুরূপ কিনা তা নির্ধারণ করতে ব্যবহার করতে পারেন। এলডিএর সাথে আপনি একই রকম বিষয়ের মিশ্রণের সন্ধান করবেন এবং ওয়ার্ড টু ওয়েভ দিয়ে আপনি নথির শব্দের ভেক্টর যুক্ত করার মতো কিছু করবেন। ("ডকুমেন্ট" একটি বাক্য, অনুচ্ছেদ, পৃষ্ঠা বা একটি সম্পূর্ণ নথি হতে পারে)) ডকোভেকটি ওয়ার্ড টুভেকের একটি পরিবর্তিত সংস্করণ যা নথির সরাসরি তুলনা করতে দেয় allows

এলডিএ শব্দের ব্যাগের সাথে কিছু প্রাসঙ্গিক তথ্য ছুঁড়ে ফেলেছে তবে এর সাথে টপিক (বা "বিষয়") রয়েছে, যা ওয়ার্ড টু ওয়েভের নেই। সুতরাং ডক্টুভেক ব্যবহার করা সোজা কথা, "আমাকে এইগুলির অনুরূপ নথিগুলি দেখান", যখন এলডিএর সাথে এটি বলা সহজ হয় যে, "টপিকটি এ যে বিষয়টির উল্লেখযোগ্য সেখানে আমাকে ডকুমেন্টগুলি দেখান"। (আবার, আপনার ডকুমেন্টগুলিতে একটি গাণিতিক প্রক্রিয়া থেকে "টপিক এ" উত্থিত হয়েছে এবং এটির পরে আপনি কীভাবে মানবিক বিষয় (গুলি) এর সাথে সম্পর্কিত figure

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.