বিষয়গুলির মডেল এবং শব্দের সহ-উপস্থিতি পদ্ধতি


26

এলডিএর মতো জনপ্রিয় টপিক মডেলগুলি সাধারণত ক্লাস্টার শব্দের সাথে একই বিষয়ের (ক্লাস্টার) একসাথে হয়ে থাকে।

এই জাতীয় বিষয়গুলির মডেল এবং পিএমআইয়ের মতো অন্যান্য সাধারণ সহ-ঘটনা ভিত্তিক ক্লাস্টারিং পদ্ধতির মধ্যে প্রধান পার্থক্য কী? (পিএমআই মানে পয়েন্টওয়্যার মিউচুয়াল ইনফরমেশন, এবং এটি কোনও প্রদত্ত শব্দের সাথে সহজাত হওয়া শব্দগুলি সনাক্ত করতে ব্যবহৃত হয়))

উত্তর:


32

সম্প্রতি, লিখিত পাঠ্য থেকে কীভাবে তথ্য উত্তোলন করতে হবে তা নিয়ে আলোচনা করা সাহিত্যের একটি বিশাল সংস্থা বৃদ্ধি পেয়েছে। সুতরাং আমি কেবলমাত্র চারটি মাইলফলক / জনপ্রিয় মডেল এবং তাদের সুবিধাগুলি / অসুবিধাগুলি বর্ণনা করব এবং এভাবে প্রধান পার্থক্যগুলি (বা কমপক্ষে যা আমি প্রধান / সবচেয়ে গুরুত্বপূর্ণ পার্থক্য বলে মনে করি) তা হাইলাইট করব।

আপনি "সবচেয়ে সহজ" পদ্ধতির উল্লেখ করেছেন, যা শর্তগুলির পূর্বনির্ধারিত প্রশ্নের সাথে (পিএমআই হিসাবে) ডকুমেন্টগুলিকে মিলিয়ে ক্লাস্টার করা হবে। পলিসেমি (একাধিক অর্থ) এবং সিনোনিমি (একাধিক শব্দের সমান অর্থ) এমন একক পদগুলির কারণে এই লিক্সিক্যাল ম্যাচিং পদ্ধতিগুলি ভুল হতে পারে।

প্রতিকার হিসাবে, সুপ্ত সিমেটিক ইনডেক্সিং ( এলএসআই ) একটি একক মান পচনের মাধ্যমে একটি সুপ্ত শব্দার্থক স্থানটিতে শর্তাদি এবং নথিগুলি ম্যাপিংয়ের মাধ্যমে এটিকে কাটিয়ে উঠার চেষ্টা করে। এলএসআই ফলাফলগুলি পৃথক শর্তগুলির চেয়ে অর্থের আরও শক্তিশালী সূচক। তবে, এলএসআইয়ের একটি অপূর্ণতা হ'ল এটির দৃ prob় সম্ভাব্য ভিত্তির দিক থেকে অভাব রয়েছে।

এটি আংশিকভাবে সম্ভাব্য এলএসআই ( পিএলএসআই ) আবিষ্কার দ্বারা সমাধান করা হয়েছিল । পিএলএসআই মডেলগুলিতে নথির প্রতিটি শব্দের বহুবিধ র্যান্ডম ভেরিয়েবলের মাধ্যমে নির্দিষ্ট মিশ্রণ মডেল থেকে অঙ্কিত হয় (এটি @sviatoslav হং উল্লিখিত হিসাবে উচ্চতর অর্ডার সহ-উপস্থিতিগুলিরও অনুমতি দেয়)। সম্ভাব্য পাঠ্য মডেলিংয়ের ক্ষেত্রে এটি একটি গুরুত্বপূর্ণ পদক্ষেপ ছিল, তবে এই দৃষ্টিতে এটি অসম্পূর্ণ ছিল যে এটি নথির স্তরে কোনও সম্ভাব্য কাঠামো সরবরাহ করে না।

লেটেন্ট ডিরিচলেট অ্যালোকেশন ( এলডিএ ) এটিকে হ্রাস করে এবং এটি পাঠ্য ক্লাস্টারিংয়ের জন্য প্রথম সম্পূর্ণ সম্ভাব্য মডেল। ব্লি এট আল। (2003) দেখান যে পিএলএসআই হ'ল পূর্বে ইউনিফর্ম ডিরিচ্লেটের অধীনে সর্বাধিক একটি পোস্টেরিয়েরি অনুমিত এলডিএ মডেল।

নোট করুন যে উপরে উল্লিখিত মডেলগুলির (এলএসআই, পিএলএসআই, এলডিএ) প্রচলিত রয়েছে যে তারা "ব্যাগ-অফ-শব্দের" অনুমানের উপর ভিত্তি করে রয়েছে - অর্থাত্ কোনও নথির মধ্যে শব্দগুলি বিনিময়যোগ্য হয়, অর্থাত্ কোনও নথিতে শব্দের ক্রম করতে পারে অবহেলা করা। বিনিময়যোগ্যতার এই অনুধাবন অন্যান্য পদ্ধতির জন্য এলডিএর আরও ন্যায়সঙ্গততার প্রস্তাব দেয়: ধরে নেওয়া যে ডকুমেন্টের মধ্যে কেবল শব্দগুলিই বিনিময়যোগ্য নয়, ডকুমেন্টগুলিও, যেমন, কোনও কর্পাসের মধ্যে নথির ক্রম উপেক্ষিত হতে পারে, ডি ফিনেটির উপপাদ্যউল্লেখ করে যে বিনিময়যোগ্য র্যান্ডম ভেরিয়েবলগুলির যে কোনও সেটের একটি মিশ্রণ বিতরণ হিসাবে একটি উপস্থাপনা থাকে। সুতরাং যদি নথিগুলির মধ্যে নথি এবং শব্দের জন্য বিনিময়যোগ্যতা ধরে নেওয়া হয় তবে উভয়ের জন্য একটি মিশ্রণের মডেল প্রয়োজন। সাধারণভাবে এলডিএ সাধারণত এটি অর্জন করে তবে পিএমআই বা এলএসআই না করে (এবং পিএলএসআইও এলডিএর মতো সুন্দর নয়)।


2
1/2 ধন্যবাদ! খুব পরিস্কার. আমাকে এই অধিকারটি পেয়েছে কিনা তা আমাকে পরীক্ষা করে দেখুন: এলএসআই-তে শব্দের সংশ্লেষ (বিষয়গুলির কোনও ধারণা নয়) দ্বারা নথিগুলি তৈরি করা হয় এবং এসভিডি ব্যবহার করে শব্দ এবং নথিগুলি একটি নিম্ন মাত্রিক সিনমেটিক স্পেসে ম্যাপ করা হয়। যেহেতু অনুরূপ শব্দার্থ অর্থ সহ শব্দগুলি কাছাকাছি ম্যাপ করা হয়, এটি সিনোনিমি মোকাবেলা করতে পারে তবে পলিসেমিতে সমস্যা রয়েছে has পিএলএসআই বিষয়গুলির ধারণাটি প্রবর্তন করে পলিসিমি সমস্যা সমাধান করে। পিএলএসআই-তে শব্দের (বিষয়) একাধিকবার বিতরণ থেকে শব্দগুলি আঁকা, একই শব্দটি বেশ কয়েকটি বিষয়ের সাথে সম্পর্কিত হতে পারে এবং একটি নথিতে একাধিক বিষয় থাকতে পারে, যদিও এটি স্পষ্টভাবে মডেল করা হয়নি।
কানজেন_মাস্টার

2
আমি মনে করি সাধারণত আপনি এটি সঠিক পেতে। কিছু ছোট সংশোধন: এলএসআই পলিসি এবং synomy উভয়ই ঠিক আছে বলে মনে করা হয়। পিএলএসআই মূলত লিনিয়ার বীজগণিতের পরিবর্তে সুপ্ত শ্রেণীর বিশ্লেষণ / মিশ্রণ মডেলস এবং সম্ভাবনার সরঞ্জামগুলি দিয়ে এলএসআই যা চেষ্টা করে তা অর্জনের জন্য একটি সূত্র form পিএলএসআইয়ের তুলনায় এলডিএ প্রতি-নথির বিষয়বস্তু বিতরণ উল্লেখ করে একটি সম্পূর্ণ জেনারেটরি মডেল।
মোমো

1
ওভারফিটিং এবং ভবিষ্যদ্বাণী সম্পর্কে আপনার পয়েন্টগুলি সম্পর্কে, আমি যোগ্য বক্তব্যের পক্ষে যথেষ্ট জ্ঞানবান নই। তবে, এটির মূল্যের জন্য, আমি দেখতে পাচ্ছি না কেন পিএলএসআইয়ের তুলনায় এলডিএর তুলনামূলকভাবে বেশি ফিট হওয়ার ঝুঁকি থাকা উচিত (এলডিএ মূলত কেবলমাত্র একটি পিএলএসআই মডেলের সাথে পূর্বের যোগ করে)। ওভারফিটিং বা এর মতো উভয়ের কোনও অন্তর্নির্মিত সংশোধন নেই। নতুন দলিলগুলির "ভবিষ্যদ্বাণী" এলডিএর মতো সম্পূর্ণ জেনারেটরি মডেল সহ সত্যই সহজ বা সম্ভাব্য হতে পারে, দেখুন stats.stackexchange.com/questions/9315/… তবে আমি এলডিএটিকে একটি অব্যক্ত , বর্ণনামূলক মডেল হিসাবে দেখতে চাই।
মোমো

1
আবার ধন্যবাদ! মাত্র ২ টি চূড়ান্ত প্রশ্ন: (১) পলিসেমির বিষয়ে, এই পিডিএফ-এর পৃষ্ঠার শেষের দিকে হফম্যান বলেছেন যে এলএসআইয়ের তুলনায় পিএলএসআইয়ের একটি পার্থক্য হল পলিসি, কারণ একই শব্দটি বিভিন্ন শব্দ বিতরণের (বিষয়) অন্তর্ভুক্ত হতে পারে; সে কারণেই আমি ভেবেছিলাম যে এলএসআই পলিসেমির সাথে কাজ করে না। (২) ওভারফিটিং সম্পর্কিত, এই ব্লগটিতে বলা হয়েছে যে প্যারামিটারগুলির একটি রৈখিক বৃদ্ধি পরামর্শ দেয় যে মডেলটি অত্যধিক মানানসই প্রবণ। আপনি কি মনে করেন ?
কানজেন_মাস্টার

2
সমস্যা নেই. আপনি এই জিনিসগুলি সম্পর্কে ইতিমধ্যে অনেক কিছু জানেন, তাই আমি জিনিসও শিখি। বিজ্ঞাপন (1) ভাল, যথারীতি, এটি নির্ভর করে: পিসিএ-তে যেমন শর্তগুলির রৈখিক সংমিশ্রণের কারণে এলএসআই পলিসেমি পরিচালনা করতে পারে। এটি প্রতিশব্দ সহ এটি আরও ভাল করে, তবে পলিসেমি সহ একটি নির্দিষ্ট ডিগ্রীতেও to মূলত পলিসেমাস শব্দের সাথে মিল রয়েছে এমন শব্দের যুক্ত উপাদানগুলি যা একই অর্থ ভাগ করে দেয়। যাইহোক, এটি পিএলএসআই এর চেয়ে অনেক কম ভাল করে কারণ শব্দের প্রতিটি ঘটনাকে মহাকাশের একক পয়েন্ট হিসাবে প্রতিনিধিত্ব করা হয়। প্রতিনিধিত্ব শব্দটি তাই কর্পাসে সমস্ত শব্দের বিভিন্ন অর্থের গড়।
মোমো

5

এলডিএ শর্তাবলীর সহ-উপস্থিতির উচ্চতর ক্রম ক্যাপচার করতে পারে (প্রতিটি বিষয় অনুমানের কারণে শর্তাদির উপরে বহুজাতিক বিতরণ), যা কেবলমাত্র শর্তাবলীর মধ্যে পিএমআই গণনা করে সম্ভব নয়।


4
ধন্যবাদ! "সহ-উপস্থিতির উচ্চ-ক্রম" এর সংজ্ঞা কী?
কানজেন_মাস্টার

5

আমি 3 বছর দেরীতে হতে পারি তবে আমি "হাই-অর্ডার অফ কো-ইভেন্টস" এর উদাহরণটিতে আপনার প্রশ্নটি অনুসরণ করতে চাই।

মূলত, যদি টার্ম টি 1 টি টার্ম টি 2 এর সাথে টার্ম 3 এর সাথে কো-টু হয়, তবে টার্ম টি 1 হ'ল টার্ম 3 এর সাথে ২ য় অর্ডার সহ-উপস্থিতি। আপনি চাইলে উচ্চতর অর্ডারে যেতে পারেন তবে শেষ পর্যন্ত আপনি নিয়ন্ত্রণ করতে পারেন যে দুটি শব্দ দুটি কেমন হওয়া উচিত।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.