শব্দের ব্যাগ বনাম ভেক্টর স্পেস মডেল?

12

এই পাঠ্য উপস্থাপনা মডেলগুলির মধ্যে / কী পার্থক্য রয়েছে: শব্দগুলির ব্যাগ এবং ভেক্টর স্পেস মডেল?

machine-learning text-mining

— samsamara
সূত্র

শব্দের ব্যাগ একটি সেট একটি টালি হিসাবে অনন্য শব্দের প্রতিনিধিত্ব করে। টার্ম ভেক্টর স্পেস একটি বিচ্ছিন্ন বুলিয়ান ভেক্টর যা শব্দের অবস্থানও রেকর্ড করে। আমি মনে করি.

— ব্যবহারকারী 122160

16

ব্যাগ-অফ-শব্দের এবং ভেক্টর স্পেস মডেলটি কোনও নথির মতো পাঠ্যের মূল অংশকে বৈশিষ্ট্যযুক্ত করার বিভিন্ন দিককে বোঝায়। তারা তথ্য পুনরুদ্ধারের বিভাগের 23.1 বিভাগে জুরাফস্কি এবং মার্টিনের "স্পিচ এবং ল্যাঙ্গুয়েজ প্রসেসিং" পাঠ্যপুস্তকে ভালভাবে বর্ণনা করা হয়েছে। "স্কোরিংয়ের জন্য ভেক্টর স্পেস মডেল" বিভাগে ম্যানিং, রাঘাভান এবং স্কটিজ, 2008-র আরও একটি সংক্ষিপ্ত তথ্য উল্লেখ করা হয়েছে "তথ্য পুনরুদ্ধারের পরিচিতি "।

ব্যাগ-অফ-ওয়ার্ড বলতে বোঝায় যে আপনি কোনও দস্তাবেজ থেকে কোন ধরণের তথ্য বের করতে পারেন (যথা, ইউনিগ্রামের শব্দ)। ভেক্টর স্পেস মডেল প্রতিটি নথির জন্য ডেটা স্ট্রাকচারকে বোঝায় (যথা, টার্ম এবং টার্ম ওজন জোড়াগুলির একটি বৈশিষ্ট্য ভেক্টর)। উভয় দিক একে অপরের পরিপূরক।

আরো নির্দিষ্টভাবে:

ব্যাগ-অফ-শব্দের : প্রদত্ত নথির জন্য, আপনি একটি শৃঙ্খলাবদ্ধ না করে শব্দের একটি তালিকা তৈরি করতে কেবল অলিগ্রাম শব্দগুলি (ওরফে পদগুলি) বের করেন। কোনও পস ট্যাগ, কোনও বাক্য গঠন, কোনও শব্দার্থবিজ্ঞান, কোনও অবস্থান, কোনও বিগ্রাম, কোনও ট্রিগার নেই। দস্তাবেজটি উপস্থাপন করার জন্য একগুচ্ছ শব্দের জন্য তৈরি করে কেবলমাত্র ইউনিগ্রাম শব্দগুলি। এভাবে: ব্যাগ অফ-ওয়ার্ডস ।

ভেক্টর স্পেস মডেল : আপনি দস্তাবেজ থেকে যে শব্দের ব্যাগটি বের করেছেন, আপনি নথির জন্য একটি বৈশিষ্ট্য ভেক্টর তৈরি করেন, যেখানে প্রতিটি বৈশিষ্ট্য একটি শব্দ (শব্দ) এবং বৈশিষ্ট্যের মান একটি শব্দ ওজন। শব্দটি ওজন হতে পারে:

একটি বাইনারি মান (1 টি ইঙ্গিত করে যে ডকুমেন্টটিতে এই শব্দটি এসেছে এবং 0 নির্দেশ করে যে এটি হয়নি);
একটি শব্দ ফ্রিকোয়েন্সি মান (নথিতে শব্দটি কতবার সংঘটিত হয়েছিল তা বোঝায়); অথবা
একটি টিএফ-আইডিএফ মান (যেমন 1.23 এর মতো একটি ছোট ভাসমান-পয়েন্ট নম্বর)।

পুরো ডকুমেন্টটি এইভাবে একটি বৈশিষ্ট্য ভেক্টর এবং প্রতিটি বৈশিষ্ট্য ভেক্টর একটি ভেক্টর স্পেসের একটি বিন্দুর সাথে মিলে যায় । এই ভেক্টর স্পেসের মডেলটি এমন যে শব্দভান্ডারে প্রতিটি শব্দটির জন্য অক্ষ থাকে এবং তাই ভেক্টরের স্থানটি ভি- ডাইমেনশনাল, যেখানে ভি শব্দভাণ্ডারের আকার। ভেক্টরটি তখন প্রতিটি ভোকাবুলারি শব্দের জন্য একটি বৈশিষ্ট্য সহ ধারণাগতভাবে ভি- মাত্রিকও হওয়া উচিত । তবে, কারণ ভোকাবুলারিটি বড় হতে পারে ( ভি = 100,000 শর্তাবলীর ক্রম অনুসারে), কোনও নথির বৈশিষ্ট্য ভেক্টরটিতে সাধারণত সেই দস্তাবেজটি উপস্থিত থাকে এবং সেই শর্তগুলি বাদ দেয় না। এই জাতীয় বৈশিষ্ট্য ভেক্টরকে বিরল বলে মনে করা হয় ।

একটি দস্তাবেজের উদাহরণস্বরূপ ভেক্টর উপস্থাপনাটি এটির মতো দেখায়:

DOCUMENT_ID_42 LABEL_POLITICS a 55 ability 1 about 5 absent 2 abuse 1 access 1
accompanied 1 accompanying 2 according 2 account 1 accounted 1 accurate 1
acknowledge 4 activities 1 actual 1 actually 2 administering 1 ...

যেখানে এই উদাহরণস্বরূপ ভেক্টরের একটি ডকুমেন্ট আইডি রয়েছে (উদাহরণস্বরূপ 42), গ্রাউন্ড-ট্রুথ লেবেল (যেমন রাজনীতি) এবং পদ এবং মেয়াদী ফ্রিকোয়েন্সি জোড় সমন্বিত বৈশিষ্ট্য এবং বৈশিষ্ট্যগুলির মানগুলির একটি তালিকা। এখানে দেখা যায় যে এই দস্তাবেজটিতে "অনুপস্থিত" শব্দটি 2 বার এসেছে occurred

— stackoverflowuser2010
সূত্র

1

আপনি কি ডকুমেন্ট-টার্ম ম্যাট্রিক্স উপাদান এবং ভেক্টর স্পেস মডেলের ডকুমেন্ট-টার্ম ম্যাট্রিক্স উপাদানগুলিতে ভ্যাক্টর স্পেসে অপারেশন (ডট প্রোডাক্ট) বোধ করা (টিএফ-আইডিএফ ওয়েটস) হিসাবে শব্দটির ব্যাগ ব্যবহার করে শব্দটি ব্যবহার করে থাকেন? উদাহরণস্বরূপ)?

— danas.zuokas
সূত্র

হ্যাঁ আমি আরও ভাবছি যে ভিএসএম শব্দ-ব্যাগের একটি উন্নত সংস্করণ।

— সমসমার