উত্তর:
ব্যাগ-অফ-শব্দের এবং ভেক্টর স্পেস মডেলটি কোনও নথির মতো পাঠ্যের মূল অংশকে বৈশিষ্ট্যযুক্ত করার বিভিন্ন দিককে বোঝায়। তারা তথ্য পুনরুদ্ধারের বিভাগের 23.1 বিভাগে জুরাফস্কি এবং মার্টিনের "স্পিচ এবং ল্যাঙ্গুয়েজ প্রসেসিং" পাঠ্যপুস্তকে ভালভাবে বর্ণনা করা হয়েছে। "স্কোরিংয়ের জন্য ভেক্টর স্পেস মডেল" বিভাগে ম্যানিং, রাঘাভান এবং স্কটিজ, 2008-র আরও একটি সংক্ষিপ্ত তথ্য উল্লেখ করা হয়েছে "তথ্য পুনরুদ্ধারের পরিচিতি "।
ব্যাগ-অফ-ওয়ার্ড বলতে বোঝায় যে আপনি কোনও দস্তাবেজ থেকে কোন ধরণের তথ্য বের করতে পারেন (যথা, ইউনিগ্রামের শব্দ)। ভেক্টর স্পেস মডেল প্রতিটি নথির জন্য ডেটা স্ট্রাকচারকে বোঝায় (যথা, টার্ম এবং টার্ম ওজন জোড়াগুলির একটি বৈশিষ্ট্য ভেক্টর)। উভয় দিক একে অপরের পরিপূরক।
আরো নির্দিষ্টভাবে:
ব্যাগ-অফ-শব্দের : প্রদত্ত নথির জন্য, আপনি একটি শৃঙ্খলাবদ্ধ না করে শব্দের একটি তালিকা তৈরি করতে কেবল অলিগ্রাম শব্দগুলি (ওরফে পদগুলি) বের করেন। কোনও পস ট্যাগ, কোনও বাক্য গঠন, কোনও শব্দার্থবিজ্ঞান, কোনও অবস্থান, কোনও বিগ্রাম, কোনও ট্রিগার নেই। দস্তাবেজটি উপস্থাপন করার জন্য একগুচ্ছ শব্দের জন্য তৈরি করে কেবলমাত্র ইউনিগ্রাম শব্দগুলি। এভাবে: ব্যাগ অফ-ওয়ার্ডস ।
ভেক্টর স্পেস মডেল : আপনি দস্তাবেজ থেকে যে শব্দের ব্যাগটি বের করেছেন, আপনি নথির জন্য একটি বৈশিষ্ট্য ভেক্টর তৈরি করেন, যেখানে প্রতিটি বৈশিষ্ট্য একটি শব্দ (শব্দ) এবং বৈশিষ্ট্যের মান একটি শব্দ ওজন। শব্দটি ওজন হতে পারে:
পুরো ডকুমেন্টটি এইভাবে একটি বৈশিষ্ট্য ভেক্টর এবং প্রতিটি বৈশিষ্ট্য ভেক্টর একটি ভেক্টর স্পেসের একটি বিন্দুর সাথে মিলে যায় । এই ভেক্টর স্পেসের মডেলটি এমন যে শব্দভান্ডারে প্রতিটি শব্দটির জন্য অক্ষ থাকে এবং তাই ভেক্টরের স্থানটি ভি- ডাইমেনশনাল, যেখানে ভি শব্দভাণ্ডারের আকার। ভেক্টরটি তখন প্রতিটি ভোকাবুলারি শব্দের জন্য একটি বৈশিষ্ট্য সহ ধারণাগতভাবে ভি- মাত্রিকও হওয়া উচিত । তবে, কারণ ভোকাবুলারিটি বড় হতে পারে ( ভি = 100,000 শর্তাবলীর ক্রম অনুসারে), কোনও নথির বৈশিষ্ট্য ভেক্টরটিতে সাধারণত সেই দস্তাবেজটি উপস্থিত থাকে এবং সেই শর্তগুলি বাদ দেয় না। এই জাতীয় বৈশিষ্ট্য ভেক্টরকে বিরল বলে মনে করা হয় ।
একটি দস্তাবেজের উদাহরণস্বরূপ ভেক্টর উপস্থাপনাটি এটির মতো দেখায়:
DOCUMENT_ID_42 LABEL_POLITICS a 55 ability 1 about 5 absent 2 abuse 1 access 1
accompanied 1 accompanying 2 according 2 account 1 accounted 1 accurate 1
acknowledge 4 activities 1 actual 1 actually 2 administering 1 ...
যেখানে এই উদাহরণস্বরূপ ভেক্টরের একটি ডকুমেন্ট আইডি রয়েছে (উদাহরণস্বরূপ 42), গ্রাউন্ড-ট্রুথ লেবেল (যেমন রাজনীতি) এবং পদ এবং মেয়াদী ফ্রিকোয়েন্সি জোড় সমন্বিত বৈশিষ্ট্য এবং বৈশিষ্ট্যগুলির মানগুলির একটি তালিকা। এখানে দেখা যায় যে এই দস্তাবেজটিতে "অনুপস্থিত" শব্দটি 2 বার এসেছে occurred
আপনি কি ডকুমেন্ট-টার্ম ম্যাট্রিক্স উপাদান এবং ভেক্টর স্পেস মডেলের ডকুমেন্ট-টার্ম ম্যাট্রিক্স উপাদানগুলিতে ভ্যাক্টর স্পেসে অপারেশন (ডট প্রোডাক্ট) বোধ করা (টিএফ-আইডিএফ ওয়েটস) হিসাবে শব্দটির ব্যাগ ব্যবহার করে শব্দটি ব্যবহার করে থাকেন? উদাহরণস্বরূপ)?