প্রচুর পাঠ্য দলিল রয়েছে (প্রাকৃতিক ভাষায়, কাঠামোগত), কিছু শব্দার্থিক মেটা-ডেটা দিয়ে এগুলি বর্ণনা করার সম্ভাব্য উপায়গুলি কী কী? উদাহরণস্বরূপ, একটি সংক্ষিপ্ত দস্তাবেজ বিবেচনা করুন:
I saw the company's manager last day.
এ থেকে তথ্য আহরণ করতে সক্ষম হতে, এটি কম অস্পষ্ট হওয়ার জন্য অতিরিক্ত ডেটা দিয়ে মন্তব্য করা উচিত। এই জাতীয় মেটা-ডেটা সন্ধানের প্রক্রিয়াটি প্রশ্নযুক্ত নয়, সুতরাং ধরে নিন যে এটি ম্যানুয়ালি করা হয়েছে। প্রশ্নটি হল কীভাবে এই তথ্যগুলি কীভাবে সংরক্ষণ করা যায় যাতে এর উপর আরও বিশ্লেষণ আরও সুবিধাজনক / দক্ষতার সাথে করা যায়?
একটি সম্ভাব্য পদ্ধতির এক্সএমএল ট্যাগগুলি ব্যবহার করা (নীচে দেখুন), তবে এটি খুব ভারবস বলে মনে হচ্ছে এবং পাঠ্যের নথিতে এই জাতীয় মেটা-ডেটা সংরক্ষণ করার জন্য আরও ভাল পন্থা / গাইডলাইন রয়েছে।
<Person name="John">I</Person> saw the <Organization name="ACME">company</Organization>'s
manager <Time value="2014-5-29">last day</Time>.