মেটা-ডেটা সহ টেক্সট ডকুমেন্টগুলি কীভাবে টীকা দেবেন?


18

প্রচুর পাঠ্য দলিল রয়েছে (প্রাকৃতিক ভাষায়, কাঠামোগত), কিছু শব্দার্থিক মেটা-ডেটা দিয়ে এগুলি বর্ণনা করার সম্ভাব্য উপায়গুলি কী কী? উদাহরণস্বরূপ, একটি সংক্ষিপ্ত দস্তাবেজ বিবেচনা করুন:

I saw the company's manager last day.

এ থেকে তথ্য আহরণ করতে সক্ষম হতে, এটি কম অস্পষ্ট হওয়ার জন্য অতিরিক্ত ডেটা দিয়ে মন্তব্য করা উচিত। এই জাতীয় মেটা-ডেটা সন্ধানের প্রক্রিয়াটি প্রশ্নযুক্ত নয়, সুতরাং ধরে নিন যে এটি ম্যানুয়ালি করা হয়েছে। প্রশ্নটি হল কীভাবে এই তথ্যগুলি কীভাবে সংরক্ষণ করা যায় যাতে এর উপর আরও বিশ্লেষণ আরও সুবিধাজনক / দক্ষতার সাথে করা যায়?

একটি সম্ভাব্য পদ্ধতির এক্সএমএল ট্যাগগুলি ব্যবহার করা (নীচে দেখুন), তবে এটি খুব ভারবস বলে মনে হচ্ছে এবং পাঠ্যের নথিতে এই জাতীয় মেটা-ডেটা সংরক্ষণ করার জন্য আরও ভাল পন্থা / গাইডলাইন রয়েছে।

<Person name="John">I</Person> saw the <Organization name="ACME">company</Organization>'s
manager <Time value="2014-5-29">last day</Time>.

এসজিএমএলের অন্যতম প্রধান উদ্দেশ্য (এটি তার বংশধরদের জন্য একই, XML) হ'ল পাঠ্য দলিলগুলিকে ট্যাগ করার জন্য উপায় সরবরাহ করা (পিওএস এবং শব্দার্থক ট্যাগ)।
হরিণ হান্টার

আপনি কোন ধরণের মেটাডেটা যুক্ত করতে চান তা সম্পর্কে আরও সুনির্দিষ্ট / সীমাবদ্ধ হতে পারে? আপনার দুটি উদাহরণের সাথে আমি সন্দেহ করি যে এক্সএমএল ট্যাগগুলির মতো একই জেনেরিক ভাব প্রকাশের একটি কম ভারবস উপায় আছে।
ওজেডো

@ojdo মেটা-ডেটার বেশিরভাগটি হয় দ্ব্যর্থহীনতার জন্য (আপেক্ষিক সময়ের মতো), বা বিশেষ সত্ত্বা নির্দিষ্টকরণের জন্য (যেমন এফকে)।
আমির আলী আকবরী

2
আমি অতীতে brat.nlplab.org ব্যবহার করেছি । বিভিন্ন ধরণের টিকাশনের জন্য একটি দুর্দান্ত ইন্টারফেস রয়েছে। টীকাগুলি একটি পৃথক .নাট ফাইলগুলিতে সংরক্ষিত হয় যা শব্দের তালিকা এবং দস্তাবেজের মধ্যে তাদের অবস্থান is
ব্যবহারকারী 1893354

@ ব্যবহারকারী 1893354 খুব সহায়ক! এটির দ্বারা বিশেষত ব্যবহৃত " ব্র্যাট স্ট্যান্ডঅফ ফর্ম্যাট " আমার প্রয়োজনের জন্য খুব উপযুক্ত বলে মনে হচ্ছে। আমি চাইলে উত্তর পোস্ট করার পরামর্শ দিই।
আমির আলী আকবরী

উত্তর:


15

ব্যক্তিগতভাবে আমি এমন কিছু ব্যবহার করার পক্ষে পরামর্শ দেব যা এনএলপি ক্ষেত্রে উভয়ই সুনির্দিষ্ট নয় এবং এমন কিছু যা যথেষ্ট সাধারণ যে আপনি এখনও এই মেটাডেটার স্তর ছাড়িয়ে যাওয়া শুরু করলেও এটি একটি সরঞ্জাম হিসাবে ব্যবহার করা যেতে পারে। আমি বিশেষত এমন একটি ফর্ম্যাট বেছে নেব যা উন্নয়নের পরিবেশ নির্বিশেষে ব্যবহার করা যেতে পারে এবং এটি প্রাসঙ্গিক হয়ে উঠলে কিছু প্রাথমিক কাঠামো রাখতে পারে এমন একটি (টোকেনাইজেশনের মতো)

এটি অদ্ভুত বলে মনে হতে পারে তবে আমি সততার সাথে পরামর্শ দেব JSON। এটি চূড়ান্তভাবে সমর্থিত, প্রচুর কাঠামো সমর্থন করে এবং যথেষ্ট নমনীয় যে পর্যাপ্ত শক্তিশালী না হওয়ার জন্য আপনাকে এ থেকে সরে যেতে হবে না। আপনার উদাহরণের জন্য, এর মতো কিছু:

{'text': 'I saw the company's manager last day.", {'Person': [{'name': 'John'}, {'indices': [0:1]}, etc...]}

এখানে যে কোনও এনএলপি-নির্দিষ্ট ফর্ম্যাটগুলির মধ্যে আপনি যে বড় সুবিধা পেয়েছেন তা হ'ল যে JSONকোনও পরিবেশে পার্স করা যায় এবং যেহেতু আপনাকে সম্ভবত আপনার ফর্ম্যাটটি সম্পাদনা করতে হবে, তাই জেএসওএন নিজেকে খুব সাধারণ সম্পাদনাগুলিতে ndsণ দেয় যা আপনাকে একটি স্বল্প দূরত্ব দেয় give অন্যান্য বিন্যাসে।

আপনি চাইলে স্পষ্টভাবে টোকনাইজেশন তথ্যও সংরক্ষণ করতে পারেন:

{"text": ["I", "saw", "the", "company's", "manager", "last", "day."]}

সম্পাদনা: মেটাডেটার ম্যাপিং স্পষ্ট করার জন্য বেশ উন্মুক্ত, তবে এখানে একটি উদাহরণ দেওয়া হল:

{'body': '<some_text>',
 'metadata': 
  {'<entity>':
    {'<attribute>': '<value>',
     'location': [<start_index>, <end_index>]
    }
  }
}

আশা করি এটি সহায়তা করে, আপনার যদি আরও কোনও প্রশ্ন থাকে তবে আমাকে জানান।


ওয়েব বিকাশকারী হিসাবে, জেএসওএন আমার কাছে সম্পূর্ণ যুক্তিসঙ্গত বলে মনে হয়, তবে, আপনি কী সত্তাগুলিতে শব্দ ম্যাপিংয়ের সঠিক বিন্যাসটি ব্যাখ্যা করতে পারেন?
আমির আলী আকবরী

আরও বিবরণ অন্তর্ভুক্ত করতে আমিরআলিআকবাড়ি আপডেট উত্তর
ইন্দো

7

সাধারণভাবে, আপনি এইভাবে দস্তাবেজগুলিতে ট্যাগ করতে এক্সএমএল ট্যাগগুলি ব্যবহার করতে চান না কারণ ট্যাগগুলি ওভারল্যাপ হতে পারে।

ইউআইএমএ , গেট এবং অনুরূপ এনএলপি ফ্রেমওয়ার্কগুলি ট্যাগগুলি পাঠ্য থেকে পৃথক করে বোঝায়। প্রতিটি ট্যাগ, যেমন Person, ACME, Johnইত্যাদি অবস্থান যে ট্যাগ শুরু হয় এবং অবস্থান এটি শেষ হয় যেমন সংরক্ষণ করা হয়। সুতরাং, ট্যাগের জন্য ACME, এটি 11 পজিশন শুরু করা এবং 17 পজিশনে শেষ হিসাবে সংরক্ষণ করা হবে।


7

ছোঁড়া টীকা টুল আমার মন্তব্য অনুযায়ী আপনার জন্য সহায়ক হতে পারে। আমি তাদের অনেকগুলি চেষ্টা করেছি এবং এটি আমি খুঁজে পেয়েছি সেরা। এটিতে একটি দুর্দান্ত ইউজার ইন্টারফেস রয়েছে এবং এটি বিভিন্ন ধরণের টিকাতে সহায়তা করতে পারে। টীকাগুলি পৃথক .annot ফাইলের মধ্যে সংরক্ষণ করা হয় যা প্রতিটি টীকা পাশাপাশি মূল নথির মধ্যে এর অবস্থান ধারণ করে। সতর্কতার একটি শব্দ যদিও, আপনি যদি শেষ পর্যন্ত স্ট্যানফোর্ড এনইআর সরঞ্জামের মতো শ্রেণিবদ্ধে টীকাগুলিকে ফিড করতে চান তবে ডেটাটি এটি গ্রহণ করবে এমন ফর্ম্যাটে ডেটা পেতে আপনাকে কিছু হেরফের করতে হবে।


1

সমস্ত বিদ্যমান তথ্য বর্ণনা করার জন্য এটি এত কঠিন কাজ, তবে আমরা একটি ডেটা মডেল ব্যবহার করতে পারি: http://schema.org/ , যেখানে তথ্যের কাঠামোগত ধরণ রয়েছে। পূর্ব নির্বাহকে মার্কআপ প্রযুক্তি প্রয়োগের লক্ষ্যে লক্ষ্য করা হয়েছিল, সুতরাং, এটি আপনার কাজের জন্য কার্যকর হতে পারে বলে মনে হয়।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.