অনানুষ্ঠানিক পাঠ্যে নামকরণ করা স্বত্তা স্বীকৃতির জন্য ডেটাসেট


18

আমি বর্তমানে অনানুষ্ঠানিক পাঠ্য (ট্যুইটের অনুরূপ কিছু) থেকে নামযুক্ত সত্তাগুলি বের করার জন্য একটি মডেলকে প্রশিক্ষণের জন্য লেবেলযুক্ত ডেটাসেটগুলি অনুসন্ধান করছি। যেহেতু মূলধন এবং ব্যাকরণে প্রায়শই আমার ডেটাসেটে দস্তাবেজগুলির অভাব থাকে, তাই আমি ডোমেন ডেটা খুঁজে বের করি যা সংবাদ নিবন্ধ এবং জার্নাল এন্ট্রিগুলির তুলনায় কিছুটা "অনানুষ্ঠানিক" যে সত্ত্বার স্বীকৃতি সিস্টেমের নামক শিল্পের আজকের অনেক রাষ্ট্র প্রশিক্ষিত।

কোন সুপারিশ? এ পর্যন্ত আমি শুধু প্রকাশিত Twitter থেকে 50k টোকেন সনাক্ত করতে পারব এখানে



@ ম্যাডিসন মে। আপনি একটি ডেটা সেট খুঁজে পেয়েছেন? আমি অনুরূপ কিছু খুঁজছি ধন্যবাদ।
অহোফার

আমি মার্কিন ওয়াশিংটন (মূল পোস্টে লিঙ্কযুক্ত) থেকে টুইটার নার্য় কর্পাস নিয়ে কাজ করতে হয়েছিল।
ম্যাডিসন মে


কোন ভাল ভালো এনোটোটেড ইংলিশ কর্পাস পেয়েছে?
अच্যুত নন্দ সাহু

উত্তর:


6

আমি এটি বুঝতে পেরেছি, এই বৈশিষ্ট্যগুলি যা আপনি একটি নমুনা ডেটাসেটে সন্ধান করছেন:

  1. পাঠ্য ডেটা
  2. এটি অনানুষ্ঠানিক হওয়া উচিত, যেমন টাইপস, স্ল্যাং এবং মূলত এমন কিছু যা পেশাদারভাবে সম্পাদিত নয়
  3. টুইটার ব্যতীত অন্য কিছু (আমি আপনাকে দোষ দিচ্ছি না, টেক্সট মাইনিংয়ে টুইটার হ'ল উপকারী উপায়ের অতিরিক্ত ব্যবহারের উপায়)

এখানে কিছু প্রস্তাবনা দেওয়া হল:

  1. স্প্যামআস্যাসিন কর্পাসের ইমেলগুলি - নোট করুন যে "হ্যাম" (স্প্যামহীন) এবং স্প্যাম ডেটাসেট উভয়ই উপলব্ধ
  2. মাইক্রোব্লগপিসিইউ ডেটা ইউসিআই থেকে সেট করা হয়েছে, যা সিনা ওয়েইবো ব্যবহারকারীদের মাইক্রোব্লগগুলি থেকে নেওয়া ডেটা - নোট করুন, কাঁচা টেক্সট ডেটাটি চীনা এবং ইংরেজির মিশ্রণ (আপনি চাইনিজদের মেশিন অনুবাদ করতে পারবেন, কেবল ইংরেজিতে ফিল্টার করতে পারেন বা এটি ব্যবহার করতে পারেন) হিসাবে হয়)
  3. আমাজন কমার্স ইউসিআই থেকে ডেটাসেট পর্যালোচনা করে
  4. মধ্যে ব্যাগ-O-শব্দ ডেটা সেটটি , Enron ইমেল ব্যবহার করার চেষ্টা করুন
  5. কুড়ি নিউজগ্রুপ ডেটা সেটটি
  6. এসএমএস স্প্যামের এই দুর্দান্ত সংগ্রহ
  7. আপনি সর্বদা আপনার নিজের পাঠ্য ডেটা ইন্টারনেট থেকে স্ক্র্যাপ (এক্সট্র্যাক্ট) করতে পারেন; আমি নিশ্চিত কোন ভাষা বা পরিসংখ্যানগত প্যাকেজ আপনি ব্যবহার করছেন, কিন্তু জন্য XPath ভিত্তিক প্যাকেজ আর (পাওয়া যায় নই rvest, scrapeRইত্যাদি) এবং পাইথন এই কাজ করা সম্ভব

1
নামযুক্ত সংস্থাগুলি দিয়ে কি এগুলির মধ্যে কোনও ডেটাসেট উল্লেখ করা হয়েছে? আমি বিশ্বাস করি ওপি এটিই সন্ধান করেছিল।
মিঃ ফিল

3

এগুলি পরীক্ষা করুন:

তথ্য উত্তোলনের জন্য পরীক্ষার ডোমেনগুলির সংগ্রহস্থল: http://www.isi.edu/info-agents/RISE/repository.html

ডিবিপিডিয়া: http://wiki.dbpedia.org/Downloads32 ( আয়না )

লিঙ্ক আপডেট হয়েছে:

http://www.isi.edu/integration/RISE/

https://github.com/dbpedia/extraction-framework/wiki/The-DBpedia-Data-Set


1
এই লিঙ্কগুলি আপডেট করুন কারণ তাদের মধ্যে কেউই আর কাজ করছে না।
মিঃ ফিল

0

আমি যে উত্সগুলি ব্যবহার করেছি:

আমি মনে করি যে এই ডেটাসেটগুলি আপনার কাজের জন্য সহায়ক হবে

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.