আমি বর্তমানে অনানুষ্ঠানিক পাঠ্য (ট্যুইটের অনুরূপ কিছু) থেকে নামযুক্ত সত্তাগুলি বের করার জন্য একটি মডেলকে প্রশিক্ষণের জন্য লেবেলযুক্ত ডেটাসেটগুলি অনুসন্ধান করছি। যেহেতু মূলধন এবং ব্যাকরণে প্রায়শই আমার ডেটাসেটে দস্তাবেজগুলির অভাব থাকে, তাই আমি ডোমেন ডেটা খুঁজে বের করি যা সংবাদ নিবন্ধ এবং জার্নাল এন্ট্রিগুলির তুলনায় কিছুটা "অনানুষ্ঠানিক" যে সত্ত্বার স্বীকৃতি সিস্টেমের নামক শিল্পের আজকের অনেক রাষ্ট্র প্রশিক্ষিত।
কোন সুপারিশ? এ পর্যন্ত আমি শুধু প্রকাশিত Twitter থেকে 50k টোকেন সনাক্ত করতে পারব এখানে ।