আমি একটি অ্যাপ্লিকেশন প্রোটোটাইপ করছি এবং কিছু উত্পন্ন বাক্যগুলিতে বিভ্রান্তি গণনা করতে আমার একটি ভাষা মডেল প্রয়োজন।
অজগরটিতে কি আমি সহজেই ব্যবহার করতে পারি এমন কোনও প্রশিক্ষিত ভাষার মডেল রয়েছে? কিছু সাধারণ মত
model = LanguageModel('en')
p1 = model.perplexity('This is a well constructed sentence')
p2 = model.perplexity('Bunny lamp robert junior pancake')
assert p1 < p2
আমি কিছু ফ্রেমওয়ার্ক দেখেছি কিন্তু আমি যা চাই তা পাইনি। আমি জানি আমি এর মতো কিছু ব্যবহার করতে পারি:
from nltk.model.ngram import NgramModel
lm = NgramModel(3, brown.words(categories='news'))
এটি ব্রাউন করপাসে একটি ভাল টিউরিং সম্ভাব্যতা বিতরণ ব্যবহার করে তবে আমি 1 বি শব্দগুলির ডেটাসেটের মতো কিছু বড় ডেটাসেটের জন্য ভাল-রচিত মডেলটি খুঁজছিলাম। একটি সাধারণ ডোমেনের ফলাফলগুলিতে আমি আসলে বিশ্বাস করতে পারি এমন কিছু (কেবলমাত্র সংবাদ নয়)