আমি গ্রুপের চেষ্টা করছি, উদাহরণস্বরূপ, প্রোগ্রামিং সম্পর্কিত অন্যান্য স্ট্রিংগুলির সাথে প্রোগ্রামিং সম্পর্কে স্ট্রিং, পদার্থবিজ্ঞানের বিষয়ে অন্যান্য স্ট্রিং সহ পদার্থবিজ্ঞানের স্ট্রিং ইত্যাদি বিভিন্ন বিষয়ের জন্য for সমস্যার সুস্পষ্ট তাত্ত্বিক ভাষাগত দিক থাকা সত্ত্বেও, আমি প্রোগ্রামিং / সফ্টওয়্যার ব্যবহার করে এটি করার চেষ্টা করছি।
রুনডাউন: প্রচুর পরিমাণে স্ট্রিং দেওয়া হয়েছে, কীভাবে আমি শব্দার্থতত্ত্ব থিম দ্বারা সেগুলি গোছানো করব?
নির্দিষ্ট অ্যাপ্লিকেশন: আমার কাছে 200 ডলার ট্র্যাভিয়া প্রশ্ন রয়েছে যা আমি সাধারণ গ্রুপিংগুলিতে (গাড়ি, কম্পিউটার, রাজনীতি, কানাডা, খাবার, বারাক ওবামা ইত্যাদি) শ্রেণিবদ্ধ করতে চাই।
আমি যা দেখেছি: উইকিপিডিয়ায় প্রাকৃতিক ভাষা প্রক্রিয়াজাতকরণ সরঞ্জামদণ্ডগুলির একটি তালিকা রয়েছে (ধরে নিলাম যে আমি যা করার চেষ্টা করছি তাকে আসলে এনএলপি বলা হয়) তাই আমি কয়েকটি তাকিয়ে দেখলাম তবে আমার প্রয়োজনের মতো আর কিছু করার কথা মনে হচ্ছে না।
নোটস: এটি উল্লেখ করা হয়েছে যে এটি করার জন্য অতিরিক্ত জ্ঞান প্রয়োজন (উদাহরণস্বরূপ পোরশে গাড়ি হওয়া, সি ++ প্রোগ্রামিংয়ের ভাষা হওয়া)। আমি তখন ধরে নিই যে প্রশিক্ষণের ডেটা প্রয়োজন, তবে আমার কাছে যদি কেবল প্রশ্ন ও উত্তরগুলির তালিকা থাকে তবে আমি কীভাবে প্রশিক্ষণ ডেটা তৈরি করতে পারি? এবং তারপরে আমি কীভাবে প্রশিক্ষণ ডেটা ব্যবহার করব?
আরও নোট: যদি আমার প্রশ্নোত্তর হিসাবে বর্তমান ফর্ম্যাটটি সহায়তা হিসাবে দেখা যায় (যদিও এটি জেএসএনের মতো দেখায় তবে এটি মূলত একটি কাঁচা পাঠ্য ফাইল):
// row 1: is metadata
// row 2: is a very specific kind of "category"
// row 3: is the question
// row 4: is the answer
{
15343
A MUSICAL PASTICHE
Of classical music's "three B's", he was the one born in Hamburg in 1833
Johannes Brahms
}
তবে কেউ ইতিমধ্যে একটি বিভাগ উপস্থিত রয়েছে বলে চিহ্নিত করার আগে লক্ষ করুন যে এখানে 200 ডলার প্রশ্ন এবং উত্তর রয়েছে এবং মূলত অনেকগুলি "বিভাগ" রয়েছে। আমি এগুলিকে উপরের তালিকাভুক্ত দলের মতো বৃহত্তর গ্রুপগুলিতে গ্রুপ করার চেষ্টা করছি। এছাড়াও, এই প্রশ্নের বিন্যাসটি খুব সহজেই সমস্ত প্রশ্নের জন্য পরিবর্তন করা যেতে পারে, আমি এটি প্রোগ্রামিকভাবে করি।
এবং আরও নোট: আমি জানি না আমার কতগুলি বিভাগের প্রয়োজন হবে (কমপক্ষে 10-20), কারণ আমি নিজেই সমস্ত প্রশ্নের মধ্যে পড়ে নি । আমি আংশিকভাবে শ্রেণিবদ্ধকরণের সময় সীমাবদ্ধ নম্বর নির্ধারিত হওয়ার প্রত্যাশা করছিলাম। যাইহোক, আমি সর্বদা ম্যানুয়ালি বেশ কয়েকটি বিভাগ তৈরি করতে পারি।