প্রাকৃতিক ভাষা প্রক্রিয়াকরণ বিশ্লেষণ করা ডেটা রয়েছে


12

আমি সম্প্রতি স্ট্যানফোর্ডের কোরএনএলপি ব্যবহার করে প্রাকৃতিক ভাষা প্রক্রিয়াকরণ (এনএলপি) নিয়ে পরীক্ষা-নিরীক্ষা শুরু করেছি এবং আমি ভাবছি যে কোনও পাঠ্য খনির অ্যাপ্লিকেশনটির মতো এনএলপি পার্সড ডেটা সংরক্ষণ করার কিছু স্ট্যান্ডার্ড উপায় কী?

আমি যেভাবে আকর্ষণীয় হতে পারি তার একটি উপায় হ'ল বাচ্চাদের সংলগ্ন তালিকা হিসাবে সংরক্ষণ করা এবং পুনরাবৃত্ত অনুসন্ধানগুলির ভাল ব্যবহার করা (পোস্টগ্রিস এটি সমর্থন করে এবং আমি এটি সত্যই ভালভাবে কাজ করে দেখতে পেয়েছি)।

তবে আমি ধরে নিয়েছি যে এটি করার জন্য সম্ভবত অনেকগুলি স্ট্যান্ডার্ড উপায় রয়েছে যা নির্ভর করে বছরের পর বছর ধরে এই ক্ষেত্রটিতে কাজ করা লোকেরা গ্রহণ করেছে analysis সুতরাং এনএলপি পার্সড ডেটার জন্য স্ট্যান্ডার্ড জেদী কৌশলগুলি কী কী এবং সেগুলি কীভাবে ব্যবহৃত হয়?

উত্তর:


3

আমি একবার একটি এনএলপি টুলকিট নিয়ে কাজ করেছি এবং আপনার বর্ণিত সমস্যার মধ্যে দিয়েছি। আমার মনে হয় (কমপক্ষে) দুটি পন্থা রয়েছে:

  • (অন্তর্নিহিত পদ্ধতির), স্মৃতিচারণ ব্যবহার করুন

    প্রোগ্রামিং ভাষাগুলিতে যেখানে ফাংশনগুলি প্রথম শ্রেণীর অবজেক্ট (যেমন লুয়া, পাইথন বা পার্ল 1 ) রয়েছে সেখানে স্বয়ংক্রিয় স্মৃতি মেমোজাইজেশন (রান-টাইমে) প্রতিস্থাপিত করে একটি ফাংশনকে তার গণিত মূল্যের সাথে প্রতিস্থাপিত করে একবার প্রদত্তের জন্য একটি মান গণনা করা হয় once পরামিতি সেট।

    এটি আমি ব্যবহার করেছি এবং এটি দ্রুত প্রয়োগ করা যেতে পারে; ত্রুটিটি ছিল, কিছু বৃহত্তর ডেটা স্ট্রাকচারটি ডিস্কে অবিচল থাকে এবং লোডিং যখন পুনঃ গণনার চেয়ে তীব্রতার আদেশ ছিল, তখনও এটি সময় নেয়।

  • (স্পষ্টত), ভবিষ্যতে আপনার যত্ন নিতে পারে এমন সমস্ত ফলাফল সংরক্ষণের জন্য এটি কিছু সম্পর্কিত ডাটাবেস ব্যবহার করুন, এটি সম্পর্কযুক্ত বা ডকুমেন্ট-ভিত্তিক হোক। এটি শুরুতে আরও মনোযোগ প্রয়োজন, তবে দীর্ঘমেয়াদে এটি পরিশোধ করতে হবে।

আগ্রহের বিষয়:


সম্পাদনা করুন: আমি মাল্টিস্টেপ দীর্ঘকাল ধরে চলমান গণনার জন্য ইদানীং ব্যবহার করে যাচ্ছি এটি একটি ওয়ার্কফ্লো কাঠামো, যার মধ্যে কয়েক ডজন রয়েছে । এটি অধ্যবসায় সম্পর্কে সত্য নয়, কিন্তু অধ্যবসায় কর্মপ্রবাহের একটি পদক্ষেপ। আমি তার জন্য লুইজি চেষ্টা করছি এবং এটি আসে, যেমন হ্যাডোপ এবং পোস্টগ্রিস সহায়ক ক্লাসগুলির সাথে, যা প্রচুর বয়লারপ্লিট কোডকে সরিয়ে দিতে পারে।


2

একটি ভাল কৌশল হ'ল একটি ভাল হ্রাস / মানচিত্র বৈশিষ্ট্যযুক্ত ডাটাবেস ব্যবহার করা, মঙ্গোডিবি বা কাউচডিবি-র মতো এনওএসকিউএল ডাটাবেসের মতোও জানুন।
থিস ডাটাবেসগুলি কোনও মানচিত্রের শর্তাদি এবং সংলগ্ন ক্ষেত্রগুলি, এবং ("" গ্রুপ ") সম্পর্কিত তথ্যকে হ্রাস করার জন্য সহজ কোডেড বিধি তৈরি করার জন্য সাধারণ কোডেড নিয়ম তৈরি করার অনুমতি দেয় ।

আপনি এখানে শুরু করতে পারেন:
http://www.mongodb.org/
http://wiki.apache.org/couchdb/

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.