নাম, মোবাইল নম্বর, ঠিকানা, ইমেল, রাষ্ট্র, কাউন্টি, শহর ইত্যাদি হিসাবে প্রদত্ত শব্দগুলিকে শ্রেণিবদ্ধ করতে কোন মেশিন / গভীর শেখার / এনএলপি কৌশলগুলি ব্যবহার করা হয়


9

আমি একটি বুদ্ধিমান মডেল তৈরি করার চেষ্টা করছি যা শব্দ বা স্ট্রিংয়ের একটি সেট স্ক্যান করে মেশিন লার্নিং বা গভীর শিক্ষণ ব্যবহার করে তাদের নাম, মোবাইল নম্বর, ঠিকানা, শহর, রাজ্য, দেশ এবং অন্যান্য সত্তা হিসাবে শ্রেণিবদ্ধ করতে পারে।

আমি পন্থাগুলি অনুসন্ধান করেছিলাম, তবে দুর্ভাগ্যক্রমে আমি কোনও গ্রহণের উপায় পাইনি। আমি স্ট্রিংয়ের নাম বা শহর ইত্যাদি কিনা তা অনুমান করার জন্য আমি শব্দ ব্যাগের শব্দের মডেল এবং গ্লোভ শব্দ ব্যবহার করে চেষ্টা করেছি tried

তবে আমি ব্যাগের শব্দের মডেলটি দিয়ে সফল হই নি এবং গ্লোভের সাথে অনেকগুলি নাম রয়েছে যা এম্বেডিং উদাহরণে অন্তর্ভুক্ত নয়: - লরেন গ্লোভে উপস্থিত আছেন এবং লরেনা নেই

আমি এখানে এই পোস্টটি পেয়েছি , যার একটি যুক্তিসঙ্গত উত্তর ছিল তবে আমি এনএলপি এবং এসভিএম এটির সমাধানের জন্য ব্যবহৃত হয়েছিল তা বাদ দিয়ে আমি এই সমস্যাটি সমাধান করতে ব্যবহার করতে পারি না।

কোন পরামর্শ প্রশংসা করা হয়

ধন্যবাদ ও শ্রদ্ধা, সায় চরণ আদুরথি।


4
কোনও উত্তর নয়, তবে এটিকে নামযুক্ত সত্তা স্বীকৃতি বলা হয়। এই পদগুলির সাথে অনুসন্ধান করা সহায়ক তথ্য সন্ধান করতে পারে।
kbrose

ধন্যবাদ @ কেব্রোজ, নামযুক্ত সত্তা স্বীকৃতি কৌশলগুলি সন্ধান করবে।
সায় চরণ অদূর্থী

উত্তর:


1

আপনি অক্ষর গ্রাম প্রয়োগ করতে পারেন - স্বজ্ঞাতভাবে, ফোন নম্বর এবং ইমেল ঠিকানার মধ্যে অক্ষর সেটটিতে বিশাল পার্থক্য থাকতে পারে। এবং তারপরে ভবিষ্যদ্বাণী করার জন্য অক্ষর গ্রাম ভেক্টরটি এসভিএম-এ পাস করুন। আপনি নীচের ফিচার এক্সট্র্যাক্টরগুলি ব্যবহার করে স্কলারনে এটি ব্যবহার করে প্রয়োগ করতে পারেন।

  1. TfIdfVectorizer (বিশ্লেষক = 'চরিত্র')

  2. CountVectorizer (বিশ্লেষক = 'চরিত্র')

আপনার মডেল টিউন করার জন্য এনজিগ্রাম পরিসীমা এবং এসভিএমের স্ল্যাক ভেরিয়েবলগুলিতে ক্রস কার্যকর করুন।


ধন্যবাদ! @karthikbharadwaj। আমি বর্তমানে আর এর সাহায্যে কাজ করছি, স্কলারন সন্ধান করব এবং এটি কাজ করে কিনা তা দেখতে পাবে ..
সায় চরণ আদুরথি

@ সাই চরণ অদূর্থী - আপনি যদি এটির সহায়ক বলে মনে করেন তবে দয়া করে উত্সাহ দিন এবং যদি আপনি তাদের সহায়ক বলে মনে করেন তবে উত্তরগুলি গ্রহণ করুন।
কার্তিকভরদ্বাজ

অবশ্যই, আমি পাইথনে একবার এটি পরীক্ষা করে
নিলে

0

শব্দগুলিতে সাধারণ শ্রেণিবদ্ধ লেবেল প্রয়োগ করার জন্য সাধারণত নামযুক্ত-সত্তা স্বীকৃতি (এনইআর) বলা হয়

NER স্থির নিয়ম (যেমন, নিয়মিত প্রকাশ) বা শিখে নেওয়া নিয়ম (যেমন, সিদ্ধান্তের গাছ) দ্বারা করা যেতে পারে। এই নিয়মগুলি প্রায়শই ভঙ্গুর হয় এবং সাধারণ হয় না। শর্তসাপেক্ষ র্যান্ডম ফিল্ডস (সিআরএফ) প্রায়শই একটি ভাল সমাধান কারণ তারা ভাষার সুপ্ত রাজ্যের মডেল তৈরি করতে সক্ষম হয়। ডিইআর লার্নিং মডেলগুলির সংমিশ্রণে এনইআর -এ বর্তমানের অত্যাধুনিক পারফরম্যান্স সম্পন্ন হয়েছে

স্ট্যানফোর্ড স্বত্ত্বার নাম শনাক্তকারী এবং spaCy নেরের সম্পাদন করতে প্যাকেজ আছে।


ধন্যবাদ ডঃ ব্রেইন! .. তবে, আমি এমন একটি মডেল তৈরি করতে চাই যা কেবলমাত্র একটি শব্দ বা একটি স্ট্রিংয়ের শব্দ নেয় এবং এটি একটি নাম, ঠিকানা ইত্যাদির পূর্বাভাস দিতে পারে R আমি আরপাশে অ্যাপাচি দ্বারা ওপেনএনএলপি ব্যবহারের চেষ্টা করেছি I আমি বেশ সফল হইনি এটা. ব্যাকরণ এবং বক্তৃতার অংশগুলি ব্যবহার করার জন্য বিট শব্দগুলির অনুচ্ছেদের দরকার ছিল, আমি এমন একটি মডেল রাখতে চাই যা এমনকি ডাক কোড, জিপ কোড এবং রাষ্ট্রের কোডের মতো জিনিসগুলি বুঝতে পারে। ড্রেইন মস্তিষ্ক এখানে সঠিক পন্থা নিয়ে যাচ্ছি?
সাই চরণ আদুরথি

আপনার একটি একক সাধারণ মডেল থাকার কথা ভাবা উচিত নয়। প্রতিটি ধরণের উপাদানগুলির জন্য আপনার একটি মডেল তৈরি করা উচিত। উদাহরণস্বরূপ, বেশিরভাগ পোস্টাল কোডগুলি নিয়মিত অভিব্যক্তি সহ পাওয়া যেতে পারে। প্রসঙ্গটিও রাজা, একটি শব্দ দেওয়া একটি মডেল NER এর পূর্বাভাস দেওয়ার মতো খারাপ কাজ করবে। পাঠ্যের বড় অংশ থাকা ভাল।
ব্রায়ান স্পিয়ারিং

হাই, @ ডিআর মস্তিষ্ক, আমি আর এর জন্য টেক্সট 2 ওয়েভ প্যাকেজটি ব্যবহার করে দেখেছি, আমি শব্দগুলি কীভাবে অনুরূপ তা পরীক্ষা করতে গ্লোভ ওয়ার্ড এম্বেডিং ব্যবহার করেছি। উদাহরণস্বরূপ: আমার কাছে নাম, শহর, রাজ্য, দেশ ইত্যাদি হিসাবে বিভাগ সহ 1000 সারিগুলির ট্রেনের ডেটা রয়েছে different বিভিন্ন মান সহ পরীক্ষার ডেটা। আমি উভয় ট্রেন, পরীক্ষার ডেটা মানগুলির জন্য টিসিএম তৈরি করতে টেক্সট 2 ওয়েভ ব্যবহার করেছি, তারপরে সেই টিসিএমগুলিতে গ্লোভ মডেল ফিট করে এবং কোসাইন সাম্যতা ফাংশনটি ব্যবহার করে বিভাগ দ্বারা ডেটা প্রশিক্ষণের জন্য পরীক্ষার ডেটাতে প্রতিটি শব্দের মিল খুঁজে পেয়েছি। তবে, আমি প্রতিবার গ্লোভ মডেলগুলি তৈরি করে এবং সাদৃশ্যটি যাচাই করে আমি যথাযথতা এবং এর ভেরিয়েবল অর্জন করতে পারি না।
সায় চরণ অদূর্থী

ধন্যবাদ, ডঃ ব্রায়ান এটি কাজ করে যদি আমি প্রসঙ্গটি পেতে NERs ব্যবহার করতে বাক্য ব্যবহার করি। তবে, আমি এটি কেবল শব্দ ব্যবহার করে করতে চাই এবং দেখতে চাই যে কোনও মডেল শব্দ থেকে নিদর্শন শিখতে পারে কিনা।
সাই চরণ অদূর্থী

হাই ব্রেইন, আমি প্রাক প্রশিক্ষিত NER মডেলগুলি ব্যবহার করার জন্য অ্যাপাচি ওপেন এনএলপি ব্যবহার করেছি। এবং হ্যাঁ এটি শব্দেও কাজ করে।
সাঁই চরণ আদুরথি
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.