বাক্য থেকে মূল পাঠ্য বের করার জন্য সাধারণ পদ্ধতি (এনপিএল)


27

একটি বাক্য দেওয়া হয়েছে:

Complimentary gym access for two for the length of stay ($12 value per person per day)

জিম বা জিম অ্যাক্সেস শব্দের শনাক্ত করার জন্য আমি কোন সাধারণ পন্থা নিতে পারি?


প্রকল্পের সাথে যুক্ত টার্মিন
MrMeritology

উত্তর:


30

বাকী থেকে ধারণাগুলি নিষ্কাশনের জন্য অগভীর এন অ্যাটুরাল এল অ্যাঙ্গেজ পি রোসিং কৌশল ব্যবহার করা যেতে পারে।

-------------------------------------------

অগভীর এনএলপি কৌশল পদক্ষেপ:

1) বাক্যটিকে ছোট হাতের কাছে রূপান্তর করুন

২) স্টপওয়ার্ডগুলি সরান (এগুলি একটি ভাষায় পাওয়া সাধারণ শব্দ for এর মতো শব্দগুলি খুব, এবং, এর, ইত্যাদি, সাধারণ স্টপ শব্দগুলি)

৩) এন-গ্রাম অর্থাত্‍, এনটাক্টের একটি যথাযথ অনুক্রম টেক্সটের একটি নির্দিষ্ট ক্রম থেকে বের করুন (কেবল প্রসারিত এন, মডেল আরও প্রসঙ্গ সংরক্ষণের জন্য ব্যবহার করা যেতে পারে)

4) একটি সিনট্যাকটিক লেবেল বরাদ্দ করুন (বিশেষ্য, ক্রিয়া ইত্যাদি)

5) শব্দার্থ / সিনট্যাকটিক বিশ্লেষণ পদ্ধতির মাধ্যমে পাঠ্য থেকে জ্ঞান নিষ্কাশন অর্থাত্, শব্দ বা শব্দটি ধরে রাখার চেষ্টা করুন যা বিশেষ্য / ক্রিয়াপদের মতো একটি বাক্যে উচ্চতর ওজন রাখে

-------------------------------------------

আপনার প্রদত্ত বাক্যে উপরের পদক্ষেপগুলি প্রয়োগের ফলাফলগুলি পরীক্ষা করতে দিন Complimentary gym access for two for the length of stay ($12 value per person per day)

1-গ্রাম ফলাফল: জিম, অ্যাক্সেস, দৈর্ঘ্য, থাকার, মান, ব্যক্তি, দিন

Summary of step 1 through 4 of shallow NLP:

1-gram          PoS_Tag   Stopword (Yes/No)?    PoS Tag Description
-------------------------------------------------------------------    
Complimentary   NNP                             Proper noun, singular
gym             NN                              Noun, singular or mass
access          NN                              Noun, singular or mass
for             IN         Yes                  Preposition or subordinating conjunction
two             CD                              Cardinal number
for             IN         Yes                  Preposition or subordinating conjunction
the             DT         Yes                  Determiner
length          NN                              Noun, singular or mass
of              IN         Yes                  Preposition or subordinating conjunction
stay            NN                              Noun, singular or mass
($12            CD                              Cardinal number
value           NN                              Noun, singular or mass
per             IN                              Preposition or subordinating conjunction
person          NN                              Noun, singular or mass
per             IN                              Preposition or subordinating conjunction
day)            NN                              Noun, singular or mass

Step 4: Retaining only the Noun/Verbs we end up with gym, access, length, stay, value, person, day

আরও প্রসঙ্গ সংরক্ষণ করতে স্টপওয়ার্ডগুলি সরানোর জন্য এন বাড়িয়ে দিন।

2-গ্রাম ফলাফল: প্রশংসামূলক জিম, জিম অ্যাক্সেস, দৈর্ঘ্য থাকা, থাকার মান

Summary of step 1 through 4 of shallow NLP:

2-gram              Pos Tag
---------------------------
access two          NN CD
complimentary gym   NNP NN
gym access          NN NN
length stay         NN NN
per day             IN NN
per person          IN NN
person per          NN IN
stay value          NN NN
two length          CD NN
value per           NN IN

Step 5: Retaining only the Noun/Verb combination we end up with complimentary gym, gym access, length stay, stay value

3-গ্রাম ফলাফল: প্রশংসামূলক জিম অ্যাক্সেস, দৈর্ঘ্য থাকার মান, প্রতিদিন ব্যক্তি person

Summary of step 1 through 4 of shallow NLP:

3-gram                      Pos Tag
-------------------------------------
access two length           NN CD NN
complimentary gym access    NNP NN NN
gym access two              NN NN CD
length stay value           NN NN NN
per person per              IN NN IN
person per day              NN IN NN
stay value per              NN NN IN
two length stay             CD NN NN
value per person            NN IN NN


Step 5: Retaining only the Noun/Verb combination we end up with complimentary gym access, length stay value, person per day

মনে রাখার মতো ঘটনা:

  • পিওএস ট্যাগ বিবরণ https://www.ling.upenn.edu/courses/Fall_2003/ling001/penn_treebank_pos.html বুঝতে পেন ট্রি ব্যাঙ্কটি দেখুন
  • আপনার ডেটা এবং ব্যবসায়ের প্রসঙ্গে আপনি বাক্য থেকে এন-গ্রাম উত্তোলনের জন্য n মানটি স্থির করতে পারেন
  • ডোমেন নির্দিষ্ট স্টপ শব্দ যুক্ত করা ধারণা / থিম নিষ্কাশন মান বৃদ্ধি করবে
  • ডিপ এনএলপি কৌশল আরও ভাল ফলাফল দেবে অর্থাত্ এন-গ্রামের পরিবর্তে বাক্যগুলির মধ্যে সম্পর্কগুলি সনাক্ত করবে এবং প্রসঙ্গটি ধরে রাখতে জটিল নির্মাণ হিসাবে প্রতিনিধিত্ব করবে / প্রকাশ করবে। অতিরিক্ত তথ্যের জন্য, দয়া করে /stats//a/133680/66708 দেখুন

সরঞ্জাম:

স্পিচ ট্যাগ করার জন্য আপনি ওপেনএনএলপি / স্ট্যানফোর্ডএনএলপি ব্যবহার বিবেচনা করতে পারেন। বেশিরভাগ প্রোগ্রামিং ভাষার ওপেনএনএলপি / স্ট্যানফোর্ডএনএলপি-র সহায়ক লাইব্রেরি রয়েছে। আপনার আরামের ভিত্তিতে আপনি ভাষাটি চয়ন করতে পারেন। নীচে আমি পিওএস ট্যাগিংয়ের জন্য ব্যবহৃত নমুনা আর কোডটি দিচ্ছি।

নমুনা আর কোড:

Sys.setenv(JAVA_HOME='C:\\Program Files\\Java\\jre7') # for 32-bit version
library(rJava)
require("openNLP")
require("NLP")

s <- paste("Complimentary gym access for two for the length of stay $12 value per person per day")

tagPOS <-  function(x, ...) {
  s <- as.String(x)
    word_token_annotator <- Maxent_Word_Token_Annotator()
    a2 <- Annotation(1L, "sentence", 1L, nchar(s))
    a2 <- annotate(s, word_token_annotator, a2)
    a3 <- annotate(s, Maxent_POS_Tag_Annotator(), a2)
    a3w <- a3[a3$type == "word"]
    POStags <- unlist(lapply(a3w$features, `[[`, "POS"))
    POStagged <- paste(sprintf("%s/%s", s[a3w], POStags), collapse = " ")
    list(POStagged = POStagged, POStags = POStags)
  }

  tagged_str <-  tagPOS(s)
  tagged_str

#$POStagged
#[1] "Complimentary/NNP gym/NN access/NN for/IN two/CD for/IN the/DT length/NN of/IN stay/NN $/$ 12/CD value/NN per/IN     person/NN per/IN day/NN"
#
#$POStags
#[1] "NNP" "NN"  "NN"  "IN"  "CD"  "IN"  "DT"  "NN"  "IN"  "NN"  "$"   "CD" 
#[13] "NN"  "IN"  "NN"  "IN"  "NN" 

অগভীর ও গভীর এনএলপি সম্পর্কিত অতিরিক্ত পাঠ:


দুর্দান্ত উত্তর (+1)। একটি মাত্র পরামর্শ: যদি সম্ভব হয় তবে সাহিত্যের সরবরাহ করুন বা কমপক্ষে আপনার উল্লেখ করেছেন অগভীর এনএলপি কৌশল সম্পর্কে সাধারণ উল্লেখ করুন।
আলেকসান্দ্র ব্লেক

1
তোমাকে অনেক ধন্যবাদ. দুটি প্রশ্ন, আমি কি এনটিএলকে দিয়ে এটি করতে পারি? আমি কি একই কাজ করতে টিএফ-আইডিএফ ব্যবহার করতে পারি, তারপরে সর্বাধিক অনন্য শব্দের (সর্বোচ্চ স্কোর) আমার মূল শব্দ হিসাবে গ্রহণ করতে পারি?
উইলিয়াম ফ্যালকন

@ আলেকসান্ডার ব্লেক, ধন্যবাদ অগভীর এবং গভীর এনএলপি সম্পর্কে আরও জানার জন্য আমি অতিরিক্ত পঠন লিঙ্ক যুক্ত করেছি। আশা করি এটি সহায়তা করে
মনোহর স্বামীনাথন

@ উইলিয়াম ফ্যালকন, ধন্যবাদ 1) হ্যাঁ, আপনি এনল্টকে ব্যবহার করতে পারেন 2) অবশ্যই, টিএফ-আইডিএফ ব্যবহার করা যেতে পারে আপনি যদি নথির (স্তরের) স্তরে ধারণা বা থিমটি অনুসন্ধান করার চেষ্টা করছেন।
মনোহর স্বামীনাথন

3

আপনাকে বাক্য কাঠামো বিশ্লেষণ করতে হবে এবং একই সাথে আগ্রহের সিনট্যাকটিক বিভাগগুলি বের করতে হবে (এই ক্ষেত্রে, আমি মনে করি এটি বিশেষ্য বাক্যাংশ হবে , যা একটি ফ্রেসাল বিভাগ । বিশদগুলির জন্য, সম্পর্কিত উইকিপিডিয়া নিবন্ধ এবং এনএলটিকে বইয়ের "বিশ্লেষণ বাক্য গঠন" অধ্যায়টি দেখুন।

উপরে বর্ণিত পদ্ধতির এবং তার বাইরে বাস্তবায়নের জন্য উপলব্ধ সফ্টওয়্যার সরঞ্জামগুলির বিষয়ে , আমি NLTK (যদি আপনি পাইথন পছন্দ করেন), বা স্ট্যানফোর্ডএনএলপি সফ্টওয়্যার (যদি আপনি জাভা পছন্দ করেন ) বিবেচনা করার পরামর্শ দেব । অন্যান্য অনেক এনএলপি ফ্রেমওয়ার্ক, লাইব্রেরি এবং বিভিন্ন ভাষা সমর্থন প্রোগ্রামিংয়ের জন্য, এই দুর্দান্ত সুনির্দিষ্ট তালিকার সংশ্লিষ্ট (এনএলপি) বিভাগগুলি দেখুন ।


0

আপনি যদি কোনও আর ব্যবহারকারী হন তবে http://www.rdatamining.com এ প্রচুর ভাল ব্যবহারিক তথ্য রয়েছে । তাদের পাঠ্য খনির উদাহরণগুলি দেখুন।
এছাড়াও, টিএম প্যাকেজটি একবার দেখুন।
এটিও একটি ভাল সমাহার সাইট- http://www.tapor.ca/


লিঙ্কগুলি এই সাইটে বৈধ উত্তর হিসাবে বিবেচিত হয় না। আপনার পোস্টে মূল প্রশ্নের উত্তর দিন এবং আপনার উত্তরটি পরিপূরক করতে লিঙ্কগুলি ব্যবহার করুন।
শেলডোনক্রেজার
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.