'টিএম' (পাঠ্য মাইনিং) প্যাকেজে ভেক্টর উত্স এবং ভিসারপাস কী What


9

'টিএম' প্যাকেজে ভেক্টর সোর্স এবং ভিসারপাস ঠিক কী আছে তা আমি নিশ্চিত নই।

এগুলির বিষয়ে ডকুমেন্টেশনটি অস্পষ্ট, কেউ কি আমাকে সহজ ভাষায় বুঝতে পারে?

উত্তর:


12

"করপাস" হ'ল পাঠ্য নথির একটি সংগ্রহ।

টিএম-তে ভিসারপাস বলতে "ভোল্টাইল" কর্পাসকে বোঝায় যার অর্থ কর্পস স্মৃতিতে সঞ্চিত আছে এবং এতে থাকা আর বস্তুটি নষ্ট হয়ে গেলে ধ্বংস হয়ে যাবে।

এটি পিসির্পাস বা স্থায়ী কর্পাসের সাথে বৈসাদৃশ্য করুন যা মেমরির বাইরে সংরক্ষণ করা হয় একটি ডিবিতে বলে।

টিএম ব্যবহার করে একটি ভিসারপাস তৈরি করতে, আমাদের ভিসারপাস পদ্ধতিতে পরামিতি হিসাবে একটি "উত্স" অবজেক্টটি পাস করতে হবে। এই পদ্ধতিটি ব্যবহার করে আপনি উপলভ্য উত্সগুলি খুঁজে পেতে পারেন -
getS উত্স ()

[1] "ডেটাফ্রেমসোর্স" "ডিআর সোর্স" "ইউআরআইএসোর্স" "ভেক্টরসোর্স"
[5] "এক্সএমএলসোর্স" "জিপসোর্স"

উত্স ইনপুট অবস্থানগুলি যেমন একটি ডিরেক্টরি, বা একটি ইউআরআই ইত্যাদির বিমূর্ত করে তোলে ভেক্টরসোর্স কেবলমাত্র অক্ষর ভেক্টরের জন্য

একটি সহজ উদাহরণ:

বলুন আপনার কাছে চর ভেক্টর রয়েছে -

ইনপুট <- সি ('এটি লাইন এক।', 'এবং এটি দ্বিতীয়টি')

উত্স তৈরি করুন - ভেকসোর্স <- ভেক্টরসোর্স (ইনপুট)

তারপরে কর্পাস তৈরি করুন - ভিসারপাস (ভিসোসর)

আশাকরি এটা সাহায্য করবে. আপনি এখানে আরও পড়তে পারেন - https://cran.r-project.org/web/packages/tm/vignettes/tm.pdf


5

ব্যবহারিক দিক থেকে, Corpusএবং মধ্যে একটি বড় পার্থক্য আছে VCorpus

CorpusSimpleCorpusডিফল্ট হিসাবে ব্যবহার করে যার অর্থ কয়েকটি বৈশিষ্ট্য VCorpusউপলব্ধ হবে না। তাত্ক্ষণিকভাবে স্পষ্ট একটি এটি হ'ল SimpleCorpusআপনাকে ড্যাশগুলি, আন্ডারস্কোরগুলি বা বিরামচিহ্নের অন্যান্য চিহ্নগুলি রাখতে দেয় না; SimpleCorpusবা Corpusস্বয়ংক্রিয়ভাবে এগুলি সরিয়ে দেয়, VCorpusনা। এর অন্যান্য সীমাবদ্ধতা রয়েছে Corpusযা আপনি সাহায্যে পাবেন ?SimpleCorpus

এখানে একটি উদাহরণ:

# Read a text file from internet
filePath <- "http://www.sthda.com/sthda/RDoc/example-files/martin-luther-king-i-have-a-dream-speech.txt"
text <- readLines(filePath)

# load the data as a corpus
C.mlk <- Corpus(VectorSource(text))
C.mlk
V.mlk <- VCorpus(VectorSource(text))
V.mlk

আউটপুটটি হবে:

<<SimpleCorpus>>
Metadata:  corpus specific: 1, document level (indexed): 0
Content:  documents: 46
<<VCorpus>>
Metadata:  corpus specific: 0, document level (indexed): 0
Content:  documents: 46

আপনি যদি বিষয়গুলির একটি পরিদর্শন করেন:

# inspect the content of the document
inspect(C.mlk[1:2])
inspect(V.mlk[1:2])

আপনি খেয়াল করবেন যে Corpusপাঠ্যটি আনপ্যাক করে:

<<SimpleCorpus>>
Metadata:  corpus specific: 1, document level (indexed): 0
Content:  documents: 2
[1]                                                                                                                                            
[2] And so even though we face the difficulties of today and tomorrow, I still have a dream. It is a dream deeply rooted in the American dream.


<<VCorpus>>
Metadata:  corpus specific: 0, document level (indexed): 0
Content:  documents: 2
[[1]]
<<PlainTextDocument>>
Metadata:  7
Content:  chars: 0
[[2]]
<<PlainTextDocument>>
Metadata:  7
Content:  chars: 139

VCorpusবস্তুর মধ্যে এটি একসাথে রাখার সময় ।

আসুন এখনই আপনি উভয়ের জন্য ম্যাট্রিক্স রূপান্তরটি বলুন:

dtm.C.mlk <- DocumentTermMatrix(C.mlk)
length(dtm.C.mlk$dimnames$Terms)
# 168

dtm.V.mlk <- DocumentTermMatrix(V.mlk)
length(dtm.V.mlk$dimnames$Terms)
# 187

পরিশেষে, আসুন বিষয়বস্তু দেখুন। এটি থেকে Corpus:

grep("[[:punct:]]", dtm.C.mlk$dimnames$Terms, value = TRUE)
# character(0)

এবং থেকে VCorpus:

grep("[[:punct:]]", dtm.V.mlk$dimnames$Terms, value = TRUE)

[1] "alabama,"       "almighty,"      "brotherhood."   "brothers."     
 [5] "california."    "catholics,"     "character."     "children,"     
 [9] "city,"          "colorado."      "creed:"         "day,"          
[13] "day."           "died,"          "dream."         "equal."        
[17] "exalted,"       "faith,"         "gentiles,"      "georgia,"      
[21] "georgia."       "hamlet,"        "hampshire."     "happens,"      
[25] "hope,"          "hope."          "injustice,"     "justice."      
[29] "last!"          "liberty,"       "low,"           "meaning:"      
[33] "men,"           "mississippi,"   "mississippi."   "mountainside," 
[37] "nation,"        "nullification," "oppression,"    "pennsylvania." 
[41] "plain,"         "pride,"         "racists,"       "ring!"         
[45] "ring,"          "ring."          "self-evident,"  "sing."         
[49] "snow-capped"    "spiritual:"     "straight;"      "tennessee."    
[53] "thee,"          "today!"         "together,"      "together."     
[57] "tomorrow,"      "true."          "york."

বিরামচিহ্ন সহ শব্দগুলি একবার দেখুন। যে একটি বিশাল পার্থক্য। তাই না?

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.