উত্তর:
"করপাস" হ'ল পাঠ্য নথির একটি সংগ্রহ।
টিএম-তে ভিসারপাস বলতে "ভোল্টাইল" কর্পাসকে বোঝায় যার অর্থ কর্পস স্মৃতিতে সঞ্চিত আছে এবং এতে থাকা আর বস্তুটি নষ্ট হয়ে গেলে ধ্বংস হয়ে যাবে।
এটি পিসির্পাস বা স্থায়ী কর্পাসের সাথে বৈসাদৃশ্য করুন যা মেমরির বাইরে সংরক্ষণ করা হয় একটি ডিবিতে বলে।
টিএম ব্যবহার করে একটি ভিসারপাস তৈরি করতে, আমাদের ভিসারপাস পদ্ধতিতে পরামিতি হিসাবে একটি "উত্স" অবজেক্টটি পাস করতে হবে। এই পদ্ধতিটি ব্যবহার করে আপনি উপলভ্য উত্সগুলি খুঁজে পেতে পারেন -
getS উত্স ()
[1] "ডেটাফ্রেমসোর্স" "ডিআর সোর্স" "ইউআরআইএসোর্স" "ভেক্টরসোর্স"
[5] "এক্সএমএলসোর্স" "জিপসোর্স"
উত্স ইনপুট অবস্থানগুলি যেমন একটি ডিরেক্টরি, বা একটি ইউআরআই ইত্যাদির বিমূর্ত করে তোলে ভেক্টরসোর্স কেবলমাত্র অক্ষর ভেক্টরের জন্য
একটি সহজ উদাহরণ:
বলুন আপনার কাছে চর ভেক্টর রয়েছে -
ইনপুট <- সি ('এটি লাইন এক।', 'এবং এটি দ্বিতীয়টি')
উত্স তৈরি করুন - ভেকসোর্স <- ভেক্টরসোর্স (ইনপুট)
তারপরে কর্পাস তৈরি করুন - ভিসারপাস (ভিসোসর)
আশাকরি এটা সাহায্য করবে. আপনি এখানে আরও পড়তে পারেন - https://cran.r-project.org/web/packages/tm/vignettes/tm.pdf
ব্যবহারিক দিক থেকে, Corpus
এবং মধ্যে একটি বড় পার্থক্য আছে VCorpus
।
Corpus
SimpleCorpus
ডিফল্ট হিসাবে ব্যবহার করে যার অর্থ কয়েকটি বৈশিষ্ট্য VCorpus
উপলব্ধ হবে না। তাত্ক্ষণিকভাবে স্পষ্ট একটি এটি হ'ল SimpleCorpus
আপনাকে ড্যাশগুলি, আন্ডারস্কোরগুলি বা বিরামচিহ্নের অন্যান্য চিহ্নগুলি রাখতে দেয় না; SimpleCorpus
বা Corpus
স্বয়ংক্রিয়ভাবে এগুলি সরিয়ে দেয়, VCorpus
না। এর অন্যান্য সীমাবদ্ধতা রয়েছে Corpus
যা আপনি সাহায্যে পাবেন ?SimpleCorpus
।
এখানে একটি উদাহরণ:
# Read a text file from internet
filePath <- "http://www.sthda.com/sthda/RDoc/example-files/martin-luther-king-i-have-a-dream-speech.txt"
text <- readLines(filePath)
# load the data as a corpus
C.mlk <- Corpus(VectorSource(text))
C.mlk
V.mlk <- VCorpus(VectorSource(text))
V.mlk
আউটপুটটি হবে:
<<SimpleCorpus>>
Metadata: corpus specific: 1, document level (indexed): 0
Content: documents: 46
<<VCorpus>>
Metadata: corpus specific: 0, document level (indexed): 0
Content: documents: 46
আপনি যদি বিষয়গুলির একটি পরিদর্শন করেন:
# inspect the content of the document
inspect(C.mlk[1:2])
inspect(V.mlk[1:2])
আপনি খেয়াল করবেন যে Corpus
পাঠ্যটি আনপ্যাক করে:
<<SimpleCorpus>>
Metadata: corpus specific: 1, document level (indexed): 0
Content: documents: 2
[1]
[2] And so even though we face the difficulties of today and tomorrow, I still have a dream. It is a dream deeply rooted in the American dream.
<<VCorpus>>
Metadata: corpus specific: 0, document level (indexed): 0
Content: documents: 2
[[1]]
<<PlainTextDocument>>
Metadata: 7
Content: chars: 0
[[2]]
<<PlainTextDocument>>
Metadata: 7
Content: chars: 139
VCorpus
বস্তুর মধ্যে এটি একসাথে রাখার সময় ।
আসুন এখনই আপনি উভয়ের জন্য ম্যাট্রিক্স রূপান্তরটি বলুন:
dtm.C.mlk <- DocumentTermMatrix(C.mlk)
length(dtm.C.mlk$dimnames$Terms)
# 168
dtm.V.mlk <- DocumentTermMatrix(V.mlk)
length(dtm.V.mlk$dimnames$Terms)
# 187
পরিশেষে, আসুন বিষয়বস্তু দেখুন। এটি থেকে Corpus
:
grep("[[:punct:]]", dtm.C.mlk$dimnames$Terms, value = TRUE)
# character(0)
এবং থেকে VCorpus
:
grep("[[:punct:]]", dtm.V.mlk$dimnames$Terms, value = TRUE)
[1] "alabama," "almighty," "brotherhood." "brothers."
[5] "california." "catholics," "character." "children,"
[9] "city," "colorado." "creed:" "day,"
[13] "day." "died," "dream." "equal."
[17] "exalted," "faith," "gentiles," "georgia,"
[21] "georgia." "hamlet," "hampshire." "happens,"
[25] "hope," "hope." "injustice," "justice."
[29] "last!" "liberty," "low," "meaning:"
[33] "men," "mississippi," "mississippi." "mountainside,"
[37] "nation," "nullification," "oppression," "pennsylvania."
[41] "plain," "pride," "racists," "ring!"
[45] "ring," "ring." "self-evident," "sing."
[49] "snow-capped" "spiritual:" "straight;" "tennessee."
[53] "thee," "today!" "together," "together."
[57] "tomorrow," "true." "york."
বিরামচিহ্ন সহ শব্দগুলি একবার দেখুন। যে একটি বিশাল পার্থক্য। তাই না?