পাঠ্য নথির জন্য বৈশিষ্ট্য ভেক্টর তৈরি করতে বিগ্রাম (এন-গ্রাম) মডেল ব্যবহার সম্পর্কে


10

পাঠ্য খনির জন্য বৈশিষ্ট্য নির্মাণের একটি traditionalতিহ্যগত পদ্ধতির ব্যাগ-অফ-শব্দের পন্থা, এবং প্রদত্ত পাঠ্য নথির বৈশিষ্ট্যযুক্ত বৈশিষ্ট্য ভেক্টর স্থাপনের জন্য টিএফ-আইডিএফ ব্যবহার করে বাড়ানো যেতে পারে। বর্তমানে, বৈশিষ্ট্য ভেক্টর তৈরির জন্য আমি দ্বি-গ্রাম ভাষার মডেল বা (এন-গ্রাম) ব্যবহার করার চেষ্টা করছি, তবে কীভাবে এটি করা যায় তা যথেষ্ট জানেন না? আমরা কি কেবল ব্যাগ-অফ-শব্দের পদ্ধতির অনুসরণ করতে পারি, অর্থাত্ শব্দগুলির পরিবর্তে দ্বি-গ্রামের ক্ষেত্রে ফ্রিকোয়েন্সি গণনাটি গণনা করতে এবং টিএফ-আইডিএফ ওজন স্কিম ব্যবহার করে এটি বাড়িয়ে তুলতে পারি?

উত্তর:


4

হ্যাঁ. এটি আরও অনেকগুলি বৈশিষ্ট্য তৈরি করবে যদিও: কিছুটা কাট-অফ প্রয়োগ করা গুরুত্বপূর্ণ (উদাহরণস্বরূপ এমন দ্বি-গ্রাম বা শব্দগুলি যা আপনার ডেটাসেটে 5 বারেরও কম সংখ্যক শব্দগুলি বাদ দেয়) যাতে আপনার শ্রেণিবদ্ধকে অনেক বেশি শোরগোল না ডুবিয়ে দেয় to বৈশিষ্ট্যগুলিও উপস্থিত রয়েছে।


ধন্যবাদ। আপনি কি বলতে চাইছেন যে বিগ্রামের (এন-গ্রাম) পদে প্রতিটি বৈশিষ্ট্যের মান গণনা করার আমার সাধারণ ধারণাটি সঠিক? অন্য কথায়, ব্যাগ-অফ-ওয়ার্ড এবং এন-গ্রাম মডেলের মধ্যে বৈশিষ্ট্যর মানগুলি গণনা করার ক্ষেত্রে কোনও বড় পার্থক্য নেই। স্পষ্টতার জন্য ধন্যবাদ।
ব্যবহারকারী3125

হ্যাঁ, আপনি সমস্ত বিগ্রাম + ইউনিগ্রাম (শব্দ) উভয়ই বৈশিষ্ট্যগুলির একটি বড় ব্যাগে ব্যবহার করতে পারেন (যতক্ষণ না আপনি কিছুটা কাট-অফ স্তর সহ কমপক্ষে ঘন ঘন ট্রিম করে)।
ogrisel

3

ইতিবাচক পারস্পরিক তথ্যযুক্ত ব্যক্তিদের বেছে নিয়ে বিগ্রামের সংখ্যা হ্রাস করা যেতে পারে।

আইএনএক্স এক্সএমএল মাইনিং ট্র্যাক, http://www.inex.otago.ac.nz/tracks/wiki-mine/wiki-mine.asp- এ বিগ্রামের প্রতিনিধিত্বের একটি ব্যাগ তৈরি করার জন্য আমরা এটি করেছি ।

আমরা যা চেষ্টা করি নি তা হ'ল দ্বি-গ্রাম ওজনে পদগুলির মধ্যে পারস্পরিক তথ্য ব্যবহার করা। দেখুন https://en.wikipedia.org/wiki/Pointwise_mutual_information , https://www.eecis.udel.edu/~trnka/CISC889-11S/lectures/philip-pmi.pdf এবং HTTP: //www.nltk। বিগ্র্রামগুলির জন্য পয়েন্টওয়াইজ পারস্পরিক তথ্যের আরও ভাল ব্যাখ্যা করার জন্য org / howto / collocations.html

দেখুন /programming/20018730/computing-pointwise-mutual-information-of-a-text-document-using-python এবং /programming/22118350/python-sentiment-analysis এটি সম্পর্কিত অন্যান্য প্রশ্নের জন্য - ব্যবহার -পয়েন্টওয়াইজ-পারস্পরিক-তথ্য


মৃত লিঙ্ক :-( ...
রেনাউড

1
@ রেনেদ লিঙ্কগুলি আপডেট করা হয়েছে :-)
ক্রিস ডি ভ্রিজ

0

তথ্যের মাত্রিকতা হ্রাস করার জন্য এলোমেলো প্রক্ষেপণগুলি ব্যবহার করে বৈশিষ্ট্যগুলি সংরক্ষণ করার জন্য প্রয়োজনীয় স্থান হ্রাস করতে দরকারী প্রমাণিত হতে পারে, https://en.wikedia.org/wiki/Random_project । এটি খুব ভাল স্কেল করে এবং প্রতিটি উদাহরণ স্বতন্ত্রভাবে এবং পিসিএ, এসভিডি, সামমন ম্যাপস, এনএমএফ ইত্যাদির মতো কোনও সরাসরি অপ্টিমাইজেশন পদ্ধতি ছাড়াই একটি নিম্ন মাত্রিক স্থানের জন্য অনুমান করা যেতে পারে

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.