আমি প্রতিটি নথির জন্য পাঠ্য নথির একটি কর্পাসকে শব্দ ভেক্টরে রূপান্তর করছি। আমি এটি টিফিডভেক্টরাইজার এবং একটি হ্যাশিংভেক্টরাইজার ব্যবহার করে চেষ্টা করেছি
আমি বুঝতে পারি যে একটি করণীয়গুলির মতো স্কোরগুলি HashingVectorizer
বিবেচনা করে না। আমি এখানে এবং এখানে যেমন ব্যাখ্যা করেছি তেমনি বিশাল ডেটাসেটগুলির সাথে কাজ করার সময় এটি যে নমনীয়তাটি দেয় তার সাথে আমি এখনও কাজ করছি । (আমার মূল ডেটাসেটের 30 মিলিয়ন ডকুমেন্ট রয়েছে)IDF
TfidfVectorizer
HashingVectorizer
বর্তমানে, আমি 45339 নথির একটি নমুনা নিয়ে কাজ করছি, সুতরাং, আমারও একটি দিয়ে কাজ করার ক্ষমতা TfidfVectorizer
রয়েছে। আমি যখন এই দুটি ভেক্টরাইজার একই 45339 নথিতে ব্যবহার করি তখন আমার যে ম্যাট্রিকগুলি পাওয়া যায় সেগুলি আলাদা।
hashing = HashingVectorizer() with LSM('corpus.db')) as corpus: hashing_matrix = hashing.fit_transform(corpus) print(hashing_matrix.shape)
হ্যাশিং ম্যাট্রিক্স আকার (45339, 1048576)
tfidf = TfidfVectorizer() with LSM('corpus.db')) as corpus: tfidf_matrix = tfidf.fit_transform(corpus) print(tfidf_matrix.shape)
tfidf ম্যাট্রিক্স আকৃতি (45339, 663307)
আমি এ HashingVectorizer
এবং এ এর মধ্যে পার্থক্যগুলি আরও ভালভাবে বুঝতে চাই এবং TfidfVectorizer
এই ম্যাট্রিকগুলি বিভিন্ন আকারে হওয়ার কারণ - বিশেষত শব্দ / পদগুলির সংখ্যাতে।