আমি প্রতিটি নথির জন্য পাঠ্য নথির একটি কর্পাসকে শব্দ ভেক্টরে রূপান্তর করছি। আমি এটি টিফিডভেক্টরাইজার এবং একটি হ্যাশিংভেক্টরাইজার ব্যবহার করে চেষ্টা করেছি
আমি বুঝতে পারি যে একটি করণীয়গুলির মতো স্কোরগুলি HashingVectorizerবিবেচনা করে না। আমি এখানে এবং এখানে যেমন ব্যাখ্যা করেছি তেমনি বিশাল ডেটাসেটগুলির সাথে কাজ করার সময় এটি যে নমনীয়তাটি দেয় তার সাথে আমি এখনও কাজ করছি । (আমার মূল ডেটাসেটের 30 মিলিয়ন ডকুমেন্ট রয়েছে)IDFTfidfVectorizerHashingVectorizer
বর্তমানে, আমি 45339 নথির একটি নমুনা নিয়ে কাজ করছি, সুতরাং, আমারও একটি দিয়ে কাজ করার ক্ষমতা TfidfVectorizerরয়েছে। আমি যখন এই দুটি ভেক্টরাইজার একই 45339 নথিতে ব্যবহার করি তখন আমার যে ম্যাট্রিকগুলি পাওয়া যায় সেগুলি আলাদা।
hashing = HashingVectorizer() with LSM('corpus.db')) as corpus: hashing_matrix = hashing.fit_transform(corpus) print(hashing_matrix.shape)হ্যাশিং ম্যাট্রিক্স আকার (45339, 1048576)
tfidf = TfidfVectorizer() with LSM('corpus.db')) as corpus: tfidf_matrix = tfidf.fit_transform(corpus) print(tfidf_matrix.shape)tfidf ম্যাট্রিক্স আকৃতি (45339, 663307)
আমি এ HashingVectorizerএবং এ এর মধ্যে পার্থক্যগুলি আরও ভালভাবে বুঝতে চাই এবং TfidfVectorizerএই ম্যাট্রিকগুলি বিভিন্ন আকারে হওয়ার কারণ - বিশেষত শব্দ / পদগুলির সংখ্যাতে।