আমি প্রায় 60 মিলিয়ন বাক্যাংশ ভেক্টর স্পেসে এম্বেড করার চেষ্টা করছি , তারপরে তাদের মধ্যে কোজিনের মিলের গণনা করুন। আমি CountVectorizer
একটি কাস্টম বিল্ট টোকেনাইজার ফাংশন দিয়ে ইউনিট এবং বিগ্রাম তৈরির জন্য স্ক্লার্নস ব্যবহার করছি । সক্রিয় হয় যে অর্থবহ উপস্থাপনা পেতে আমাকে সারি সংখ্যায় লিনিয়ার, প্রচুর পরিমাণে কলামের অনুমতি দিতে হবে। এটি অবিশ্বাস্যভাবে বিরল ম্যাট্রিকগুলিতে বাড়ে এবং কার্য সম্পাদন করছে। এটি প্রায় 10,000 কলাম থাকাকালীন এটি এত খারাপ হবে না যা আমি মনে করি শব্দ এম্বেডিংয়ের পক্ষে বেশ যুক্তিসঙ্গত।
আমি গুগল ব্যবহার করার চেষ্টা করার কথা ভাবছি word2vec
কারণ আমি নিশ্চিত যে এটি অনেক নিম্ন মাত্রিক এবং আরও ঘন এমবেডিং উত্পাদন করে। তবে তার আগে, এমন কোনও এমবেডিং রয়েছে যা প্রথমে একবার দেখার জন্য পরোয়ানা দিতে পারে? মূল প্রয়োজনটি প্রায় 60 মিলিয়ন বাক্যাংশ (সারি) স্কেল করতে সক্ষম হবে।
আমি শব্দ এম্বেডিংয়ের ক্ষেত্রে বেশ নতুন তাই কোনও পরামর্শ সাহায্য করবে।
আমার আরও যোগ করা উচিত যে আমি ইতিমধ্যে পারফরম্যান্স উন্নত করতে একক মান পচন ব্যবহার করছি।