পারফরম্যান্সের ক্ষেত্রে শব্দ এম্বেডিং অ্যালগরিদম


11

আমি প্রায় 60 মিলিয়ন বাক্যাংশ ভেক্টর স্পেসে এম্বেড করার চেষ্টা করছি , তারপরে তাদের মধ্যে কোজিনের মিলের গণনা করুন। আমি CountVectorizerএকটি কাস্টম বিল্ট টোকেনাইজার ফাংশন দিয়ে ইউনিট এবং বিগ্রাম তৈরির জন্য স্ক্লার্নস ব্যবহার করছি । সক্রিয় হয় যে অর্থবহ উপস্থাপনা পেতে আমাকে সারি সংখ্যায় লিনিয়ার, প্রচুর পরিমাণে কলামের অনুমতি দিতে হবে। এটি অবিশ্বাস্যভাবে বিরল ম্যাট্রিকগুলিতে বাড়ে এবং কার্য সম্পাদন করছে। এটি প্রায় 10,000 কলাম থাকাকালীন এটি এত খারাপ হবে না যা আমি মনে করি শব্দ এম্বেডিংয়ের পক্ষে বেশ যুক্তিসঙ্গত।

আমি গুগল ব্যবহার করার চেষ্টা করার কথা ভাবছি word2vecকারণ আমি নিশ্চিত যে এটি অনেক নিম্ন মাত্রিক এবং আরও ঘন এমবেডিং উত্পাদন করে। তবে তার আগে, এমন কোনও এমবেডিং রয়েছে যা প্রথমে একবার দেখার জন্য পরোয়ানা দিতে পারে? মূল প্রয়োজনটি প্রায় 60 মিলিয়ন বাক্যাংশ (সারি) স্কেল করতে সক্ষম হবে।

আমি শব্দ এম্বেডিংয়ের ক্ষেত্রে বেশ নতুন তাই কোনও পরামর্শ সাহায্য করবে।

আমার আরও যোগ করা উচিত যে আমি ইতিমধ্যে পারফরম্যান্স উন্নত করতে একক মান পচন ব্যবহার করছি।


আপনি স্পার্ক ব্যবহার করছেন?
ইলিয়াসাহ

1
আমি স্পার্ককে প্রথমে পরামর্শ দেওয়ার একটি কারণ এটি। আমি দুঃখিত, আমি আমার ফোনে আছি প্রাক-এম্বেডিং পিসিএ কৌশলগুলি সম্পর্কে আমার কাছে কোনও রেফারেন্সের অ্যাক্সেস নেই।
ইলিয়াসাহ

1
আমি নিশ্চিত নই যে এটি পরিমাণের পরিমাণ ডেটা দিয়ে ওভারকিল।
ইলিয়াসাহ

1
অতিরিক্ত পাঠ্য টোকেনগুলি অপসারণ করা মাত্রাটি হ্রাস করা উচিত নয় যেহেতু আপনি পাঠ্য কাজ করছেন। একটি 150000 শব্দের অভিধান বিবেচনা করে, উদাহরণস্বরূপ স্টপ শব্দগুলি সরিয়ে ফেলা কয়েক ডজন আপনার উপকারে আসবে। যে সাহায্য করবে না।
ইলিয়াসাহ

1
অন্যথায়, আপনি বাক্যাংশে আপনার পাঠ্যের ভেক্টরের আকার হ্রাস করতে লেটেন্ট ডিরিচলেট বরাদ্দ দিয়ে বিষয়গুলির মডেলিং বিবেচনা করতে পারেন।
ইলিয়াসাহ

উত্তর:


3

সম্প্রতি বল্টজম্যান মেশিনগুলি ব্যবহার করে ওয়ার্ড টু ওয়েভ (গ্রাম ছেড়ে যান) মাত্রা নির্ধারণের বিষয়ে সম্প্রতি কিছু কাজ হয়েছে। এই কাগজটি দেখুন:

"অসীম মাত্রিক শব্দ এম্বেডিংস" -নালজনিক, রবি

মূল ধারণাটি হ'ল আপনার প্রশিক্ষণ সেটটি আপনার ওয়ার্ড টু ওয়েভ মডেলের মাত্রিকতা নির্দেশ করতে দেয় যা নিয়মিতকরণের দ্বারা দণ্ডিত হয় যা মাত্রার আকারের সাথে সম্পর্কিত।

উপরের কাগজটি শব্দের জন্য এটি করে এবং আমি বাক্যগুলির সাথে এটি কতটা ভালভাবে সম্পাদন করে তা জানতে আগ্রহী হব।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.