জেনসিম ওয়ার্ড 2 ভেক বাস্তবায়নে পর্বের সংখ্যা


14

ওয়ার্ড 2 ভেক বাস্তবায়নে একটি iterপ্যারামিটার রয়েছেgensim

শ্রেণি = 1, এইচএস = 1, নেতিবাচক = 0, কিউবো_মেন = 0, হ্যাশফক্সন =, ইট = 1 , নাল_শব্দ = 0, ছাঁটাই_আরল = কিছুই নয়, বাছাই করা_ভোকাব = 1)

এটি যুগের সংখ্যা নির্দিষ্ট করে, যেমন:

এটির = কর্পাসের উপরে পুনরাবৃত্তির সংখ্যা (যুগ)

কেউ কি জানেন যে এটি কর্পাসের তুলনায় মডেলটি উন্নত করতে সহায়তা করে কিনা?

iterডিফল্টরূপে 1 সেট করার কোনও কারণ আছে কি ? সংখ্যাটি বাড়ানোর ক্ষেত্রে খুব বেশি প্রভাব নেই? যুগের?

কীভাবে নম্বর সেট করবেন তার কোনও বৈজ্ঞানিক / অভিজ্ঞতাগত মূল্যায়ন আছে? যুগের?

শ্রেণিবদ্ধকরণ / রিগ্রেশন টাস্কের বিপরীতে, গ্রিড অনুসন্ধান পদ্ধতিটি বাস্তবে কার্যকর হবে না কারণ ভেক্টরগুলি একটি নিরীক্ষণযোগ্য পদ্ধতিতে উত্পন্ন করা হয় এবং উদ্দেশ্য ফাংশনটি কেবল হায়ারারিকাল সফটম্যাক্স বা নেতিবাচক নমুনা দ্বারা হয়।

সংখ্যাটি হ্রাস করার কোনও প্রাথমিক প্রক্রিয়া বন্ধ আছে কি? যুগের একবারে ভেক্টর কনভার্ট হয়? এবং শ্রেণিবিন্যাসের সফটম্যাক্স বা নেতিবাচক স্যাম্পলিং উদ্দেশ্যকে একত্রিত করতে পারে?

উত্তর:


5

যুগের সংখ্যা বাড়ানো সাধারণত শব্দ উপস্থাপনের গুণমানকে উপকৃত করে। পরীক্ষাগুলিতে আমি এটি সম্পাদন করেছি যেখানে পাঠ্য শ্রেণিবিন্যাসের বৈশিষ্ট্য হিসাবে 5 টির পরিবর্তে 15 এর স্থানে সেট করে পাঠ্য শ্রেণিবিন্যাসের বৈশিষ্ট্য হিসাবে এম্বেডিং শব্দটি ব্যবহার করাই লক্ষ্য ছিল performance


2

আমি এখানে দেখেছি এবং দেখেছি যে ডিফল্ট মানটি 1 থেকে 5 এ পরিবর্তিত হয়েছিল স্পষ্টতই লেখকরা বিশ্বাস করেন যে আরও যুগের ফলাফলগুলি উন্নতি করবে

আমি অভিজ্ঞতা থেকে বলতে পারি না, এখনও।


2

আমি আমার ডাব্লু 2 ভি মডেলকে গুগল নিউজ 300 এ [2, 10, 100] যুগের জন্য প্রশিক্ষণ দিয়েছিলাম এবং সেরাটি 10 ​​টি যুগের মধ্যে ছিল। এতক্ষণ অপেক্ষা করার পরেও আমি হতবাক হয়েছি যে 100 টি যুগ খারাপ ছিল।

epoch   wall                    
------ ------                    
2       56 s                    
10      4m 44s (284s)           
100     47m 27s (2847 s)    

1

ইটার গণনা বৃদ্ধি (পর্বের সংখ্যা) নাটকীয়ভাবে প্রশিক্ষণের সময় বাড়িয়ে তোলে। ওয়ার্ড 2Vec কেবলমাত্র যদি আপনি প্রচুর পরিমাণে নথিগুলি খাওয়ান তবে মানসম্পন্ন ফলাফল দেয়, অতএব এগুলিতে এমনকি দু'বার লুপ করা যুক্তিসঙ্গত নয় যদিও এটি আসলে ফলাফল এম্বেডিংগুলিকে আরও নির্ভুল করে তোলে।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.