লে এবং মিকোলোভের আইসিএমএল ২০১৪ পত্রিকায় " বিতরণ উপস্থাপনাগুলি ও নথিপত্র " এর ফলাফলগুলিতে আমি মুগ্ধ হয়েছি। "প্যারাগ্রাফ ভেক্টর" নামক তারা যে কৌশলটি বর্ণনা করেন, শব্দ 2vec মডেলের বর্ধনের উপর ভিত্তি করে নির্বিচারে দীর্ঘ অনুচ্ছেদ / নথিগুলির নিরীক্ষণ উপস্থাপনা শিখেন। এই কৌশলটি ব্যবহার করে সংবেদন বিশ্লেষণে কাগজটি অত্যাধুনিক পারফরম্যান্সের প্রতিবেদন করেছে।
আমি এই কৌশলটি অন্যান্য পাঠ্য শ্রেণিবিন্যাস সমস্যার উপর মূল্যায়নের আশা করছিলাম, theতিহ্যগত ব্যাগ-অফ-শব্দের উপস্থাপনের বিকল্প হিসাবে। যাইহোক, আমি দ্বিতীয় লেখকের একটি পোস্ট জুড়ে দৌড়েছিলাম 2 ওয়ার্ড গুগল গ্রুপের একটি থ্রেডে যা আমাকে বিরতি দিয়েছে:
আমি গ্রীষ্মের সময় কোকের ফলাফল পুনরুত্পাদন করার চেষ্টা করেছি; আমি আইএমডিবি ডেটাসেটে ত্রুটি হারগুলি প্রায় 9.4% - 10% পর্যন্ত পেতে পারি (পাঠের স্বাভাবিককরণ কতটা ভাল ছিল তার উপর নির্ভর করে)। যাইহোক, Quoc কাগজে যা রিপোর্ট করেছে তার কাছাকাছি আমি আর কোথাও পৌঁছতে পারিনি (.4.৪% ত্রুটি, এটি একটি বিশাল পার্থক্য) ... অবশ্যই আমরা কোড সম্পর্কে কোককে জিজ্ঞাসাও করেছি; তিনি এটি প্রকাশের প্রতিশ্রুতি দিয়েছিলেন তবে এখন পর্যন্ত কিছুই হয়নি। ... আমি ভাবতে শুরু করি যে কওকের ফলাফলগুলি আসলে পুনরায় উত্পাদনযোগ্য নয়।
এই ফলাফলগুলি পুনরায় প্রজননে কারও কি সাফল্য আছে?