অনুভূতি বিশ্লেষণের জন্য অনুচ্ছেদে ভেক্টর ব্যবহার করার প্রতিবেদন করা অত্যাধুনিক পারফরম্যান্সটির প্রতিরূপ তৈরি করা হয়েছে?


20

লে এবং মিকোলোভের আইসিএমএল ২০১৪ পত্রিকায় " বিতরণ উপস্থাপনাগুলি ও নথিপত্র " এর ফলাফলগুলিতে আমি মুগ্ধ হয়েছি। "প্যারাগ্রাফ ভেক্টর" নামক তারা যে কৌশলটি বর্ণনা করেন, শব্দ 2vec মডেলের বর্ধনের উপর ভিত্তি করে নির্বিচারে দীর্ঘ অনুচ্ছেদ / নথিগুলির নিরীক্ষণ উপস্থাপনা শিখেন। এই কৌশলটি ব্যবহার করে সংবেদন বিশ্লেষণে কাগজটি অত্যাধুনিক পারফরম্যান্সের প্রতিবেদন করেছে।

আমি এই কৌশলটি অন্যান্য পাঠ্য শ্রেণিবিন্যাস সমস্যার উপর মূল্যায়নের আশা করছিলাম, theতিহ্যগত ব্যাগ-অফ-শব্দের উপস্থাপনের বিকল্প হিসাবে। যাইহোক, আমি দ্বিতীয় লেখকের একটি পোস্ট জুড়ে দৌড়েছিলাম 2 ওয়ার্ড গুগল গ্রুপের একটি থ্রেডে যা আমাকে বিরতি দিয়েছে:

আমি গ্রীষ্মের সময় কোকের ফলাফল পুনরুত্পাদন করার চেষ্টা করেছি; আমি আইএমডিবি ডেটাসেটে ত্রুটি হারগুলি প্রায় 9.4% - 10% পর্যন্ত পেতে পারি (পাঠের স্বাভাবিককরণ কতটা ভাল ছিল তার উপর নির্ভর করে)। যাইহোক, Quoc কাগজে যা রিপোর্ট করেছে তার কাছাকাছি আমি আর কোথাও পৌঁছতে পারিনি (.4.৪% ত্রুটি, এটি একটি বিশাল পার্থক্য) ... অবশ্যই আমরা কোড সম্পর্কে কোককে জিজ্ঞাসাও করেছি; তিনি এটি প্রকাশের প্রতিশ্রুতি দিয়েছিলেন তবে এখন পর্যন্ত কিছুই হয়নি। ... আমি ভাবতে শুরু করি যে কওকের ফলাফলগুলি আসলে পুনরায় উত্পাদনযোগ্য নয়।

এই ফলাফলগুলি পুনরায় প্রজননে কারও কি সাফল্য আছে?


এই পরিস্থিতি কি এখনও বদলেছে? আমি জানি যে জেনসিম ডক 2 ওয়েভের একটি সংস্করণ (অনুচ্ছেদ / ডকুমেন্ট ভেক্টর) প্রয়োগ করেছে, দেখুন: রেডিম্রেহুরেক.com /জেনসিম / মডেলস / ডোক 2vec.html তবে এখানে উদ্ধৃত কাগজের ফলাফলগুলি পুনরুত্পাদন করার কোনও চেষ্টা করা হয়নি।
ডক্টর্যাম্বিয়েন্ট

1
হ্যাঁ, জিনসিম ব্যবহার করে কাগজের ফলাফলগুলি পুনরুত্পাদন করার চেষ্টা করা হয়েছিল : ডক 2 ওয়েভ আইপিথন নোটবুকটি দেখুন
রদিম

উত্তর:


13

এ পাদটীকা http://arxiv.org/abs/1412.5335 (লেখক এক টমাস Mikolov হয়) বলেছেন

আমাদের পরীক্ষায়, (লে অ্যান্ড মিকোলভ, ২০১৪) ফলাফলগুলি মেলে, আমরা নেতিবাচক নমুনার পরিবর্তে শ্রেণিবিন্যাসের সফটম্যাক্স ব্যবহার করার জন্য কোক লে এর পরামর্শ অনুসরণ করেছি। যাইহোক, এটি কেবলমাত্র প্রশিক্ষণ এবং পরীক্ষার ডেটা বদলানো না হলে 92.6% নির্ভুলতার ফলাফল তৈরি করে। সুতরাং, আমরা এই ফলাফলটিকে অবৈধ বলে বিবেচনা করি।


1
"শিফলে না কেন" ==> অবৈধ তা আমি বুঝতে পারি না। ট্রেন / পরীক্ষার সেটগুলির মধ্যে কোনও সু-সংজ্ঞায়িত বিভাজন নেই? যাতে ট্রেন / পরীক্ষা কী তার উপর নির্ভর করে আপনি কীভাবে (মূল) ডেটাসেট পরিবর্তন করতে পারেন? পরীক্ষার সেটটির ক্রমের বিষয়টি বিবেচনা করা উচিত নয় (ডায়নামিক মূল্যায়ন নেই, তাই না?) এবং প্রশিক্ষণের সেটটির
ক্রমটি

@ ব্যবহারকারীর 2429920 যদি তারা পার্থক্য পেয়ে থাকে তবে স্পষ্টভাবে আদেশটি কোনওভাবেই গুরুত্বপূর্ণ।
জ্যাব
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.