কোন এন-এ এন-গ্রামগুলি প্রতিরক্ষামূলক হয়?


13

প্রাকৃতিক ভাষা প্রক্রিয়াকরণ করার সময়, কেউ একটি কর্পাস নিতে পারে এবং n এর ক্রমতে পরবর্তী শব্দের সম্ভাব্যতার মূল্যায়ন করতে পারে। n সাধারণত 2 বা 3 (বিগ্রাম এবং ট্রিগ্রাম) হিসাবে বেছে নেওয়া হয়।

সেই স্তরে একটি নির্দিষ্ট কর্পাসকে একবার শ্রেণিবদ্ধ করার জন্য যে পরিমাণ সময় লাগে তাতে নবম চেইনের ডেটা ট্র্যাকিং প্রতি-উত্পাদক হয়ে ওঠে, এমন কোনও জ্ঞান রয়েছে কি? অথবা কোনও (ডেটা স্ট্রাকচার) অভিধান থেকে সম্ভাব্যতাগুলি অনুসন্ধান করতে কত সময় লাগবে?


মাত্রিকতার অভিশাপ সম্পর্কে এই অন্যান্য থ্রেডের সাথে সম্পর্কিত
এন্টোইন

উত্তর:


2

সেই স্তরে একটি নির্দিষ্ট কর্পাসকে একবার শ্রেণিবদ্ধ করার জন্য যে পরিমাণ সময় লাগে তাতে নবম চেইনের ডেটা ট্র্যাকিং প্রতি-উত্পাদক হয়ে ওঠে, এমন কোনও জ্ঞান রয়েছে কি?

আপনি এ খুঁজছেন করা উচিত অজ্ঞানতায় নিমজ্জত বনাম এন-গ্রাম আকার টেবিল বা প্লট

উদাহরণ:

http://www.itl.nist.gov/iad/mig/publications/proceedings/darpa97/html/seymore1/image2.gif :

এখানে চিত্র বর্ণনা লিখুন

http://images.myshared.ru/17/1041315/slide_16.jpg :

এখানে চিত্র বর্ণনা লিখুন

http://images.slideplayer.com/13/4173894/slides/slide_45.jpg :

এখানে চিত্র বর্ণনা লিখুন

উদ্বেগ আপনার ভাষা মডেল, এন-গ্রাম আকার এবং ডেটা সেটের উপর নির্ভর করে। যথারীতি ভাষা ভাষার মডেলটির গুণমান এবং এটি চালাতে কতক্ষণ সময় লাগে তার মধ্যে একটি বাণিজ্য রয়েছে। আজকাল সর্বোত্তম ভাষার মডেলগুলি নিউরাল নেটওয়ার্কগুলির উপর ভিত্তি করে তৈরি করা হয়, সুতরাং এন-গ্রাম আকারের পছন্দ কোনও ইস্যুতে কম হয় (তবে আপনি যদি সিএনএন ব্যবহার করেন তবে অন্যান্য হাইপারপ্যারামিটারগুলির মধ্যে আপনার ফিল্টার আকার (গুলি) নির্বাচন করা দরকার ...)।


12

আপনার "পাল্টা উত্পাদনশীল" এর মাপ নির্বিচারে হতে পারে - যেমন। প্রচুর দ্রুত মেমরির সাথে এটি দ্রুত প্রক্রিয়া করা যেতে পারে (আরও যুক্তিসঙ্গতভাবে)।

এটি বলার পরে, সূচকীয় বৃদ্ধি এটিতে আসে এবং আমার নিজের পর্যবেক্ষণগুলি থেকে মনে হয় এটি 3-4 টির কাছাকাছি। (আমি সুনির্দিষ্ট কোন গবেষণা দেখিনি)।

বিগ্র্রামগুলির চেয়ে ট্রিগারগুলির একটি সুবিধা রয়েছে তবে এটি ছোট। আমি কখনই 4-গ্রাম বাস্তবায়ন করি নি তবে উন্নতিটি খুব কম হতে চলেছে। সম্ভবত পরিমাণের হ্রাস এর অনুরূপ ক্রম। যেমন। যদি ট্রিগারগুলি বিগ্রামের তুলনায় 10% জিনিস উন্নত করে, তবে 4-গ্রামের জন্য একটি যুক্তিসঙ্গত অনুমান হতে পারে ট্রিগারগুলির তুলনায় 1% উন্নতি।

10,000100002100003100004

দুর্বলতার প্রভাবের জন্য ক্ষতিপূরণ দেওয়ার জন্য আপনার একটি বিশাল কর্পাসের প্রয়োজন হবে, তবে জিপফের আইন বলছে একটি বিশাল কর্পাস আরও আরও অনন্য শব্দের কথা বলতে চলেছে ...

আমি অনুমান করি যে এই কারণেই আমরা প্রচুর বিগ্রাম এবং ট্রাইগ্রাম মডেল, বাস্তবায়ন এবং ডেমো দেখি; তবে 4-গ্রাম উদাহরণস্বরূপ সম্পূর্ণরূপে কাজ করছে না।


2
একটি ভাল সংক্ষিপ্তসার। পেজ 48-53 নিম্নলিখিত কাগজ ( "দীর্ঘ কঠোর গালিগালাজ বকবক") যে আরো বিবরণ প্রদান (কাগজ উচ্চতর ক্রম এন-গ্রাম জন্য কিছু ফলাফল রয়েছে পাশাপাশি) research.microsoft.com/~joshuago/longcombine.pdf
Yevgeny

2
লিঙ্কটি মারা গেছে। এখানে আর্শিভ সংস্করণের সম্পূর্ণ রেফারেন্স এবং লিঙ্ক: জোশুয়া টি। গুডম্যান (2001)। ভাষা মডেলিংয়ে অগ্রগতির একটি বিট: বর্ধিত সংস্করণ। মাইক্রোসফট গবেষণা: রেডমন্ড, ডাব্লুএ (মার্কিন যুক্তরাষ্ট্র) প্রযুক্তিগত প্রতিবেদন MSR-TR-2001-72।
স্কোজি
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.