এনএলপি - গেজেটিয়ার কি প্রতারণা?


16

এনএলপিতে এমন একটি ধারণা রয়েছে Gazetteerযা টীকাগুলি তৈরি করতে বেশ কার্যকর হতে পারে। আমি যতটুকু বুঝি:

একটি গেজেটিয়ারে শহরগুলির, সংস্থাগুলি, সপ্তাহের দিন ইত্যাদির মতো সত্তার নাম সম্বলিত তালিকার একটি সেট থাকে These n এই তালিকাগুলিকে এই নামগুলি টেক্সটে eg n উদাহরণ হিসাবে ব্যবহার করা হয়, উদাহরণস্বরূপ নামকৃত সত্তার স্বীকৃতি দেওয়ার জন্য।

সুতরাং এটি মূলত একটি চেহারা। এই ধরণের প্রতারণা নয়? আমরা যদি Gazetteerনামযুক্ত সত্তাগুলি সনাক্ত করার জন্য একটি ব্যবহার করি , তবে খুব বেশি কিছু Natural Language Processingচলছে না । আদর্শভাবে, আমি NLPকৌশলগুলি ব্যবহার করে নামকরণকারী সত্তাগুলি সনাক্ত করতে চাই । অন্যথায়, এটি একটি রেজেক্স প্যাটার্ন ম্যাচারের চেয়ে ভাল আর কীভাবে?


2
আমি সেটিকে প্রতি সেটিং হিসাবে প্রতারণা বলব না ... যদি না আপনি নির্দিষ্টভাবে একটি অ-অভিধান বর্ণন আপ সমাধান ব্যবহার করার জন্য তৈরি হন। আমি এটিকে traditionalতিহ্যবাহী এনএলপিও বলব না, যদিও আপনি কোনও সমস্যার সমাধানের সহজ সমাধান থেকে বেরিয়ে আসতে পারেন এমন যথেষ্ট মাইলেজটিকে কখনই উপেক্ষা করবেন না।
কাইল

1
আপনি সম্ভবত এটি কোনও নাম-সত্তা সনাক্তকারীকে প্রশিক্ষণের জন্য ব্যবহার করতে পারেন। আপনার গেজেটিয়ার সত্ত্বা না করে সত্তা সম্পর্কে কী করতে চলেছে?
এমের

আমি আশা করছিলাম যে সঠিকভাবে পোস্ট ট্যাগ এবং বিশেষত্ব ব্যবহার করে আমার কোনও গেজেটিয়ার প্রয়োজন হবে না। এটা কি সম্ভব?
AbtPst

2
শিল্পে প্রতারণার মতো কিছুই নেই thing :-) তবে যাইহোক, আপনি যদি "সাধারণ পদ্ধতির" চান, আপনাকে NE- তে যে প্রসঙ্গে উপস্থিত হয় সেগুলি আরও NE শিখার জন্য কিছু হস্ত-বর্ণিত ডেটা, অর্থাৎ বীজ দিয়ে শুরু করতে হবে।
অ্যাডাম বিটলিংমায়ার

উত্তর:


15

গেজেটিয়ার বা ইচ্ছাকৃতভাবে নির্দিষ্ট আকারের বৈশিষ্ট্যটির অন্য কোনও বিকল্প একাডেমিক কাগজগুলিতে খুব জনপ্রিয় পদ্ধতির বলে মনে হচ্ছে , যখন আপনার সীমাবদ্ধ আকারের সমস্যা হয়, উদাহরণস্বরূপ কোনও স্থির কর্পোরায় এনইআর, বা পিওএস ট্যাগিং বা অন্য কিছু। গেজেটিয়ার ম্যাচিং আপনি কেবলমাত্র বৈশিষ্ট্যটি ব্যবহার করবেন না তা না হলে আমি এটি প্রতারণার বিষয়টি বিবেচনা করব না।

যাইহোক, আপনি যখন কোনও এনএলপি মডেল প্রশিক্ষণ করেন, যা প্রশিক্ষণের সময় অভিধানের উপর নির্ভর করে, আপনি আপনার প্রাথমিক পরীক্ষার চেয়ে কম বাস্তবের পারফরম্যান্স পেতে পারেন, যদি না আপনি গেজেটিয়ারে আগ্রহী সমস্ত বিষয় অন্তর্ভুক্ত না করতে পারেন (এবং তবে কেন আপনি সেই মডেলটির দরকার?) কারণ আপনার প্রশিক্ষিত মডেলটি কোনও সময়ে এই বৈশিষ্ট্যটির উপর নির্ভর করবে এবং যখন অন্য বৈশিষ্ট্যগুলি খুব দুর্বল হবে বা বর্ণনামূলক নয়, তখন নতুন নতুন আগ্রহের বিষয়গুলি স্বীকৃত হবে না।

আপনি যদি আপনার মডেলগুলিতে গেজেটিয়ার ব্যবহার করেন, আপনার অবশ্যই নিশ্চিত হওয়া উচিত, মডেলটিকে ভারসাম্য বজায় রাখার জন্য সেই বৈশিষ্ট্যটির একটি পাল্টা বৈশিষ্ট্য রয়েছে, যাতে সহজ অভিধানের মিলটি ইতিবাচক শ্রেণির একমাত্র বৈশিষ্ট্য না হয় (এবং আরও গুরুত্বপূর্ণ, গেজেটিয়ারটি হওয়া উচিত) শুধুমাত্র ইতিবাচক উদাহরণগুলিই নয়, তবে নেতিবাচক উদাহরণগুলিও মেলে)।

উদাহরণস্বরূপ, ধরুন আপনার কাছে সমস্ত ব্যক্তির নামের অসীম প্রকরণের পুরো সেট রয়েছে যা সাধারণ ব্যক্তিকে তার অপ্রাসঙ্গিক করে তোলে, তবে এখন আপনি সিদ্ধান্ত নেওয়ার চেষ্টা করছেন যে পাঠ্যে উল্লিখিত বস্তুটি গাইতে সক্ষম কিনা। আপনি আপনার ব্যক্তি গেজেটেয়ারের অন্তর্ভুক্তির বৈশিষ্ট্যগুলির উপর নির্ভর করবেন যা আপনাকে প্রচুর মিথ্যা ধনাত্মক মনোভাব দেবে; তারপরে, আপনি " ইজ সাবজেক্ট অফ ক্রিয়া গাওয়া " এর একটি ক্রিয়া-কেন্দ্রিক বৈশিষ্ট্য যুক্ত করবেন এবং এটি সম্ভবত আপনাকে পাখির ক্ষুধার্ত অবস্থায় এবং আপনার ক্ষুধার্ত এবং মাতাল সহকর্মী যিনি ভাবেন এমন পাখির মতো সমস্ত ধরণের জিনিস থেকে মিথ্যা ইতিবাচক ধারণা দেবে thinksতিনি গান করতে পারেন (তবে আসুন সত্য কথা বলুন, তিনি পারেন না) - তবে সেই ক্রিয়া কেন্দ্রিক বৈশিষ্ট্যটি আপনার ব্যক্তি গেজেটির সাথে ভারসাম্য বজায় রাখবে 'সিঙ্গার' ব্যক্তির জন্য ধনাত্মক শ্রেণি নির্ধারণ করবে, প্রাণী বা অন্য কোনও বস্তু নয়। যদিও, এটি মাতাল অভিনেতার ক্ষেত্রে সমাধান করে না।


4

সত্ত্বার তালিকা ব্যবহারের কয়েকটি অসুবিধা রয়েছে:

  • তালিকাটি বন্ধ রয়েছে
  • তালিকাটি প্রসঙ্গে সংবেদনশীল নয়। "একটি সাদা ঘর" এবং "হোয়াইট হাউস" এর মধ্যে পার্থক্য করার জন্য আপনার প্রসঙ্গের প্রয়োজন।
  • তালিকা তৈরির জন্য প্রচুর শ্রম প্রয়োজন require
  • তালিকায় ত্রুটিও থাকতে পারে।
  • এটি প্রতারণার মতো অনুভব করে (বা তালিকায় কোনও এনএলপি অন্তর্দৃষ্টি ব্যবহার করা হয় না)।

আপনি এখানে বাড়াতে বাড়াতে পারেন @ আগে প্রস্তাবিত দিকটি অনুসরণ করে এবং শ্রেণিবদ্ধ শিখতে তালিকাকে ব্যবহার করুন।

উদাহরণস্বরূপ, আপনি সত্তার নিকটবর্তী টোকেন ব্যবহার করতে পারেন এবং নিয়মটি শিখতে পারেন যে "আমি এক্সে থাকি" কোনও স্থানের সূচক এবং "আমি এক্স এর সাথে কথা বলি" কোনও ব্যক্তির সূচক। নিয়মের হিট দ্বারা আপনার তালিকা বাড়িয়ে আপনি এই গেমটি কয়েক দফা খেলতে পারেন এবং আরও নিয়ম শিখতে নতুন তালিকাটি ব্যবহার করতে পারেন।

দয়া করে মনে করবেন না যে এই শিক্ষায় আপনি ডেটাতে গোলমাল শুরু করবেন তাই বেশিরভাগ ক্ষেত্রেই শেখাটি এত সোজাভাবে এগিয়ে আসা উচিত।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.