NER- র জন্য নিরীক্ষণযোগ্য বৈশিষ্ট্য শেখা


11

আমি সিআরএফ অ্যালগরিদম ব্যবহার করে আমার হস্তশিল্পের বৈশিষ্ট্যগুলির সাহায্যে NER সিস্টেমটি প্রয়োগ করেছি যা বেশ ভাল ফলাফল দিয়েছে। জিনিসটি হ'ল আমি পস ট্যাগ এবং লেমাসহ বিভিন্ন বৈশিষ্ট্য ব্যবহার করেছি।

এখন আমি আলাদা ভাষার জন্য একই NER করতে চাই। এখানে সমস্যা হ'ল আমি পস ট্যাগ এবং লেমাস ব্যবহার করতে পারি না। আমি গভীর শিখন এবং নিরীক্ষণযোগ্য বৈশিষ্ট্য শেখার বিষয়ে নিবন্ধগুলি পড়া শুরু করেছি।

আমার প্রশ্নটি হ'ল:

সিআরএফ অ্যালগরিদমের সাহায্যে নিরীক্ষণযোগ্য বৈশিষ্ট্য শেখার জন্য পদ্ধতিগুলি ব্যবহার করা কি সম্ভব? কেউ কি এই চেষ্টা করে কোন ভাল ফল পেয়েছে? এই বিষয়ে কোন নিবন্ধ বা টিউটোরিয়াল আছে?

বৈশিষ্ট্য তৈরির এই পদ্ধতিটি আমি এখনও পুরোপুরি বুঝতে পারি না তাই এমন কোনও কাজের জন্য আমি বেশি সময় ব্যয় করতে চাই না যা কাজ করবে না। সুতরাং কোনও তথ্য সত্যই সহায়ক হবে। গভীর শিক্ষার উপর ভিত্তি করে পুরো এনইআর সিস্টেম তৈরি করা আপাতত কিছুটা।

উত্তর:


5

হ্যাঁ, সিআরএফ মডেলের সাথে নিরীক্ষণযোগ্য শেখার একত্রিত করা সম্পূর্ণভাবে সম্ভব। বিশেষত, আমি আপনাকে পরামর্শ দিচ্ছি যে আপনি ওয়ার্ড টুভেক বৈশিষ্ট্যগুলি আপনার সিআরএফ-এর ইনপুট হিসাবে ব্যবহারের সম্ভাবনাটি ঘুরে দেখুন ।

ওয়ার্ড 2vec একটি প্রদত্ত প্রসঙ্গের জন্য উপযুক্ত যে শব্দ এবং এলোমেলোভাবে নির্বাচিত শব্দগুলির মধ্যে পার্থক্য করতে প্রশিক্ষণ দেয়। মডেলের নির্বাচন করুন ওজনগুলি প্রদত্ত শব্দের ঘন ভেক্টর উপস্থাপনা হিসাবে ব্যাখ্যা করা যেতে পারে।

এই ঘন ভেক্টরগুলির কাছে আকর্ষণীয় সম্পত্তি রয়েছে যা শব্দার্থগত বা সিনট্যাক্টিক্যালি অনুরূপ শব্দগুলির অনুরূপ ভেক্টরের উপস্থাপনা রয়েছে। বেসিক ভেক্টর পাটিগণিত এমনকি শব্দের মধ্যে কিছু আকর্ষণীয় জ্ঞানীয় সম্পর্ক প্রকাশ করে।
উদাহরণস্বরূপ, ভেক্টর ("প্যারিস") - ভেক্টর ("ফ্রান্স") + ভেক্টর ("ইতালি") ভেক্টর ("রোম") এর সাথে সমান একটি ভেক্টর এনে দেয়।

উচ্চ স্তরে, আপনি ওয়ার্ড 2vec উপস্থাপনাকে এলডিএ বা এলএসএ উপস্থাপনার অনুরূপ হিসাবে ভাবতে পারেন, এই অর্থে যে আপনি একটি স্পারস ইনপুট ভেক্টরকে ঘন আউটপুট ভেক্টরে রূপান্তর করতে পারবেন যাতে শব্দের মিলের তথ্য রয়েছে।

এই বিষয়টির জন্য, এলডিএ এবং এলএসএ হ'ল আন-সার্ভিস বৈশিষ্ট্য শেখার জন্য বৈধ বিকল্পগুলি - উভয়ই "বিষয়" এবং আউটপুট ঘন শব্দের উপস্থাপনার সংমিশ্রণ হিসাবে শব্দের প্রতিনিধিত্ব করার চেষ্টা করে।

ইংরাজী পাঠ্যের জন্য গুগল 100 মিলিয়ন শব্দের গুগল নিউজ ডেটাসেটের পূর্বনির্ধারিত ওয়ার্ড 2vec মডেলগুলি বিতরণ করে, তবে অন্যান্য ভাষার জন্য আপনাকে নিজের মডেলকে প্রশিক্ষণ দিতে হবে।


আরে, মুষ্টি আমি আপনার উত্তরের জন্য ধন্যবাদ জানাতে চাই আমার আরও একটি প্রশ্ন আছে. ওয়ার্ড 2 ভেক অ্যালগরিদম থেকে ফিরে আসা শব্দের ভেক্টরের ভাসমান মান রয়েছে, তাই বড় এবং বড়ের মতো শব্দের ভেক্টর থাকে যা ভেক্টর স্পেসের নিকটে থাকে তবে ভেক্টরের মানগুলি সম্পূর্ণ আলাদা হতে পারে। উদাহরণস্বরূপ বড় = [0.1, 0.2, 0,3] এবং বড় = [0.11, 0.21, 0.31]। এটি কি সিআরএফ অ্যালগরিদমের জন্য সমস্যা নয়, কারণ এই অ্যালগরিদম তাদের সিমিলার হিসাবে বিবেচনা করবে না? সিআরএফ-তে এই ভেক্টর শব্দের ব্যবহার করার আগে এমন কোনও অ্যাডিশনাল প্রক্রিয়াজাতকরণ করা যেতে পারে যা? আমি আশা করি আমার প্রশ্নটি যথেষ্ট পরিষ্কার হয়েছে।
ম্যাটিকডিবা

4

2014 এর এই পেপারে ( গিটহাব ) লেখকরা ঘন এমবেডিং, বাইনারাইজড এমবেডিং, ক্লাস্টার এম্বেডিং এবং একটি অভিনব প্রোটোটাইপ পদ্ধতি সহ একটি সিআরএফ-ভিত্তিক এনইআর সিস্টেমে শব্দ এম্বেডিংগুলি যুক্ত করার একাধিক কৌশলকে তুলনা করেছেন । ভ্লাদ দ্বারা প্রস্তাবিত হিসাবে ঘন ভেক্টর সরাসরি ব্যবহার করা সবচেয়ে সহজ উপায় তবে একাধিক মূল্যায়নের ক্ষেত্রেও সবচেয়ে কম কার্যকর।

আমি আমার ডোমেন-নির্দিষ্ট NER প্রকল্পে প্রোটোটাইপ ধারণাটি প্রয়োগ করেছি এবং এটি আমার পক্ষে বেশ ভালভাবে কাজ করে।


3

আমি মাত্র 5 মাস দেরি করে ফেলেছি তবে সিআরএফএসউইটের সাহায্যে আপনি সেই ভাসমান বৈশিষ্ট্যগুলি স্ট্রিং হিসাবে নয় সংখ্যা হিসাবে ব্যবহার করতে পারেন। এর জন্য, আপনাকে প্রতিটি মাত্রার জন্য একটি অনন্য লেবেল আবিষ্কার করতে হবে এবং তারপরে মানটি অনুসরণ করে একটি ":" যুক্ত করতে হবে।

উদাহরণস্বরূপ, "জঙ্গল" শব্দটি 5 টি মাত্রায় প্রতিনিধিত্ব করে: 0.1 0.4 0.8 0.2 0.9

তারপরে সিআরএফএসউইট সেই শব্দটি + বৈশিষ্ট্য হিসাবে গ্রহণ করবে:

LABEL f1: 0.1 f2: 0.4 f3: 0.8 f4: 0.2 f5: 0.9

অবশ্যই আপনি প্রকৃত স্ট্রিং দ্বারা `। LABEL '' প্রতিস্থাপন করুন এবং আপনি সমস্ত স্পেসগুলি ট্যাবগুলির সাথে পৃথক করুন (এটি সিআরএফসুইটের ফর্ম্যাট)।

নিশ্চিত না যদিও অন্যান্য প্যাকেজগুলির জন্য।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.