প্রাকৃতিক ভাষা প্রশ্নগুলি কীভাবে প্রসেস করবেন?


11

আমি প্রাকৃতিক ভাষা অনুসন্ধান সম্পর্কে আগ্রহী। স্ট্যানফোর্ডের কাছে প্রাকৃতিক ভাষা প্রক্রিয়াজাতকরণের জন্য একটি শক্তিশালী সফ্টওয়্যার বলে মনে হচ্ছে । আমিও দেখেছি এ্যাপাচি OpenNLP গ্রন্থাগার , এবং টেক্সট প্রকৌশল জন্য সাধারণ আর্কিটেকচার

প্রাকৃতিক ভাষা প্রক্রিয়াজাতকরণের জন্য অবিশ্বাস্য পরিমাণ ব্যবহার রয়েছে এবং এই প্রকল্পগুলির ডকুমেন্টেশনগুলি দ্রুত শোষণ করা কঠিন করে তোলে।

আপনি কি আমার জন্য জিনিসগুলিকে কিছুটা সহজ করতে পারেন এবং উচ্চতর স্তরে এসকিউএল-এ সাধারণ প্রশ্নের মূল অনুবাদ করার জন্য প্রয়োজনীয় কাজগুলির রূপরেখা তৈরি করতে পারেন?

আমার ফ্লো চার্টে প্রথম আয়তক্ষেত্রটি কিছুটা রহস্য is

এখানে চিত্র বর্ণনা লিখুন

উদাহরণস্বরূপ, আমি জানতে চাই:

How many books were sold last month?

এবং আমি এটি অনুবাদ করতে চাই

Select count(*) 
  from sales 
  where 
   item_type='book' and 
   sales_date >= '5/1/2014' and 
   sales_date <= '5/31/2014'

উত্তর:


6

প্রাকৃতিক ভাষা অনুসন্ধানে অনেকগুলি জটিলতা রয়েছে যা সাধারণকরণ করা খুব কঠিন। উচ্চ স্তরের থেকে, আমি বিশেষ্য এবং ক্রিয়াগুলির ক্ষেত্রে জিনিসগুলি ভাবার চেষ্টা দিয়ে শুরু করব।

বাক্যটির জন্য: গত মাসে কয়টি বই বিক্রি হয়েছিল?

আপনি বাক্যটি কোনও পার্সার দিয়ে ভেঙে শুরু করবেন যা গাছের মতো এটির মতো হবে:

এখানে চিত্র বর্ণনা লিখুন

আপনি দেখতে পাচ্ছেন যে এখানে একটি বইয়ের বই আছে, একটি যৌগিক মৌখিক বাক্যাংশ যা বিক্রয়ের অতীত ক্রিয়াকে বোঝায় এবং তারপরে একটি বিশেষ বাক্যাংশ যেখানে আপনার এক মাস সময়কাল থাকে focus

আমরা বিষয়টিকে সংশোধনকারীদের জন্য আরও ভাঙ্গতে পারি: বইয়ের জন্য "কত" এবং মাসের জন্য "শেষ"।

আপনি একবারে বাক্যটি ভেঙে ফেললে আপনাকে সেই উপাদানগুলিকে স্ক্যুয়াল ভাষার মানচিত্র তৈরি করতে হবে যেমন: কত => গণনা, বই => বই, বিক্রয় => বিক্রয়, মাস => বিক্রয়_সামগ্রী (অন্তর) ইত্যাদি।

অবশেষে, একবার আপনার ভাষার উপাদানগুলি পাওয়া গেলে আপনাকে বিভিন্ন সত্ত্বা কীভাবে একে অপরের সাথে ইন্টারঅ্যাক্ট করে, যার ফলে আপনাকে ছেড়ে দেয় তার জন্য একটি বিধিবিধানের একটি সেট নিয়ে আসা দরকার:

আইটেম_ টাইপ = 'বই' এবং বিক্রয়_ তারিখ> = '5/1/2014' এবং বিক্রয়_ তারিখ <= '5/31/2014' বিক্রয় থেকে গণনা (*) নির্বাচন করুন

এটি আমি কীভাবে শুরু করব এটি একটি উচ্চ স্তরে, যখন আমি উল্লিখিত প্রায় প্রতিটি পদক্ষেপ অপ্রয়োজনীয় এবং সত্যই খরগোশের গর্তটি অন্তহীন হতে পারে, এটি আপনাকে সংযুক্ত হওয়ার জন্য অনেকগুলি বিন্দু দেয়।


1

উত্তর মধ্যে সহজ প্রশ্নের বাঁক নয় সহজ সবটা।

প্রযুক্তি হিসাবে বিস্তৃতভাবে এবং নির্ভুলভাবে এটি করার প্রথম প্রযুক্তিটি বড় বিজয়ী হবে।

তবে কৃত্রিম বুদ্ধিমত্তার (যেমন আইবিএম ওয়াটসন এবং অ্যামাজন আলেক্সা) "প্রশ্নগুলির উত্তর দেওয়ার" শূন্যস্থান পূরণ করার জন্য এখানে কিছু রয়েছে। এটির জন্য প্রশ্নের মধ্যে থাকা ডেটা সম্পর্কিত ভাষা জটিলতা, ডেটা স্টোরগুলিতে কী এবং বিশেষ্য, ক্রিয়া এবং সর্বনাম কী তা সমাধান করা দরকার।

মাইক্রোসফ্ট এখানে ইংরাজী ক্যোয়ারী দিয়ে বেরিয়েছিল কিন্তু, তারপর থামল। কুয়েরি.এম একই জিনিস সম্পর্কে এক পাইথন ভিত্তিক প্ল্যাটফর্ম।

স্ট্রাকচার্ড ক্যোয়ারী ল্যাঙ্গুয়েজস (এসকিউএল) এবং এর মতো এসওকিউএল, এমডিএক্স, হাইভ, ইমপালা এবং আরও পুরানো ফ্যাশনযুক্ত এসকিউএল গ্রহণ করে। এখনও অনেক কিছু প্রতিস্থাপন করা হয়নি, এই সমস্ত টুকরা গ্র্যান্ডার "শেষ লক্ষ্য" এর ছোট ফিক্স এবং এটি কৃত্রিম গোয়েন্দা (এআই) এর মধ্যে রয়েছে, বিশেষত, মেশিন লার্নিং।

প্রশ্ন হচ্ছে:

"কম্পিউটার, আপনি কী চান তা নির্ধারণ করতে পারে?"

এখনো পর্যন্ত না. এটি পাইগের টুকরো অবদানের জন্য ভাষাতত্ত্ববিদ, গণিতবিদ, প্রকৌশলী এবং আরও অনেক কিছুই লাগে যাতে আমরা সেই মিষ্টি আর্টিফিশিয়াল ইন্টেলিজেন্ট এবং মেশিন লার্নড কেকটি উপভোগ করতে পারি।


0

পার্সার তৈরির জন্য বেশ কয়েকটি পদ্ধতি রয়েছে যা এসকিউএল-তে সরল পাঠ্য বার্তাকে পার্স করবে। উদাহরণস্বরূপ, আপনি ব্যাকরণ ভিত্তিক পার্সার তৈরি করতে পারেন এবং কাঠামোগত ক্যোয়ারি তৈরি করতে একটি এনএলপি অ্যালগরিদম ব্যবহার করতে পারেন। যদি আপনার কাছে ইতিমধ্যে একটি ডোমেন (যেমন ই-বাণিজ্য) থেকে প্রচুর পার্স করা বার্তা রয়েছে - আপনি একটি মেশিন লার্নিং পদ্ধতির চেষ্টা করতে পারেন এবং এটি আপনার আরও বিশ্লেষণের জন্য ব্যবহার করতে পারেন।

তবে আমি মনে করি যে পাঠ্য-থেকে-এসকিউএল অনুবাদের জন্য ব্যাকরণ ভিত্তিক পার্সার এবং এমএল সিন্ট্যাক্স ঠিক করে, টাইপস নির্মূল ইত্যাদি দ্বারা নিয়ম-ভিত্তিক ব্যাকরণ পরিপূরক করার জন্য সর্বোত্তম পদ্ধতির মধ্যে রয়েছে approach

এখানে বিভিন্ন পদ্ধতির সম্পর্কে আরও জানুন ।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.