আমি কীভাবে একটি বাক্য থেকে শব্দগুলি বের করতে পারি এবং প্রতিটি বাকের কোন অংশের তা নির্ধারণ করতে পারি? [বন্ধ]


19

আমি এমন কিছু লিখতে চাই যা একটি বাক্য গ্রহণ করে এবং এতে প্রতিটি শব্দ শনাক্ত করা যায় এবং প্রতিটি শব্দের বক্তৃতার অংশটি নির্ধারণ করে।

উদাহরণ স্বরূপ

হ্যালো ওয়ার্ল্ড, আমি একটি বাক্য

এই ফেরত দিতে হবে

verb noun, pronoun verb adjective noun

আদর্শভাবে, আমি অবশেষে এটি আরও একধাপ এগিয়ে নিয়ে যেতে চাই এবং একটি বাক্য গ্রহণ করি এবং প্রোগ্রামগতভাবে এটি বুঝতে চেষ্টা করে যে এটি কী ব্যাখ্যা করার চেষ্টা করছে এবং সম্ভবত এটি সম্পর্কে কিছু করতে পারে।

সুতরাং আমার প্রশ্নটি, কেউ কি এরকম কিছু শুনেছেন?


2
"হ্যালো" একটি ক্রিয়াপদ? মানে, এটি আর কী হবে তা আমি জানি না, তবে এটি কোনও ক্রিয়াপদ বলে মনে হয় না।
ড্যান রে

@ ড্যানরে: সম্ভবত এটিই ইংলিশ.স্ট্যাকেক্সেঞ্জ ডটকমের জন্য প্রশ্ন?
স্ট্রিপলিং ওয়ারিয়র

1
@ ড্যানরে রে, আপনি দেখছেন? এই কারণেই যদি আমি এটি চেষ্টা করতে পারি যে এটি কিছু করতে পারে তবে স্পষ্টতই আমি ব্যাকরণে ভয়ানক।
Vinny

@ ভিনি - অবশ্যই এটি সম্ভব। সমস্যাটি হ'ল ... এটি পরবর্তী ট্রিলিয়ন ডলারের ধারণা এবং এই সময়ে এটি এখনও পণ্য হিসাবে তৈরি হয়নি।
রামহাউন্ড

1
@ ভিনি হ্যাঁ, কেউ এরকম কিছু শুনেছেন।
তুলাইনস কর্ডোভা

উত্তর:


18

একে প্রাকৃতিক ভাষা প্রক্রিয়াজাতকরণ বলা হয় এবং এটি একটি বিশাল, জটিল ক্ষেত্র। আপনি বর্ণনা করার মতো কিছু একটি স্মৃতিচিহ্ন অর্জন এবং ওয়াটসনের মতো সেরা সমাধানগুলিও নিখুঁত নয়।

এই জাতীয় বিষয়গুলি এটি চ্যালেঞ্জিং করে: "মহিষ মহিষ মহিষ মহিষ মহিষ মহিষ মহিষ মহিষ মহিষ"

আমেরিকান ইংরেজিতে একটি ব্যাকরণগতভাবে সঠিক বাক্য, কীভাবে জটিল ভাষাগত গঠন তৈরি করতে হোমোনেমস এবং হোমোফোনগুলি ব্যবহার করা যেতে পারে তার উদাহরণ হিসাবে ব্যবহৃত হয়। এটি ১৯ 197২ সাল থেকে সাহিত্যে আলোচনা করা হয়েছে ... এটি স্টিভেন পিংকারের ১৯৯৪ সালের দ্য ল্যাঙ্গুয়েজ ইনস্টিন্ট বইয়ে "আপাতদৃষ্টিতে অযৌক্তিক" তবে ব্যাকরণগত একটি বাক্যর উদাহরণ হিসাবে প্রদর্শিত হয়েছিল ...

বাক্যটির অর্থ পরিষ্কার হয়ে যায় যখন এটি বোঝা যায় যে এটি "মহিষের" বাফেলো (যার অর্থ "বুলি বা ভয় দেখানো") ব্যবহার করে কিছুটা অস্বাভাবিক ক্রিয়া ব্যবহার করে এবং যখন বিরামচিহ্ন এবং ব্যাকরণকে প্রসারিত করা হয় যাতে বাক্যটি প্রসারিত হয় নিম্নরূপ পড়ে: "মহিষ মহিষ যে মহিষ মহিষ, মহিষ, মহিষ মহিষ।" প্রতিশব্দ ব্যবহার করা হলে অর্থটি আরও স্পষ্ট হয়ে ওঠে: "বাফেলো বাইসন যে অন্য মহিষগুলি বিস্ফোরিত করে, নিজেরাই বুফেলো বাইসানকে বোকা দেয়।"


1
এটাই আমি খুঁজছি! কেউ কি আরও ছোট স্কেল এটিকে মানিয়ে নেওয়ার কথা শুনেছেন? মুক্ত উৎস? এর ছোট আকারের স্কেলগুলিতে ব্যবহারের উদাহরণ?
Vinny

এমএস ওয়ার্ড ব্যাকরণ সনাক্তকরণের মতো এই সমস্যাগুলি সমাধান করা সংস্থাগুলির পক্ষে অত্যন্ত লাভজনক হওয়ায় @ ভিনি এএফাইক ওপেন সোর্সে তেমন কিছুই পাওয়া যায় না। এমন কিছু বকবক-বট প্রোগ্রাম রয়েছে যা আমি বিশ্বাস করি available
রাইথাল

1
@ ভিনি এই অসুবিধাগুলির স্কেলের সাথে কিছু করার নেই। প্রাকৃতিক ভাষা প্রক্রিয়াকরণের একটি অন্তর্নিহিত জটিলতা থাকে যা আপনি "স্কেল" হ্রাস করার সময় হ্রাস পায় না।
তুলিনাস কর্ডোভা

6

যদিও আপনার বাক্যটি বিভক্ত করা এবং ব্যাকরণগত যথার্থতা নির্ধারণ করা আপনার প্রথম সমস্যার সমাধানের সাথে আপনার দ্বিতীয় সমস্যার চেয়ে সহজ, ক্রিয়াপদ-বিশেষ্য বা সাঁতার, প্রোগ্রামিং ইত্যাদির মতো অনেক জটিলতা এবং এ জাতীয় অন্যান্য জটিলতা এখনও তা একটি চ্যালেঞ্জ - দেখুন মরনস ' উত্তর.

তবে আপনার দ্বিতীয় সমস্যা - লোকেরা একটি নিখুঁত সমাধানের সন্ধানের জন্য প্রচুর প্রচেষ্টা চালিয়েছে, তবে সত্যিকারের নিখুঁত "ব্যাখ্যা" অ্যালগরিদমটি ইংরেজির মতো কোনও প্রাকৃতিক ভাষার ক্ষেত্রে ব্যবহারিকভাবে অনুধাবনযোগ্য নয় - এমন বিভিন্নতা রয়েছে যা আপনার অ্যালগরিদমকে স্ক্রু করে দেবে । এই ক্ষেত্র - এআই, কম্পিউটার বিজ্ঞান এবং ভাষাতত্ত্বের মধ্যে একটি হাইব্রিড এনএলপি হিসাবে পরিচিত । এটি বিবেচনা করুন: এমনকি "অনুবাদ" বাক্যগুলিতে গুগল অনুবাদও সঠিক নয়।

তবে তবুও, এটি ছড়িয়ে পড়ার জন্য খুব আকর্ষণীয় ক্ষেত্র।


@ স্ট্রিপলিং ওয়াররিওর আমি কেবল ওপি কর্তৃক উত্থাপিত দুটি সমস্যার মধ্যে যথেষ্ট বৈপরীত্য চেয়েছি। উল্লেখযোগ্য। এর পথে সম্পাদনা করুন
ইয়াতী সাগাদ

4

আমি মনে করি আপনার এই উইকিপিডিয়া নিবন্ধটি পড়া শুরু করা উচিত:

http://en.wikipedia.org/wiki/Part-of-speech_tagging

(এটি একটি গবেষণা ক্ষেত্র, এর কোনও সহজ সমাধান আশা করবেন না))


2
এটি যুক্ত করা উচিত যে এনএলপি আজকের কম্পিউটারগুলিতে বিশাল, কঠোর এবং সম্ভবত অবিচল থাকলেও পস ট্যাগিং এর সহজতম অংশ এবং পর্যাপ্ত কর্পাস আকার বা প্রচুর উত্সর্গ এবং ম্যানুয়াল বিধি-রচনা দ্বারা এটি প্রায় নিখুঁতভাবে সমাধান করা যেতে পারে, অবশ্যই 99% সঠিকতার উপরে। এটি আপনার প্রয়োজনের জন্য যথেষ্ট হতে পারে।
কিলিয়ান ফট

আপনাকে ধন্যবাদ, আমি ঠিক এটিই অনুসন্ধান করছিলাম।
এমসি_রট্টি

আসলে ওপি-র বর্ণনার উপর ভিত্তি করে, আপনি @ কিলিয়ানফথ
এমসি_রট্টি

-1

এটি করার একটি সস্তার উপায় হ'ল অভিধানের একটি ডাটাবেস স্থাপন করা (আমি প্রায় ইতিবাচক যে কেউ এটি করেছেন)।

সারণীতে দুটি ক্ষেত্র প্রয়োজন: wordএবংusage

বাক্যটিকে স্ট্রিংগুলির একটি অ্যারে রূপান্তর করুন, (প্রতিটি শব্দ একটি স্ট্রিং হচ্ছে) এবং স্বাধীনভাবে:

select 'usage' from Dictionary WHERE 'word' = $word; 

এটি একটি ভারী সমাধান, তবে একটি যা আমি অতীতে ব্যবহার করেছি।


5
এটি ধরে নিয়েছে যে প্রতিটি শব্দের কেবল একটিই সম্ভাব্য পস রয়েছে এবং আমি আপনাকে আশ্বাস দিচ্ছি যে এটি মোটেই ঘটেনি।
microtherion

সম্মত - প্রসঙ্গের উপর নির্ভর করে বিশেষ্য, ক্রিয়া, ইত্যাদি হিসাবে কাজ করতে পারে এমন সমস্ত শব্দের সাথে এটি সম্ভবত কমপক্ষে (ইংরেজিতে) কার্যকরভাবে কাজ করার কোনও উপায় নেই।
ডেরেক
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.