আমি কীভাবে "ক" এবং "একটি" দিয়ে কোনও শব্দকে সঠিকভাবে উপসর্গ করতে পারি?


94

আমার একটি .NET অ্যাপ্লিকেশন রয়েছে যেখানে একটি বিশেষ্য দেওয়া হয়েছে, আমি এটি "a" বা "an" দিয়ে সঠিকভাবে এই শব্দের উপস্থাপন করতে চাই। আমি যে কিভাবে করতে হবে?

উত্তর দেওয়ার আগে প্রথম অক্ষরটি স্বর হয় কিনা তা খতিয়ে দেখার আগে আপনি এই শব্দটি বিবেচনা করুন:

  • একটি সৎ ভুল
  • একটি ব্যবহৃত গাড়ী

4
আপনাকে সংক্ষিপ্তসারগুলিও বিবেচনা করতে হবে যা থা "এ" বা "এনএইচএল" এর মতো কিছু বিভ্রান্তির কারণও হতে পারে যা একটি চিঠির শব্দটি একটি স্বর দিয়ে শুরু হয় যদিও সংক্ষিপ্ত রূপটি একটি শব্দ হিসাবে উচ্চারণ করা যায় না যদি "একটি এনএএস ডিভাইস" বা "একটি ন্যাসকার ইভেন্ট" হিসাবে
জেবি কিং

5
এও মনে রাখবেন যে একটি বা একটি এর ব্যবহার ইংরেজি বিভিন্ন ধরণের ইংরেজী ভাষায় নির্দিষ্ট উচ্চারণের উপর নির্ভর করতে পারে। Herষধিটির ব্রিটিশ এবং আমেরিকান উচ্চারণ এর একটি উদাহরণ।
এরিক

12
@ এরিক: প্রকৃতপক্ষে, এর আমার প্রিয় উদাহরণ (নার্দিও) "এসকিউএল"। কিছু লোকেরা "এসকিউএল" অক্ষর বলে, কিছু লোকেরা এটি "সিক্যুয়াল" শব্দের মতো উচ্চারণ করে। প্রত্যেকটি আলাদা "ক" বা "একটি" পায়। যেমন এটি "একটি সিক্যুয়াল স্টেটমেন্ট" আয়াত "এটি একটি এসকিউএল বিবৃতি"
বাইনারি ওয়ারিয়ার

আরও কঠিন এটি যে একই মতামত ইংরেজি একই উপভাষার মধ্যেও পৃথক! সুতরাং উদাহরণস্বরূপ, অফিসিয়াল (ইউকে) ইংলিশ আমাদের বলে "একটি হোটেল" সঠিক কাঠামো, তবে বেশিরভাগ লোকেরা প্রতিদিনের কথোপকথনে "হোটেল" ব্যবহার করবেন। আপনি যদি একটি লিখেন তা আমাদের বাকিদের জন্য খুব কার্যকর হবে!
h4xxr

আহ ... "উচ্চাকাঙ্ক্ষী এইচ" আমি এর সাথে আমার প্রথম মুখোমুখি স্পষ্টভাবে স্মরণ করি। Anপনিবেশিক উইলিয়ামসবার্গের একটি বই "অ্যান হিস্টোরিকাল সোসাইটি" নামে একটি দ্বিতীয় শ্রেণির সামাজিক অধ্যয়নের বই book
বব কাউফম্যান

উত্তর:


137
  1. উইকিপিডিয়া ডাউনলোড করুন
  2. এটি আনজিপ করুন এবং একটি দ্রুত ফিল্টার প্রোগ্রাম লিখুন যা কেবলমাত্র নিবন্ধের পাঠ্যকে আলাদা করে দেয় (ডাউনলোডটি সাধারণত এক্সএমএল ফর্ম্যাটে থাকে, অ-নিবন্ধ মেটাডেটা সহও)
  3. একটি (এন) এর সমস্ত দৃষ্টান্ত সন্ধান করুন .... এবং নিম্নলিখিত শব্দ এবং এর সমস্ত উপসর্গের উপর একটি সূচি তৈরি করুন (আপনি এর জন্য একটি সাধারণ প্রত্যয় ব্যবহার করতে পারেন)। এটি ক্ষেত্রে সংবেদনশীল হওয়া উচিত এবং আপনার সর্বাধিক শব্দ-দৈর্ঘ্য - 15 টি অক্ষর প্রয়োজন?
  4. (alচ্ছিক) 5 বারেরও কম সংঘটিত সমস্ত উপসর্গ ত্যাগ করুন বা যেখানে "a" বনাম "একটি" 2/3 সংখ্যাগরিষ্ঠরও কম (বা অন্য কিছু থ্রেশহোল্ডগুলি - এখানে টুইঙ্ক করুন) অর্জন করবে। কর্নার-কেসগুলি এড়াতে খালি উপসর্গটি সাধারণত রাখুন।
  5. যাদের পিতামাতার একই "এ" বা "একটি" টিকা ভাগ করে সেই সমস্ত উপসর্গগুলি ফেলে দিয়ে আপনি আপনার উপসর্গ ডাটাবেসটিকে অনুকূল করতে পারেন।
  6. "এ" বা "এএন" ব্যবহার করতে হবে কিনা তা নির্ধারণ করার সময় দীর্ঘতম মিলিত উপসর্গটি খুঁজে নিন এবং এর সীসা অনুসরণ করুন। আপনি যদি পদক্ষেপ 4-এ খালি উপসর্গটি বাতিল না করেন তবে সর্বদা একটি মিলিত উপসর্গ (যথা খালি উপসর্গ) থাকবে, অন্যথায় সম্পূর্ণ-অ-মিলের স্ট্রিংয়ের জন্য আপনার একটি বিশেষ ক্ষেত্রে প্রয়োজন হতে পারে (এ জাতীয় ইনপুট খুব বিরল হওয়া উচিত) ।

আপনি সম্ভবত এর থেকে আরও ভাল কিছু পেতে পারেন না - এবং এটি অবশ্যই বেশিরভাগ নিয়ম-ভিত্তিক সিস্টেমগুলিকে পরাজিত করবে।

সম্পাদনা: আমি এটিকে জেএস / সি # তে প্রয়োগ করেছি । আপনি এটি আপনার ব্রাউজারে চেষ্টা করতে পারেন বা এটি ব্যবহার করা ছোট, পুনরায় ব্যবহারযোগ্য জাভাস্ক্রিপ্ট বাস্তবায়ন ডাউনলোড করতে পারেন। .NET বাস্তবায়ন AvsAnনুগেটে প্যাকেজ । বাস্তবায়নগুলি তুচ্ছ, সুতরাং প্রয়োজনে অন্য যে কোনও ভাষায় পোর্ট করা সহজ হওয়া উচিত।

"বিধিগুলি" চালু করেছিলাম যা ভেবেছিলাম তার চেয়ে কিছুটা জটিল:

  • এটা একটি অপ্রত্যাশিত ফলাফলের কিন্তু এটা একটি সর্বসম্মত ভোট
  • এটি একটি সৎ সিদ্ধান্ত কিন্তু একটি হানিস্কল ঝোপযুক্ত
  • প্রতীক: এটি একটি 0800 নম্বর বা an রেগানো ∞
  • সংক্ষিপ্ত শব্দ: এটি একটি নাসা বিজ্ঞানী, তবে একটি এনএসএ বিশ্লেষক; একটি FIAT গাড়ী কিন্তু একটি এফএএ নীতি।

... যা কেবলমাত্র একটি নিয়ম ভিত্তিক সিস্টেমটি তৈরি করা কঠিন বলে আন্ডারলাইন করতে যায়!


27
প্রদত্ত যে উইকিপিডিয়া ডাউনলোডগুলি (বর্তমানে) ২.৮ টেরাবাইটের সাথে সংকোচিত হয়েছে, এটি দুর্দান্ত হবে যদি এই পদ্ধতিটি ব্যবহার করে কেউ ফলাফলের তথ্য প্রকাশ্যে পোস্ট করে তবে প্রক্রিয়াটি খুব বেশি বারবার করা উচিত নয়।
নাথান লং

10
এই উত্তরটি পুরোপুরি গুরুতর ছিল না, তবে আমি এরকম কিছু করেছি এবং উইকিপিডিয়াতে। উইকিপিডিয়াতে .MLML ফাইলটি কেবলমাত্র 40 গিগাবাইটের আদেশ অনুসারে (সর্বদা নতুনটি সর্বদা কিছুটা বড় থাকে), ২.৮ টিবি নয় - সমস্তই একটি ফাইলে - প্রসারিত .html সংস্করণ বা কোনও চিত্র ডাউনলোড করবেন না, সম্ভবত এটিই 2.8TB সংস্করণ? যাই হোক না কেন, যতক্ষণ আপনি মার্কআপটি বেছে নেবেন না ততক্ষণ পর্যন্ত এটি পার্স করা বেশ সম্ভবপর।
ইমন নের্বোন

4
এটি আমার পক্ষে সহজেই উপলভ্য, প্রাকৃতিক ভাষার ডেটা সেট হিসাবে সহজেই উপলব্ধ। যাইহোক, কোনও অতিরিক্ত ডেটা উত্স খুব ভাল, অবশ্যই - অ্যালগরিদম উইকিপিডিয়া উপর নির্ভর করে না, সর্বোপরি। আপনি home.nerbonne.org/A-vs-An বা আমার ব্লগে
ইমন নেরবোন

4
ব্যাকরণগতভাবে সঠিক ইংলিশের কোনও বৃহত যথেষ্ট কর্পস কাজ করবে। এই দ্রষ্টব্যটি এনএলপি লোকেরা বিতরণকারী শব্দার্থক শব্দগুলির একটি বিশেষ বিষয় ।
Chthonic প্রকল্প

4
আমি এই সমাধান দ্বারা মুগ্ধ অতিক্রম ছিল । আমি সত্যই ভেবেছিলাম এটি সম্পূর্ণরূপে উইকিপিডিয়া ডাউনলোড করার চেয়ে অনেক সহজ হবে ঠিক আছে স্যার। +1
কেহলান ক্রুমমে

15

আপনাকে ব্যতিক্রমগুলির একটি তালিকা ব্যবহার করতে হবে। আমি মনে করি না যে সমস্ত ব্যতিক্রমগুলি যথাযথভাবে সংজ্ঞায়িত হয়েছে, কারণ এটি কখনও কখনও ব্যক্তির শব্দটি উচ্চারণের উপর নির্ভর করে।

একটি মূর্খ উপায় হ'ল গুগলকে দুটি সম্ভাবনার জন্য জিজ্ঞাসা করা (অনুসন্ধানের API গুলির মধ্যে একটির ব্যবহার করে) এবং সর্বাধিক জনপ্রিয় ব্যবহার:

বা:

সুতরাং "একটি ইউরোপ" এবং "একটি সৎ" সঠিক সংস্করণ।


6
আসলেই কি এটি ব্যবহারের অনুমতিপ্রাপ্ত বা এটি নিষিদ্ধ হতে বলা হচ্ছে? নিয়মিত এ জাতীয় ব্যবহার অবশ্যই আইআইআরসি-র উপর নির্ভর করে।
ইমন নের্বোন

4
@ ইমন: আকর্ষণীয় বিষয়। যদি অ্যাপ্লিকেশনটি এর আগে গুগল করা সমস্ত শব্দের একটি রেকর্ড রাখে, তবে এটি প্রতি নতুন শব্দটির সাথে মুখোমুখি হওয়াতে কেবল একবার গুগল করতে হবে? এটি কি এখনও গুগলের প্রশ্নবিদ্ধ ব্যবহার হতে পারে?
gnovice

4
স্পষ্টত প্রযুক্তিগত অসুবিধা বাদ দিয়ে (এটির মতো স্বয়ংক্রিয় পদ্ধতিতে কোনও অনুসন্ধান ইঞ্জিন আউটপুট ব্যবহারের অনুমতি নেই এবং এটি বরং দ্রুত অবরুদ্ধ করা হবে), সমস্যাটি সঠিক উপায়ে সমাধান করে না - সবচেয়ে খারাপ দিক থেকে এটি সাধারণ অপব্যবহারের নকল করবে worst বাক্য গঠন.
গাস

6
নাহয়? এখানে একটি দৃ strong় দৃ argument় যুক্তি রয়েছে যে নকল করে দেওয়া "সাধারণ অপব্যবহার" হ'ল প্রাকৃতিক ভাষা ব্যবস্থার জন্য একই প্রচেষ্টা করা উচিত। ডেভিড ফস্টার ওয়ালেসের রচনা "কর্তৃপক্ষ এবং আমেরিকান ব্যবহার" দেখুন, লবস্টারকে বিবেচনা করুন । গুগলের চেয়ে আরও ভাল কর্পোরো ব্যবহার করা যায় তবে এটি অন্যরকম একটি সমস্যা।
রবার্ট রসনি

4
"একটি হোটেল" এবং "একজন নায়িকা" উভয়ই আমার কাছে ঠিক বলে মনে হচ্ছে। আমার ধারণা আপনি সামান্য ককনি অ্যাকসেন্ট দৃষ্টিকোণ থেকে এসেছেন। বিভিন্ন উচ্চারণের অর্থ এই যে কয়েকটি শব্দের সঠিক উত্তর নেই।
rjmunro

15

আপনি যদি শব্দ উচ্চারণে শব্দ বানানগুলির উত্স খুঁজে পেতে পারেন তবে:

"honest":"on-ist"
"horrible":"hawr-uh-buhl, hor-"

আপনি বানান উচ্চারণ স্ট্রিংয়ের প্রথম চরিত্রের উপর ভিত্তি করে আপনার সিদ্ধান্তটি স্থির করতে পারেন। পারফরম্যান্সের জন্য, সম্ভবত আপনি ব্যতিক্রম সেটগুলি প্রাক-উত্পন্ন করতে এবং এর পরিবর্তে কার্যকর করার সময় সেই ছোট লুক সেটগুলি ব্যবহার করতে পারেন।

যুক্ত করতে সম্পাদিত:

!!! - আমি মনে করি আপনি নিজের ব্যতিক্রমগুলি তৈরি করতে এটি ব্যবহার করতে পারেন: http://www.speech.cs.cmu.edu/cgi-bin/Cudict

অবশ্যই অভিধানে সব কিছু থাকবে না - অর্থাত্ প্রতিটি ব্যতিক্রমগুলি আপনার ব্যতিক্রম সেটগুলিতে সরে যাবে না - তবে সেক্ষেত্রে আপনি কেবল স্বর বা একটি ব্যঞ্জনবর্ণের জন্য ডিফল্ট করতে পারেন বা আরও ভাল প্রতিকূলতার সাথে কিছু অন্যান্য ধর্মতাত্ত্বিক ব্যবহার করতে পারেন।

(সিএমইউ ডিকশনারিটি দেখে, আমি এতে খুশি হয়েছিলাম যে এতে দেশ এবং অন্যান্য কিছু জায়গার জন্য যথাযথ বিশেষ্য রয়েছে - সুতরাং এটি "ইউক্রেনীয়", "ইউএসএ টুডে পেপার", "ইউরাল-অনুপ্রাণিত পেইন্টিং" এর মতো উদাহরণ দেবে))

যুক্ত করার জন্য আরও একবার সম্পাদনা করা হচ্ছে: সিএমইউ অভিধানে সাধারণ সংক্ষিপ্ত শব্দ নেই, এবং আপনার s, f, l, m, n, u, এবং x এর সাথে শুরু হওয়া লোকদের নিয়ে চিন্তা করতে হবে। তবে উইকিপিডিয়ায় যেমন প্রচুর পরিমাণে সংক্ষিপ্ত তালিকা রয়েছে, যা আপনি ব্যতিক্রমগুলি যুক্ত করতে ব্যবহার করতে পারেন।


4
নিজেকে সাহায্য করতে পারে না, তবে hawr-uh-buhlসর্বদা আমাকে হাসায়।
IllidanS4

9

আপনাকে ম্যানুয়ালি বাস্তবায়ন করতে হবে এবং আপনার পছন্দসই ব্যতিক্রমগুলি উদাহরণস্বরূপ যোগ করতে হবে উদাহরণস্বরূপ যদি প্রথম অক্ষরটি 'এইচ' হয় এবং তার পরে 'ও' এর মতো সৎ, ঘন্টা ... এবং ইউরোপ, বিশ্ববিদ্যালয়, এর মতো বিপরীত অক্ষরও ব্যবহৃত হয় ...


4
হ্যাঁ সত্যই মানুষ। আমার ধারণা আমি ভুল করেছিলাম। এটির কোনও নিয়ম নেই
আহমদ ফরিদ

8

যেহেতু "a" এবং "an" হরফের নিয়মের দ্বারা নির্ধারিত হয় এবং বানান কনভেনশন নয়, আমি সম্ভবত এটি এটি করতাম:

  1. শব্দের প্রথম অক্ষরটি যদি ব্যঞ্জনবর্ণ হয় -> 'ক'
  2. যদি শব্দের প্রথম অক্ষরটি একটি স্বর-> 'an' হয়
  3. Rjumero যেমন বলে ব্যতিক্রম (হার্ট, এক্স-রে, ঘর) এর একটি তালিকা রাখুন ।

5

অনির্দিষ্ট নিবন্ধগুলির জন্য ব্যাকরণ সংক্রান্ত নিয়মগুলি আপনাকে দেখতে হবে (ইংরেজি ব্যাকরণে কেবল দুটি অনির্দিষ্ট নিবন্ধ রয়েছে - "ক" এবং "একটি) আপনি এই শব্দটিকে সঠিকভাবে সম্মত করতে পারেন না তবে ইংরেজি ব্যাকরণের নিয়মগুলি খুব স্পষ্ট :

"ক এবং এ শব্দগুলি অনির্দিষ্ট নিবন্ধসমূহ। আমরা স্বরধ্বনি (ক, ই, আই, ও, ইউ) দিয়ে শুরু হওয়া শব্দের আগে এবং অনির্দিষ্ট নিবন্ধটি ব্যঞ্জনাত্মক শব্দের সাথে শুরু হওয়া শব্দের পূর্বে অনির্দিষ্ট নিবন্ধটি ব্যবহার করি (সমস্তগুলি অন্যান্য অক্ষর) "।

নোট করুন এর অর্থ একটি স্বরযুক্ত শব্দ , এবং স্বর বর্ণ নয় । উদাহরণস্বরূপ, "সম্মান" বা "উত্তরাধিকারী" এর মতো একটি নীরব "এইচ" দিয়ে শুরু হওয়া শব্দের স্বর হিসাবে বিবেচনা করা হয় তাই "একটি" দিয়ে এগিয়ে যাওয়া হয় - উদাহরণস্বরূপ, "এটি আপনার সাথে দেখা করার জন্য সম্মান"। ব্যঞ্জনবর্ণ শব্দের সাথে শুরু হওয়া শব্দের একটির সাথে উপসর্গ করা হয় - এজন্য আপনি "ব্যবহৃত গাড়ী" ব্যবহার না করে "একটি ব্যবহৃত গাড়ী" বলে থাকেন - কারণ "ব্যবহৃত" একটি "উহ" শব্দের পরিবর্তে "ইউস" শব্দ ধারণ করে।

সুতরাং, প্রোগ্রামার হিসাবে, এইগুলি অনুসরণ করার নিয়ম। কোন বর্ণের পরিবর্তে কোন শব্দটি কী দিয়ে শুরু হয় তা নির্ধারণের জন্য আপনার কেবল একটি উপায় তৈরি করতে হবে। আমি এর উদাহরণগুলি দেখেছি, যেমন জ্যামি সিরোভিচের পিএইচপি-তে এটির মতো:

function aOrAn($next_word) 
{ 
    $_an = array('hour', 'honest', 'heir', 'heirloom'); 
    $_a = array('use', 'useless', 'user'); 
    $_vowels = array('a','e','i','o','u'); 

    $_endings = array('ly', 'ness', 'less', 'lessly', 'ing', 'ally', 'ially'); 
    $_endings_regex = implode('|', $_endings); 

    $tmp = preg_match('#(.*?)(-| |$)#', $next_word, $captures); 
    $the_word = trim($captures[1]); 
    //$the_word = Format::trimString(Utils::pregGet('#(.*?)(-| |$)#', $next_word, 1)); 

    $_an_regex = implode('|', $_an); 
    if (preg_match("#($_an_regex)($_endings_regex)#i", $the_word)) { 
        return 'an'; 
    } 

    $_a_regex = implode('|', $_a); 
    if (preg_match("#($_a_regex)($_endings_regex)#i", $the_word)) { 
        return 'a'; 
    } 

    if (in_array(strtolower($the_word{0}), $_vowels)) { 
        return 'an';     
    } 

    return 'a'; 
}

নিয়মটি তৈরি করা এবং তার পরে ব্যতিক্রমগুলির একটি তালিকা তৈরি করা এবং এটি ব্যবহার করা সম্ভবত সবচেয়ে সহজ। আমি ভাবছি না যে সেখানে অনেকগুলি থাকবে।


4

ম্যান, আমি বুঝতে পারি যে এটি সম্ভবত একটি নিষ্পত্তি যুক্তি, তবে আমি মনে করি এটি উইকিপিডিয়া থেকে অ্যাডহক ব্যাকরণ নিয়মের চেয়ে সহজভাবে মীমাংসা করা যেতে পারে, যা সর্বোপরি আঞ্চলিক ব্যাকরণ গ্রহণ করবে।

মনে হয়, সর্বোত্তম সমাধানটি হ'ল একটি সাথে এবং একটি ট্রিগার ব্যবহার করে নিম্নলিখিত শব্দের সাথে একটি ফোনমে-ভিত্তিক মিল রয়েছে, নির্দিষ্ট ফোনের সাথে সর্বদা "এ" এবং বাকী "ক" এর সাথে যুক্ত থাকে।

কার্নেগি মেলন বিশ্ববিদ্যালয়ের এই ধরণের চেকগুলির জন্য একটি দুর্দান্ত অনলাইন সরঞ্জাম রয়েছে - http://www.speech.cs.cmu.edu/cgi-bin/Cudict - এবং 39k ফোনমেলার সাথে মিলিয়ে 125k শব্দে। একটি শব্দ প্লাগ ইন করা পুরো ফোনমিক সেট সরবরাহ করে, যার মধ্যে কেবল প্রথমটি গুরুত্বপূর্ণ।

শব্দটি অভিধানে যেমন না উপস্থিত হয়, যেমন "এনএসএ" এবং সমস্ত মূলধন হয়ে থাকে, তবে সিস্টেমটি শব্দটিকে একটি সংক্ষিপ্ত রূপ হিসাবে ধরে নিতে পারে এবং একই মূল নিয়মের গোষ্ঠীর উপর ভিত্তি করে কোন অনির্দিষ্ট নিবন্ধটি ব্যবহার করা হবে তা নির্ধারণের জন্য প্রথম অক্ষরটি ব্যবহার করতে পারে।


4
রিসোর্স-ইকোনমির দিক থেকে এটি সেরা উত্তর, এবং আমি কেন দেখছি না যে এটি প্রস্তাবিত আরও বেশি ডেটা-ইনটেনসিভ পদ্ধতির তুলনায় আরও খারাপ আচরণ করবে।
Chthonic প্রকল্প

3

@ নাথান লং: উইকিপিডিয়া ডাউনলোড করা আসলে খারাপ ধারণা নয়। সমস্ত চিত্র, ভিডিও এবং অন্যান্য মিডিয়া প্রয়োজন হয় না।

আমি পিএইচপি এবং জাভাস্ক্রিপ্ট (!) তে পুরো সুইডিশ উইকিপিডিয়া পড়ার জন্য (বা কমপক্ষে সমস্ত অ্যারিকেল যা গণিত সম্পর্কে অ্যারিকেল থেকে পৌঁছানো যায়, যা আমার মাকড়সার জন্য শুরু ছিল) পড়ার জন্য একটি (ক্রপ্প) প্রোগ্রাম লিখেছিলাম।

আমি একটি ডাটাবেসে সমস্ত শব্দ এবং অভ্যন্তরীণ লিঙ্ক সংগ্রহ করেছি এবং প্রতিটি শব্দের ফ্রিকোয়েন্সিও ট্র্যাক করেছি। আমি এখন এটি বিভিন্ন কাজের জন্য একটি শব্দ ডাটাবেস হিসাবে ব্যবহার করি: * প্রদত্ত অক্ষরের একটি সেট (ওয়াইল্ডকার্ড সহ) থেকে তৈরি করা যায় এমন সমস্ত শব্দ সন্ধান করা * সুইডিশের জন্য একটি সহজ বাক্য গঠন ফাইল তৈরি করা হয়েছে (ডাটাবেসের সমস্ত শব্দই ভুল হিসাবে বিবেচিত হয় না)।

ওহ, এবং পুরো উইকি ডাউনলোড করতে আমার ল্যাপটপটি বেশিরভাগ সময় 10 এমবিট সংযোগ সহ চলমান ব্যবহার করে প্রায় এক সপ্তাহ সময় নেয়।

আপনি যখন এটি উপস্থিত থাকবেন তখন ইংলিশ ভাষার সাথে অসামঞ্জস্যপূর্ণ সমস্ত উপস্থিতি লগ করুন এবং দেখুন যে এর মধ্যে কিছু ভুল রয়েছে। তাদের ঠিক করুন এবং সম্প্রদায়কে কিছু ফিরিয়ে দিন।


2

দ্রষ্টব্য যে আমেরিকান এবং ব্রিটিশ উপভাষার মধ্যে পার্থক্য রয়েছে, যেমন ব্যাকরণ গার্ল তার পর্ব এ ভার্সাস আন-তে উল্লেখ করেছিলেন ।

একটি জটিলতা হ'ল যখন ব্রিটিশ এবং আমেরিকান ইংরাজীতে শব্দগুলি আলাদাভাবে উচ্চারণ করা হয়। উদাহরণস্বরূপ, একটি নির্দিষ্ট ধরণের উদ্ভিদের শব্দটি আমেরিকান ইংরেজিতে "ইরব" এবং ব্রিটিশ ইংরেজিতে "ভেষজ" হিসাবে উচ্চারণ করা হয়। বিরল ক্ষেত্রে যেখানে এটি সমস্যা, আপনার দেশে বা আপনার পাঠকদের সংখ্যাগরিষ্ঠ দ্বারা প্রত্যাশিত ফর্মটি ব্যবহার করুন।



2

আমি পাইথন থেকে একটি ফাংশন পোর্ট করেছি (মূলত সিপিএএন প্যাকেজ লিংগুয়া-এন-ইনফ্লেট থেকে) যা সি # তে স্বরধ্বনি সঠিকভাবে নির্ধারণ করে এবং এটিকে প্রশ্নের উত্তর হিসাবে পোস্ট করেছে প্রোগ্রামিয়ালি নির্ধারণ করে কিনা কোনও বা একটি দিয়ে কোনও বস্তুর বর্ণনা দিতে হবে কিনা? । আপনি কোড স্নিপেট দেখতে পারেন এখানে


1

আপনি কি এমন একটি ইংরেজী অভিধান পেতে পারেন যা আমাদের নিয়মিত বর্ণমালায় লেখা শব্দ এবং আন্তর্জাতিক ফোনেটিক বর্ণমালা সংরক্ষণ করে ?

তারপরে শব্দের শুরুর শব্দটি বের করতে ফোনেটিক্স ব্যবহার করুন এবং এভাবে "ক" বা "একটি" উপযুক্ত কিনা?

নিশ্চিত না যে এটি বাস্তবে পরিসংখ্যান উইকিপিডিয়া পদ্ধতির চেয়ে (বা যত মজাদার) তুলনায় সহজ হবে।


0

আমি যতটা পারি তার কভার করার জন্য একটি নিয়ম-ভিত্তিক অ্যালগরিদম ব্যবহার করব, তারপরে ব্যতিক্রমগুলির একটি তালিকা ব্যবহার করব। আপনি অভিনবতা পেতে চাইলে, আপনার ব্যতিক্রম তালিকা থেকে কিছু নতুন "বিধি" নির্ধারণ করার চেষ্টা করতে পারেন।


0

আমি হিউরিস্টিক্সের এক সেট মত দেখতে। এটি কিছুটা জটিল হতে হবে এবং এমন কিছু বিষয়ের জবাব দেওয়া দরকার যা আমি কখনই ভালো উত্তর পাই নি, উদাহরণস্বরূপ আপনি সংক্ষিপ্তসারগুলি কীভাবে আচরণ করবেন ("একটি আরপিএম" বা "একটি আরপিএম"? আমি সর্বদা ভেবেছিলাম যে পরবর্তীটি আরও অর্থবোধ করে)।

ভাষাগত গ্রন্থাগারগুলিতে একটি দ্রুত অনুসন্ধান পাওয়া গেছে যা ইংরাজী একক উপসর্গটি কীভাবে পরিচালনা করতে পারে সে সম্পর্কে আলোচনা করে, তবে আপনি যথেষ্ট পরিমাণে ডুব দিলে আপনি সম্ভবত কিছু খুঁজে পেতে পারেন। এবং যদি না হয় - আপনি সর্বদা আপনার নিজের প্রতিচ্ছবি গ্রন্থাগার লিখতে পারেন এবং বিশ্ব খ্যাতি অর্জন করতে পারেন :-)।


আরপিএমের মতো সংক্ষিপ্তসার কোনও সমস্যা নয়। আপনি যেভাবে বলছেন যেহেতু তাদের সাথে কোনওভাবে চিকিত্সা করা যায়। সুতরাং সমাধানটি সুস্পষ্ট: এগুলি উপেক্ষা করুন।
অ্যান্ড্রু জে ব্রেহম

আমি সম্মত হব না কারণ এটি অসঙ্গত উপসর্গের কারণ। কেবল এটিকে অগ্রাহ্য করার ফলে "একটি আরপিএম" এবং "একটি ইউজিসি" হবে যা পরিষ্কারভাবে ভুল।
গস

0

আমি মনে করি না আপনি কিছু বয়লার প্লেট স্টাফকে 'এক / আন' এর মতো এক ধাপের কভার-সমস্ত হিসাবে পূরণ করতে পারেন। অন্যথায় আপনি 'এইচ' হিসাবে 'হোম' - (একটি বাড়ি?) এর পরিবর্তে 'ও' গেট 'দ্বারা এগিয়ে' এইচ 'দিয়ে সমস্ত শব্দের মতো অনুমানের ত্রুটিগুলি শেষ করবেন। মূলত, আপনি ইংরাজী ভাষার যুক্তি সহ শেষ করবেন বা মাঝেমধ্যে বিরল কেস খুঁজে পাবেন যা আপনাকে বোকা দেখাবে।


0

কোনও শব্দটি স্বর বা কোনও উপাদান দিয়ে শুরু হয় কিনা তা পরীক্ষা করে দেখুন। একটি "ইউ" সাধারণত ব্যঞ্জনবর্ণ এবং একটি স্বর ("ইউ") হয়, সুতরাং আপনার উদ্দেশ্যে ব্যঞ্জনবর্ণ গ্রুপে অন্তর্ভুক্ত।

"এইচ" অক্ষরটি ফ্রেঞ্চ ভাষায় এবং ইংরেজীতে ব্যবহৃত ফরাসি শব্দের মধ্যে একটি গোটাল স্টপ (ব্যঞ্জনবর্ণ) বোঝায়। আপনি তাদের একটি তালিকা তৈরি করতে পারেন (প্রকৃতপক্ষে, "সম্মান", "সম্মান", এবং "ঘন্টা" পর্যাপ্ত হতে পারে) এবং এগুলি স্বর দিয়ে শুরু হিসাবে গণনা করতে পারেন (যেহেতু ইংরেজী কোনও গ্লোটাল স্টপকে স্বীকৃতি দেয় না)।

"Eu" ব্যঞ্জনবর্ণ ইত্যাদি হিসাবে গণনা করুন etc.

এটা খুব কঠিন না।


0

একটি বা একটি এর পছন্দটি শব্দটির উচ্চারণের উপর নির্ভর করে। শব্দটি দেখে আপনি অগত্যা তার সঠিক উচ্চারণটি বলতে পারবেন না যেমন একটি জার্গন বা সংক্ষেপণ ইত্যাদি the উপায়গুলির মধ্যে একটি হ'ল ফোনমেসের সমর্থন সহ একটি অভিধান থাকতে পারে এবং "a" "বা একটি" an "ব্যবহার করা উচিত।


0

"এ" এবং "একটি" পার্থক্য করার জন্য এটিতে যথাযথ তথ্য রয়েছে তা আমি নিশ্চিত হতে পারি না, তবে প্রিন্সটনের ওয়ার্ডনেট ডাটাবেসটি একই ধরণের বিভিন্ন কাজের জন্য যথাযথভাবে উপস্থিত রয়েছে, সুতরাং আমি মনে করি এটি সম্ভবত ডেটা আছে । এটিতে কয়েক হাজার শব্দ এবং কয়েক হাজার সম্পর্ক রয়েছে যা বলা কথার মধ্যে (আইআইআরসি; আমি সাইটে বর্তমান পরিসংখ্যান খুঁজে পাচ্ছি না)। একবার দেখুন। এটি অবাধে ডাউনলোডযোগ্য।


0

কীভাবে? কেমন হবে কখন? সংযুক্ত নিবন্ধ সহ বিশেষ্য পান। এটি একটি নির্দিষ্ট ফর্মের জন্য জিজ্ঞাসা করুন।

নিবন্ধটি দিয়ে বিশেষ্যটি জিজ্ঞাসা করুন। অনেকগুলি এমইউডি কোডবেস স্টোর আইটেমগুলিকে ধারণ করে:

  • এক বা একাধিক কীওয়ার্ড
  • একটি সংক্ষিপ্ত রূপ
  • একটি দীর্ঘ ফর্ম

মূলশব্দটির ফর্মটি "শর্ট তরোয়াল মরিচা" হতে পারে। সংক্ষিপ্ত রূপটি হবে "তরোয়াল"। দীর্ঘ রূপটি হবে "একটি মরিচা শর্ট তরোয়াল"।

আপনি কি "বনাম বনাম" ওয়েব পরিষেবা লিখছেন? একধাপ পিছনে যান এবং আরও দেখুন যে আপনি এই ফুটোটিকে আরও প্রবাহিত করতে আক্রমণ করতে পারেন কিনা। আপনি একটি বাঁধ তৈরি করতে পারেন, তবে আপনি এটি প্রবাহিত হওয়া বন্ধ না করলে অবশেষে এটি ছড়িয়ে পড়বে।

এটি কতটা সমালোচনামূলক তা নির্ধারণ করুন এবং অন্যেরা যেমন পরামর্শ দিয়েছেন, "দ্রুত তবে অসচ্ছল" বা "ব্যয়বহুল তবে দৃur়" হন।


0

নিয়মটি খুব সাধারণ। পরবর্তী শব্দটি যদি স্বরবর্ণের সাথে শুরু হয় তবে 'an' ব্যবহার করুন, যদি এটি ব্যঞ্জনবর্ণ দিয়ে শুরু হয় তবে 'ক' ব্যবহার করুন। কঠিন বিষয় হ'ল আমাদের স্বর এবং ব্যঞ্জনবর্ণের স্কুল শ্রেণিবিন্যাস কাজ করে না। 'সম্মানের' মধ্যে 'এইচ' একটি স্বরবর্ণ, তবে 'হাসপাতালে' 'হ' একটি ব্যঞ্জনবর্ণ।

আরও খারাপ, 'সৎ' জাতীয় কিছু শব্দ স্বর বা ব্যঞ্জনবর্ণের সাথে শুরু হয় যে সে কী বলছে তার উপর নির্ভর করে। আরও খারাপ, কিছু স্পিকারের চারপাশের শব্দের উপর নির্ভর করে কিছু শব্দ পরিবর্তিত হয়।

আপনি কেবল এতে কতটা সময় এবং প্রচেষ্টা চালাতে চান তা দিয়েই সমস্যাটি সীমাবদ্ধ। আপনি কয়েক মিনিটের মধ্যে 'আইওউ' স্বর হিসাবে ব্যবহার করে কোনও দম্পতিতে কিছু লিখতে পারেন, বা আপনি আপনার লক্ষ্য দর্শকদের ভাষাগত বিশ্লেষণ করে কয়েক মাস ব্যয় করতে পারেন। এগুলির মধ্যে একটি বিশাল সংখ্যক উপাখ্যান রয়েছে যা কিছু স্পিকারের পক্ষে সঠিক হবে এবং অন্যের পক্ষেও ভুল হবে - তবে বিভিন্ন স্পিকারের একই শব্দের জন্য আলাদা আলাদা নির্ধারণ করার কারণে আপনি যেভাবেই থাকুন না কেন সব সময় সঠিক হওয়া সম্ভব নয় you এটা।


0

আদর্শ পন্থাটি হ'ল এমন কোনও জায়গা অনলাইনে সন্ধান করা হবে যা আপনাকে উত্তরগুলি দিতে পারে, ডায়নামিকভাবে তাদের জিজ্ঞাসা করতে পারে এবং উত্তরগুলি ক্যাশে করে। আপনি শুরুতে কয়েক শ শব্দের সাহায্যে সিস্টেমটিকে প্রধান করতে পারেন।

(আমি এই জাতীয় কোনও অনলাইন উত্স সম্পর্কে জানি না, তবে যদি এটি থাকে তবে আমি অবাক হব না))


0

সুতরাং, সমস্ত ইন্টারনেট ডাউনলোড না করে একটি যুক্তিসঙ্গত সমাধান সম্ভব। আমি যা করেছি তা এখানে:

আমি মনে গুগল বই এন-গ্রাম ফ্রিকোয়েন্সি জন্য তাদের কাঁচা ডেটা প্রকাশিত যে এখানে । তাই আমি "এ_" এবং "আন" এর জন্য 2-গ্রাম ফাইলগুলি ডাউনলোড করেছি। যদি আমি সঠিকভাবে স্মরণ করি তবে এটি প্রায় 26 টি জিগ। সেখান থেকে আমি স্ট্রিংগুলির একটি তালিকা তৈরি করেছি যেখানে তারা বিপরীত নিবন্ধটি দ্বারা প্রত্যাশিতভাবে আগে চেয়েছিল (আপনি যদি স্বরবর্ণগুলি "" একটি "গ্রহণের প্রত্যাশা করেন) by শব্দের যে চূড়ান্ত তালিকাটি আমি 7 কিলোবাইটের নিচে রাখতে সক্ষম হয়েছি।


-2

আপনি যখনই পরের শব্দটি স্বর না হন তখনই "a" ব্যবহার করেন? এবং আপনি যখন "স্ব" ব্যবহার করেন তখনই স্বর থাকে?

এই বলে যে, আপনি কেবল "a \ s [a, e, i, o, u]। *" এর মতো একটি নিয়মিত প্রকাশ করতে পারবেন না? "? এবং তারপরে এটি একটি "একটি" দিয়ে প্রতিস্থাপন করবেন?


না, নিয়ম স্বরবর্ণ সম্পর্কে কারণ শব্দসমূহ , না স্বরবর্ণ চিঠি । "ব্যবহারকারী" স্বর দিয়ে শুরু হয়, তবে উচ্চারণ হয় না।
জোরিস গ্রোসম্যান
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.