কিছু পদ্ধতির রয়েছে যা কিছু ভাষার জন্য অন্যের চেয়ে ভাল কাজ করবে। উদাহরণস্বরূপ, সাউন্ডেক্স (এবং আমার পছন্দ মতো অন্য একটি বিবরণ ) নামের ইংরেজি উচ্চারণের জন্য ডিজাইন করা হয়েছিল। সাউন্ডেক্স সহ, এম 240 Michael
হয়ে যায়। এটিতে কয়েকটি পদক্ষেপ রয়েছে:
- প্রথম চিঠিটি বিচ্ছিন্ন। (
M
এবং ichael
)
- সমস্ত স্বর বাকী (
M
এবং chl
) থেকে সরানো হয়েছে
- ব্যঞ্জনা প্রতিস্থাপন করা হয়
- বাম প্যাড শূন্য।
- ব্যঞ্জনবর্ণ ধর্মান্তর দলীয়করণ তাদের ফোনেটিক সাদৃশ্যের উপর ভিত্তি করে B
, F
, P
এবং V
সব থেকে মানচিত্র 1
।
এবং সময়ের সাথে সাথে এর বিভিন্নতা রয়েছে । এটি বিশেষভাবে বংশগতিতে কার্যকর যেখানে একটি নামের বানান সময়ের সাথে সাথে পরিবর্তন হতে পারে তবে উচ্চারণ একই রকম থাকে।
ম্যাচ রেটিংয়ের মতো অ্যাপ্রোচও রয়েছে যা এয়ারলাইনস নামগুলির জন্য উন্নত করেছিল (আমেরিকান বংশানুসারে নয়))
ম্যাচ রেটিং পদ্ধতির এনকোডিং (এমআরএ) হ'ল:
- সমস্ত অ-নেতৃস্থানীয় স্বরবর্ণ মুছুন (
Michael
হয়ে Mchl
এবং Anthony
হয়ে Anthny
)
- যে কোনও দ্বিগুণের দ্বিতীয় ধ্রুবকটি সরান
- যদি স্ট্রিংটি 6 টি অক্ষরের বেশি হয় তবে প্রথম তিনটি এবং শেষ তিনটি নিয়ে বাকি স্ট্রিংটি 6 টি অক্ষরে কমিয়ে আনুন।
এর সম্পূর্ণ বিবরণটি আর্কাইভ.আরজে পাওয়া যাবে - নোট করুন যে এটি "ছোট নয়" (মুদ্রিত ফর্মটি 214 পৃষ্ঠা)।
তুলনা কতকাল লেখা উপর ভিত্তি করে একটি ম্যাচিং থ্রেশহোল্ড আছে।
আছে অন্য ফনেটিক আলগোরিদিম খুব ।
সুতরাং, আমি আপনাকে যা করতে উত্সাহিত করব তা হয় সাউন্ডেক্সটি যেমন হয় তেমনই ম্যাচ রেটিং পদ্ধতির মতো করে নিন, বা রোমানিয়ান ব্যঞ্জনবর্ণ এবং পোলিশ ব্যঞ্জনবর্ণের উপর ভিত্তি করে সাউন্ডেক্সকে সংশোধন করুন ।
মনে রাখবেন যে soundex সঙ্গে, ব্যঞ্জনবর্ণ হয় দলবদ্ধ (ইন পোলিশ, m
, n
, ɲ
সব অনুনাসিক ব্যঞ্জনবর্ণ দলবদ্ধ করা হয়, এবং আপনি সম্ভবত গ্রুপ, ওষ্ঠ্য ডেন্টাল, এবং ঝাঁঝর plosives হবে - তারা অঘোষ হতে পারে অথবা একসাথে স্বরিত - মঞ্জুর, আমি না পোলিশ জানুন তাই জানেন না যে আমি কেবল এমন জিনিস বলছি যা সেখানে সত্য নয়))
তারপরে ডাটাবেসের সমস্ত নাম দুটি পৃথক পৃথক সাউন্ডএক্স সিস্টেমে আবদ্ধ করুন এবং বিভিন্ন ভাষায় নামগুলির মধ্যে সংঘর্ষগুলির মধ্যে সর্বনিম্ন সেট রয়েছে কি তা সন্ধান করুন find এটি আপনাকে স্বতন্ত্র নাম দেয়। সুতরাং যে Smith
হিসাবে প্রদর্শিত হবে না Smyth
।
তবে এটি কেবলমাত্র "অন্যান্য নামগুলির সাথে সংঘর্ষের সম্ভাব্য নাম এবং দুর্ঘটনার শিকার হওয়ার সমাধান করে" ves এটি "নামটি সঠিকভাবে শুনেছেন, ভুলভাবে লেখা হয়েছে" এর অন্য কোনওভাবে সম্বোধন করে না এবং এর জন্য, সাধারণের দিকে তাদের মনোযোগ কেন্দ্রীভূত করা উচিত।
উদাহরণস্বরূপ, Michael
মার্কিন যুক্তরাষ্ট্রে 1950 সালের শুরু থেকে 1970 সালের শেষের দিকে খুব সাধারণ নাম ছিল name এটি সত্যই জনপ্রিয় ছিল । যাইহোক, কোনও কারণে, নামটি Micheal
1950 এর দশকে এক ধরণের জনপ্রিয় ছিল (এটি শীর্ষে 83 তম সাধারণ নামটি পেয়েছিল) up এবং আমি নিশ্চিত যে Micheal
প্রতিনিয়ত নাম দেওয়া লোকেরা তাদের নাম ভুল বানান পেয়েছিল।
সুতরাং, আপনার এমন নামগুলিতে ফোকাস করা উচিত যেখানে একটি নাম রয়েছে যা প্রদত্ত উচ্চারণের জন্য নামের জনপ্রিয়তার উপর প্রভাব ফেলে। বছরের নামের জন্য অন্য ডেটা ভোক্তা এ নেত্রপাত, আপনি দেখতে পারেন যে নাম জ্যাম শুরু ... একটি ছেলের জন্য একটি জগাখিচুড়ি হয় সঙ্গে Jamaal
, Jamal
, Jamar
এবং অন্যদের। উল্লেখ্য, এই নামগুলি কিছুটা ভিন্ন soundexes আছে আমেরিকান ( J540
, J540
এবং J560
- l
এবং r
যদিও তারা ঘনিষ্ঠভাবে ধ্বনিবিজ্ঞান মধ্যে সম্পর্কিত হয় বিভিন্ন গ্রুপের মধ্যে আছে)। যাইহোক, জাপান থেকে আসা কারও জন্য, ফোনেটিক অঞ্চলে যেখানে l
এবং সেখানে কেবল একটি শব্দ রয়েছেr
আমেরিকান ইংরাজিতে উচ্চারণ করা হয়। এটি শীর্ষস্থানীয় ব্যঞ্জনবর্ণদের সাথে সাউন্ডেক্স ব্যবহার করে একটি চ্যালেঞ্জও তৈরি করতে পারে যা সম্পর্কে সচেতন হওয়া উচিত (আমি একবার জাপানি মহিলার সাথে কাজ করেছি যিনি নিজেকে জাপানি নামের রোমানাইজেশন হিসাবে লিসা না বলে নিজেকে রিসা ("আর" দিয়ে ডেকেছিলেন)।
আপনি লক্ষ করবেন যে আমার উদাহরণগুলি মার্কিন যুক্তরাষ্ট্রের জন্য। সেই ডেটা সহজেই অ্যাক্সেসযোগ্য। স্পষ্টতই পোল্যান্ড এবং হাঙ্গেরিয়ানদের জন্য কিছু জিনিস রয়েছে এবং কেবল হাঙ্গেরিয়ান নাম সাধারণতার দিকে ইঙ্গিত রয়েছে ... আমার সন্দেহ যে ইংরেজি ব্যতীত অন্য কোনও ভাষায় অনুসন্ধান করা সেখানে সহায়ক হতে পারে।
সুতরাং, একটি নামের জন্য সাউন্ডেক্স দেওয়া, কয়েকটি সংঘর্ষ এবং প্রকৃত বানানটি সংঘর্ষের সেটে রয়েছে। সাধারণত, এটি একটি সাধারণ নাম। সেই হানির তালিকার দিকে তাকালে, Krisztián
সম্ভবত ভুল বানান পাওয়া যাবে, সম্ভবত Zoltán
কমই হবে (২০১২ সালের সবচেয়ে জনপ্রিয় শিশুর নাম হাঙ্গেরিতে!)। এটি বলেছিল, আপনি ভুল করতে পারবেন না Michael
।