কিছু পদ্ধতির রয়েছে যা কিছু ভাষার জন্য অন্যের চেয়ে ভাল কাজ করবে। উদাহরণস্বরূপ, সাউন্ডেক্স (এবং আমার পছন্দ মতো অন্য একটি বিবরণ ) নামের ইংরেজি উচ্চারণের জন্য ডিজাইন করা হয়েছিল। সাউন্ডেক্স সহ, এম 240 Michaelহয়ে যায়। এটিতে কয়েকটি পদক্ষেপ রয়েছে:
- প্রথম চিঠিটি বিচ্ছিন্ন। (
Mএবং ichael)
- সমস্ত স্বর বাকী (
Mএবং chl) থেকে সরানো হয়েছে
- ব্যঞ্জনা প্রতিস্থাপন করা হয়
- বাম প্যাড শূন্য।
- ব্যঞ্জনবর্ণ ধর্মান্তর দলীয়করণ তাদের ফোনেটিক সাদৃশ্যের উপর ভিত্তি করে B, F, Pএবং Vসব থেকে মানচিত্র 1।
এবং সময়ের সাথে সাথে এর বিভিন্নতা রয়েছে । এটি বিশেষভাবে বংশগতিতে কার্যকর যেখানে একটি নামের বানান সময়ের সাথে সাথে পরিবর্তন হতে পারে তবে উচ্চারণ একই রকম থাকে।
ম্যাচ রেটিংয়ের মতো অ্যাপ্রোচও রয়েছে যা এয়ারলাইনস নামগুলির জন্য উন্নত করেছিল (আমেরিকান বংশানুসারে নয়))
ম্যাচ রেটিং পদ্ধতির এনকোডিং (এমআরএ) হ'ল:
- সমস্ত অ-নেতৃস্থানীয় স্বরবর্ণ মুছুন (
Michaelহয়ে Mchlএবং Anthonyহয়ে Anthny)
- যে কোনও দ্বিগুণের দ্বিতীয় ধ্রুবকটি সরান
- যদি স্ট্রিংটি 6 টি অক্ষরের বেশি হয় তবে প্রথম তিনটি এবং শেষ তিনটি নিয়ে বাকি স্ট্রিংটি 6 টি অক্ষরে কমিয়ে আনুন।
এর সম্পূর্ণ বিবরণটি আর্কাইভ.আরজে পাওয়া যাবে - নোট করুন যে এটি "ছোট নয়" (মুদ্রিত ফর্মটি 214 পৃষ্ঠা)।
তুলনা কতকাল লেখা উপর ভিত্তি করে একটি ম্যাচিং থ্রেশহোল্ড আছে।
আছে অন্য ফনেটিক আলগোরিদিম খুব ।
সুতরাং, আমি আপনাকে যা করতে উত্সাহিত করব তা হয় সাউন্ডেক্সটি যেমন হয় তেমনই ম্যাচ রেটিং পদ্ধতির মতো করে নিন, বা রোমানিয়ান ব্যঞ্জনবর্ণ এবং পোলিশ ব্যঞ্জনবর্ণের উপর ভিত্তি করে সাউন্ডেক্সকে সংশোধন করুন ।
মনে রাখবেন যে soundex সঙ্গে, ব্যঞ্জনবর্ণ হয় দলবদ্ধ (ইন পোলিশ, m, n, ɲসব অনুনাসিক ব্যঞ্জনবর্ণ দলবদ্ধ করা হয়, এবং আপনি সম্ভবত গ্রুপ, ওষ্ঠ্য ডেন্টাল, এবং ঝাঁঝর plosives হবে - তারা অঘোষ হতে পারে অথবা একসাথে স্বরিত - মঞ্জুর, আমি না পোলিশ জানুন তাই জানেন না যে আমি কেবল এমন জিনিস বলছি যা সেখানে সত্য নয়))
তারপরে ডাটাবেসের সমস্ত নাম দুটি পৃথক পৃথক সাউন্ডএক্স সিস্টেমে আবদ্ধ করুন এবং বিভিন্ন ভাষায় নামগুলির মধ্যে সংঘর্ষগুলির মধ্যে সর্বনিম্ন সেট রয়েছে কি তা সন্ধান করুন find এটি আপনাকে স্বতন্ত্র নাম দেয়। সুতরাং যে Smithহিসাবে প্রদর্শিত হবে না Smyth।
তবে এটি কেবলমাত্র "অন্যান্য নামগুলির সাথে সংঘর্ষের সম্ভাব্য নাম এবং দুর্ঘটনার শিকার হওয়ার সমাধান করে" ves এটি "নামটি সঠিকভাবে শুনেছেন, ভুলভাবে লেখা হয়েছে" এর অন্য কোনওভাবে সম্বোধন করে না এবং এর জন্য, সাধারণের দিকে তাদের মনোযোগ কেন্দ্রীভূত করা উচিত।
উদাহরণস্বরূপ, Michaelমার্কিন যুক্তরাষ্ট্রে 1950 সালের শুরু থেকে 1970 সালের শেষের দিকে খুব সাধারণ নাম ছিল name এটি সত্যই জনপ্রিয় ছিল । যাইহোক, কোনও কারণে, নামটি Micheal1950 এর দশকে এক ধরণের জনপ্রিয় ছিল (এটি শীর্ষে 83 তম সাধারণ নামটি পেয়েছিল) up এবং আমি নিশ্চিত যে Michealপ্রতিনিয়ত নাম দেওয়া লোকেরা তাদের নাম ভুল বানান পেয়েছিল।
সুতরাং, আপনার এমন নামগুলিতে ফোকাস করা উচিত যেখানে একটি নাম রয়েছে যা প্রদত্ত উচ্চারণের জন্য নামের জনপ্রিয়তার উপর প্রভাব ফেলে। বছরের নামের জন্য অন্য ডেটা ভোক্তা এ নেত্রপাত, আপনি দেখতে পারেন যে নাম জ্যাম শুরু ... একটি ছেলের জন্য একটি জগাখিচুড়ি হয় সঙ্গে Jamaal, Jamal, Jamarএবং অন্যদের। উল্লেখ্য, এই নামগুলি কিছুটা ভিন্ন soundexes আছে আমেরিকান ( J540, J540এবং J560- lএবং rযদিও তারা ঘনিষ্ঠভাবে ধ্বনিবিজ্ঞান মধ্যে সম্পর্কিত হয় বিভিন্ন গ্রুপের মধ্যে আছে)। যাইহোক, জাপান থেকে আসা কারও জন্য, ফোনেটিক অঞ্চলে যেখানে lএবং সেখানে কেবল একটি শব্দ রয়েছেrআমেরিকান ইংরাজিতে উচ্চারণ করা হয়। এটি শীর্ষস্থানীয় ব্যঞ্জনবর্ণদের সাথে সাউন্ডেক্স ব্যবহার করে একটি চ্যালেঞ্জও তৈরি করতে পারে যা সম্পর্কে সচেতন হওয়া উচিত (আমি একবার জাপানি মহিলার সাথে কাজ করেছি যিনি নিজেকে জাপানি নামের রোমানাইজেশন হিসাবে লিসা না বলে নিজেকে রিসা ("আর" দিয়ে ডেকেছিলেন)।
আপনি লক্ষ করবেন যে আমার উদাহরণগুলি মার্কিন যুক্তরাষ্ট্রের জন্য। সেই ডেটা সহজেই অ্যাক্সেসযোগ্য। স্পষ্টতই পোল্যান্ড এবং হাঙ্গেরিয়ানদের জন্য কিছু জিনিস রয়েছে এবং কেবল হাঙ্গেরিয়ান নাম সাধারণতার দিকে ইঙ্গিত রয়েছে ... আমার সন্দেহ যে ইংরেজি ব্যতীত অন্য কোনও ভাষায় অনুসন্ধান করা সেখানে সহায়ক হতে পারে।
সুতরাং, একটি নামের জন্য সাউন্ডেক্স দেওয়া, কয়েকটি সংঘর্ষ এবং প্রকৃত বানানটি সংঘর্ষের সেটে রয়েছে। সাধারণত, এটি একটি সাধারণ নাম। সেই হানির তালিকার দিকে তাকালে, Krisztiánসম্ভবত ভুল বানান পাওয়া যাবে, সম্ভবত Zoltánকমই হবে (২০১২ সালের সবচেয়ে জনপ্রিয় শিশুর নাম হাঙ্গেরিতে!)। এটি বলেছিল, আপনি ভুল করতে পারবেন না Michael।