লেভেনস্টেইনের অ্যালগরিদম স্ট্রিংগুলিতে সন্নিবেশ, মোছা এবং বিকল্পগুলির সংখ্যার উপর ভিত্তি করে।
দুর্ভাগ্যক্রমে এটি একটি সাধারণ ভুল বানানকে বিবেচনা করে না যা 2 টি অক্ষরের ট্রান্সপোশন (উদাহরণস্বরূপ কিছু অদ্ভুত বনাম সামান্য কিছু)। সুতরাং আমি আরও শক্তিশালী ডামেরাউ-লেভেনস্টেইন অ্যালগরিদম পছন্দ করতাম ।
আমি মনে করি না পুরো স্ট্রিংগুলিতে দূরত্ব প্রয়োগ করা ভাল ধারণা কারণ সময়টির সাথে তুলনা করে স্ট্রিংয়ের দৈর্ঘ্যের সাথে আকস্মিক বৃদ্ধি ঘটে। তবে আরও খারাপ, যখন জিপের মতো ঠিকানা উপাদানগুলি সরানো হয়, সম্পূর্ণ ভিন্ন ঠিকানাগুলি আরও ভাল মেলে ( অনলাইন লেভেনস্টাইন ক্যালকুলেটর ব্যবহার করে মাপা ):
1 someawesome street, anytown, F100 211 (reference)
1 someawesome st.,anytown (difference of 15, same address)
1 otherplaces street,anytown,F100211 (difference of 13, different ddress)
1 sameawesome street, othertown, CA98200 (difference of 13, different ddress)
anytown, 1 someawesome street (28 different same address)
anytown, F100 211, 1 someawesome street (37 different same address)
এই প্রভাবগুলি ছোট রাস্তার নামের জন্য আরও খারাপ হতে থাকে।
সুতরাং আপনি আরও ভাল চৌকস অ্যালগরিদম ব্যবহার করতে চাইবেন। উদাহরণস্বরূপ, আর্থার রাটজ স্মার্ট পাঠ্যের তুলনার জন্য কোডপ্রজেটে একটি অ্যালগরিদম প্রকাশিত । অ্যালগরিদম কোনও দূরত্ব মুদ্রণ করে না (এটি অবশ্যই সেই অনুযায়ী সমৃদ্ধ করা যেতে পারে), তবে এটি কিছু কঠিন বিষয়গুলি সনাক্ত করে যেমন পাঠ্য ব্লকগুলি সরিয়ে নেওয়া (যেমন আমার প্রথম উদাহরণ এবং আমার শেষ উদাহরণের মধ্যে শহর এবং রাস্তার মধ্যে অদলবদল)।
যদি এই ধরণের অ্যালগরিদম আপনার ক্ষেত্রে খুব সাধারণ হয় তবে আপনার তখন অবশ্যই উপাদানগুলির দ্বারা কাজ করা উচিত এবং কেবল তুলনীয় উপাদানগুলির সাথে তুলনা করা উচিত। আপনি যদি বিশ্বের কোনও ঠিকানা বিন্যাসকে বিশ্লেষণ করতে চান তবে এটি কোনও সহজ জিনিস নয়। তবে লক্ষ্যটি আরও সুনির্দিষ্ট হলে মার্কিন বলুন, এটি অবশ্যই সম্ভাব্য। উদাহরণস্বরূপ, "স্ট্রিট", "স্ট্যান্ড", "স্থান", "প্লাজা" এবং তাদের সাধারণ ভুল বানানগুলি ঠিকানার রাস্তার অংশটি প্রকাশ করতে পারে, যার মূল অংশটি নীতিগতভাবে সংখ্যা হবে। জিপ কোডটি শহরটি সনাক্ত করতে সহায়তা করবে, অথবা বিকল্পভাবে এটি সম্ভবত ঠিকানার শেষ উপাদান, বা যদি আপনি অনুমান করতে পছন্দ না করেন তবে আপনি শহরের নামের একটি তালিকা দেখতে পারেন (যেমন একটি ফ্রি জিপ কোড ডাটাবেস ডাউনলোড করা)। আপনি কেবলমাত্র প্রাসঙ্গিক উপাদানগুলিতে ডামেরাউ-লেভেনস্টেইন প্রয়োগ করতে পারেন।