অনন্য উপাদানগুলির সাথে তালিকার দূরত্ব সম্পাদনা করুন


12

তালিকাগুলির মধ্যে লেভেনস্টাইন-দূরত্ব সম্পাদনার দূরত্ব একটি ভাল অধ্যয়নিত সমস্যা। তবে সম্ভাব্য উন্নতির জন্য আমি খুব বেশি কিছু খুঁজে পাচ্ছি না যদি জানা থাকে যে প্রতিটি তালিকায় কোনও উপাদান একাধিকবার না ঘটে

আসুন ধরে নেওয়া যাক যে উপাদানগুলি তুলনামূলক / বাছাইযোগ্য (তবে তালিকার সাথে তালিকাগুলি শুরু করার সাথে সাজানো হয় না)।

হে(সর্বনিম্ন(মি,এন)গুলি)হে(সর্বনিম্ন(গুলি,মি,এন)গুলি)গুলি

আরও আনুষ্ঠানিকভাবে,

দু'টি প্রদত্ত স্ট্রিংয়ের মধ্যে সম্পাদনের দূরত্বকে আমরা কতটা দক্ষতার সাথে গুনতে পারি এই প্রতিশ্রুতি দিয়ে যে তাদের কোনও পুনরায় অক্ষর নেই?গুলি,টিΣ*

Σ একটি খুব বড় বর্ণমালা।


আপনার এখন প্রশ্ন কি; কীভাবে জোড়ের সম্পাদনা দূরত্ব গতি বাড়িয়ে তুলবে, বা স্ট্রিংগুলির তালিকার সমস্ত পেয়ারওয়াই দূরত্বের কম্পিউটিং কীভাবে দ্রুত করা যায়?
রাফেল

2
আমি সন্দেহ প্রশ্ন হচ্ছে, গনা কিভাবে মধ্যে সম্পাদন করা দূরত্ব , যেখানে কিছু খুব বড় বর্ণমালা ধরে স্ট্রিং হয় , এবং আমরা নিশ্চিত করছি যে চিঠিতে দুইবার মনে হচ্ছে, বা মধ্যে (ওপি একটি অর্থাত উপাদানের একটি তালিকা বর্ণের তালিকা,, যেমন প্রতিটি পংক্তি প্রতিনিধিত্ব করে)। তবে এটির নিশ্চয়তা প্রয়োজন। s , t Σ Σ s tগুলি,টিগুলি,টিΣ*Σগুলিটি
DW

হ্যাঁ, এক্ষেত্রে বড় বর্ণমালা হ'ল ডাটাবেস সূচী দ্বারা তৈরি এবং "স্ট্রিং", গুলি এবং টি, এই তালিকাগুলি অন্তর্ভুক্ত তালিকা।
ব্যবহারকারী 362178

জটিলতাগুলির বিষয়ে যারা ভাবছেন তাদের জন্য: এবং এন হ'ল ইনপুট স্ট্রিংগুলির দৈর্ঘ্য এবং গুলি প্রকৃত সম্পাদনার দূরত্ব, সুতরাং এটি জটিলতায় অন্তর্ভুক্ত। প্রতিটি সম্পাদনার খরচ 1 ভেবেছিলেন, কিন্তু সম্ভবত এই দূরত্ব (সম্পাদনাগুলি সংখ্যা গণনা করার জন্য অপ্রাসঙ্গিক হয় গুলি )। মিএনগুলিগুলি
অ্যালবার্ট হেন্ডরিক্স 0

উত্তর:


3

টিএল; ডিআর: কিছুটা নিয়ন্ত্রিত ধরণের সম্পাদনার দূরত্ব, যেখানে আমরা কেবল পৃথক অক্ষর সন্নিবেশ করতে এবং মুছতে পারি, লাইনারিটিমিক সময়ে গণনা করা যেতে পারে যখন উভয় (বা এমনকি একটির) স্ট্রিংয়ের স্বতন্ত্র অক্ষর থাকে। এটি লেভেনস্টাইন সম্পাদনার দূরত্বের উপরের এবং নিম্ন সীমানাকে দরকারী দেয়।

সম্পাদনা দূরত্ব এবং সর্বাধিক দীর্ঘতম উপসর্গ সন্নিবেশ / মুছুন

লেভেনস্টেইন সম্পাদনার দূরত্ব একক-অক্ষর সন্নিবেশ, মুছা এবং প্রতিস্থাপনের অনুমতি দেয়, যার জন্য প্রতিটি প্রতিটি 1 ব্যয় বরাদ্দ করা হয়, আমরা যদি কেবল সন্নিবেশ এবং মুছে ফেলার জন্য সীমাবদ্ধ রাখি তবে আমরা একটি অনুরূপ দূরত্ব পরিমাপ পাই যা এখন প্রতিস্থাপনের জন্য 2 ব্যয় করতে পারে (যেহেতু কোনও বিকল্প প্রতিস্থাপন করতে পারে একটি সন্নিবেশ এবং একটি মুছে ফেলা ব্যবহার করে নকল করা হবে)। আমি এই আরও নিয়ন্ত্রিত ধরণের সম্পাদনার দূরত্বের একটি আদর্শ নাম জানি না, তাই আমি এটিকে "সন্নিবেশ / সম্পাদনা দূরত্ব মুছুন" বলব। এটি দীর্ঘতম সাধারণ উপসর্গ (এলসিএস) সমস্যার সাথে নিবিড়ভাবে সামঞ্জস্য করে , যেখানে আমাদের যথাক্রমে দৈর্ঘ্য এবং এন এর দুটি স্ট্রিং দেওয়া হয় এবং উভয়টিতে প্রদর্শিত দীর্ঘতম অনুচ্ছেদের দৈর্ঘ্য জানতে চাই। দুটি স্ট্রিংয়ে যদি এলসিএস এল থাকেমিএনএল, তারপরে তারা সম্পাদনা দূরত্ব সন্নিবেশ করানো / মুছতে হবেএন+ +মি-2এল : এটি দেখার সহজতম উপায় হ'ল স্ট্রিংগুলি সারিবদ্ধ করা যাতে এলসিএসে অক্ষরগুলি একে অপরের উপরে সজ্জিত থাকে, অন্যদিকে এলসিএসে অক্ষরগুলি বিপরীতে উপস্থিত হয় -ফাঁক চরিত্র। তারপরে এটি স্পষ্ট হবে যে -উপরের সারিতে যেখানেই সন্নিবেশ তৈরি করে আমরা প্রথম স্ট্রিংটি দ্বিতীয়টিতে সম্পাদনা করতে পারি -এবং নীচের সারিতে যেখানেই রয়েছে সেখানে মুছে ফেলা যায় । উদাহরণ স্বরূপ:

-C-IRC-LE
T-RI-CKLE

এখান থেকে অবস্থায় LCS CIRCLEএবং TRICKLE, ICLE, দৈর্ঘ্য 4 আছে, এবং সম্পাদনা দূরত্ব প্রকৃতপক্ষে 6+ +7-2*4=5

দীর্ঘতম বর্ধমান অনুচ্ছেদ

এই পথচলার কারণ হ'ল এলসিএস গণনা করার জন্য খুব কার্যকরী উপায় রয়েছে (এবং এভাবে সম্পাদনার দূরত্ব সন্নিবেশ / মুছুন) যখন সিকোয়েন্সগুলির অন্তত একটিতে স্বতন্ত্র অক্ষর থাকে: এই ক্ষেত্রে, এলসিএস সমস্যা রূপান্তরিত হতে পারে দীর্ঘতম বর্ধমান অনুচ্ছেদটি অনুসন্ধানের সমস্যা , যা সময়ে সমাধান করা যেতে পারে । ধরুন আমাদের দুটি এবং দুটি স্ট্রিং এবং বি দেওয়া হয়েছে এবং স্ট্রিং এর স্বতন্ত্র অক্ষর রয়েছে। আমরা একটি টেবিলের মধ্যে প্রতিটি অক্ষরকে আমরা কী সংখ্যাটি অর্পণ করেছি তা ট্র্যাক করে, আমরা প্রথম অক্ষর A থেকে 1, দ্বিতীয় থেকে 2 এবং আরও নতুন নামকরণ করতে পারি । তারপরে হে(এনলগএন)একজনবিএকজনএকজনবি, আমরা এই টেবিলটি ব্যবহার করে এর অক্ষরগুলির নাম পরিবর্তন করেছি (অর্থাত্, প্রথম অক্ষরটি যা ছিল তার প্রতিটি ঘটনাকে 1 Aএ পরিবর্তন করা হবে etc. ইত্যাদি)। অবশেষে, আমরা এর মধ্যে দীর্ঘতম বর্ধমান অনুচ্ছেদ খুঁজছি B। এটি Aএবং এর মধ্যে একটি এলসিএসের সাথে মিলে যায় এবং Bসেখান থেকে আমরা তাত্ক্ষণিকভাবে সন্নিবেশ করা / সম্পাদনা দূরত্ব মোছার গণনা করতে পারি। মোট সময় প্রয়োজন ঠিক যদি একজন এবং বি লেন্থ আছে এন এবং মি যথাক্রমে।হে(এন+ +মিলগমি)একজনবিএনমি

লেভেনস্টেইনের সীমাগুলি দূরত্ব সম্পাদনা করে

সন্নিবেশ / মুছে ফেলা দূরত্ব পরিষ্কারভাবে লেভেনস্টাইন দূরত্বে একটি উপরের সীমা সরবরাহ করে (যেহেতু সন্নিবেশ / মোছার দূরত্বের অধীনে সম্পাদনা কার্য সম্পাদনের কোনও বৈধ ক্রমও লেভেনস্টাইন সম্পাদনা ক্রিয়াকলাপগুলির একটি বৈধ ক্রম)। সন্নিবেশ / মুছুন সম্পাদনা দূরত্বকে 2 দ্বারা ভাগ করাও একটি কম বাউন্ড দেয় কারণ সবচেয়ে খারাপ ক্ষেত্রে যে কোনও লেভেনস্টেইন সম্পাদনা অপারেশনকে 2 সন্নিবেশ / সম্পাদনা সম্পাদনা মুছে ফেলা যায়।

সরলীকরণ

Rহে((R+ +এন)লগএন)Rএনdiffdiffহে(এন)

হান্ট, জে।; সিজিমানস্কি, টি। (1977), "দীর্ঘতম সাধারণ উপকেন্দ্রগুলি গণনা করার জন্য একটি দ্রুত অ্যালগরিদম", এসিএমের যোগাযোগ, 20 (5): 3503353, দোই : 10.1145 / 359581.359603

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.