জিজিপ সংকোচনের উন্নতি করতে, আপনি "অনুরূপ" স্ট্রিংগুলি তালিকার কাছে থাকতে চান। এই জাতীয় মিলকে সংজ্ঞায়িত করার বিভিন্ন উপায় রয়েছে; অনুশীলনে ভালভাবে কাজ করে এমন একটি যুক্তিসঙ্গত বর্ণনা করুক। মনে রাখবেন জিজিপের ব্লকের আকার K৪ কে is সুতরাং, আপনার ডেটা K৪ কে বাইটের ব্লকে বিভক্ত হবে এবং প্রতিটি ব্লক স্বাধীনভাবে সংকুচিত হবে। সংক্ষেপে সংক্ষিপ্তকরণটি অনুকূলিতকরণের জন্য প্রতিটি ব্লকের স্বতন্ত্র কে-মের্স (আকারের সাব সাবস্ট্রিংস) সংখ্যা কমিয়ে আনতে হবে। অনুপ্রেরণা হ'ল এই জাতীয় সমস্ত সাবস্ট্রিংগুলি একটি শনাক্তকারীর সাথে প্রতিস্থাপন করা হবে।
উপরোক্ত সমস্যাটি তত্ত্বের ক্ষেত্রে শক্ত (যদিও এটি হাইপারগ্রাফ বিভাজনের একটি বৈকল্পিক), সেখানে দ্রুত ব্যবহারিক অ্যালগরিদম রয়েছে। আমি এলএসএইচ-এর মতো ক্লাস্টারিংয়ের পরামর্শ দেব যা আপনার ডেটাতে একক পাস দিয়ে প্রয়োগ করা যেতে পারে। লক্ষ্য করুন যে (বর্ণানুক্রমিকভাবে) বাছাই করা একইরকম স্ট্রিংগুলি "ক্লাস্টার" এর এক অন্য উপায়। তবে বিশেষায়িত ক্লাস্টারিং অ্যালগোরিদম আরও ভাল পারফর্ম করতে পারে।
বিকল্প হিসাবে জেএসডিডি ব্যবহার করা হয় , যা (i) দ্রুত, (ii) উচ্চতর সংক্ষেপণ অনুপাত গ্রহণ করে এবং (iii) ব্লকের আকারের সীমাবদ্ধতা থাকে না (এবং এইভাবে ইনপুট ক্রম নির্বিশেষে স্ট্রিংগুলি সমানভাবে সংকুচিত করে)।