আমার প্রশ্নটি এই প্রশ্নের অনুরূপ তবে কয়েকটি পৃথক বাধা সহ:
- আমার কাছে একটি বড়
\n
সীমিত শব্দ-তালিকা রয়েছে - প্রতি লাইনে একটি শব্দ। ফাইলগুলির আকার 2GB থেকে 10GB পর্যন্ত বৃহত্তর। - আমার যে কোনও সদৃশ লাইন সরানো দরকার।
- প্রক্রিয়াটি ডুপ্লিকেটগুলি অপসারণের সময় তালিকাকে সাজিয়ে তুলতে পারে তবে প্রয়োজনীয় নয়।
- নতুন অনন্য ওয়ার্ডলিস্ট আউটপুট আটকানোর জন্য পার্টিশনে পর্যাপ্ত জায়গা রয়েছে।
আমি এই দুটি পদ্ধতিই চেষ্টা করেছি তবে এগুলি উভয়ই মেমরির ত্রুটির সাথে ব্যর্থ হয়।
sort -u wordlist.lst > wordlist_unique.lst
awk '!seen[$0]++' wordlist.lst > wordlist_unique.lst
awk: (FILENAME=wordlist.lst FNR=43601815) fatal: assoc_lookup: bucket-ahname_str: can't allocate 10 bytes of memory (Cannot allocate memory)
আমি অন্য কোন পদ্ধতির চেষ্টা করতে পারি?
Awk unix.stackexchange.com/a/30178/56820
—
ezdazuzena