এই দুটি ট্যাগের মধ্যে যা আছে তা আমি পুনরুদ্ধার করতে চাই - <tr> </tr>
- এইচটিএমএল ডক থেকে। এখন আমার কাছে কোনও নির্দিষ্ট এইচটিএমএল প্রয়োজনীয়তা নেই যা এইচটিএমএল পার্সারের জন্য ওয়ারেন্ট দেয়। আমার কেবল সাদামাটা কিছু দরকার যা মেলে <tr>
এবং </tr>
এর মধ্যে সমস্ত কিছু হয়ে যায় এবং একাধিক tr
গুলি থাকতে পারে । আমি অদ্ভুত চেষ্টা করেছি, যা কাজ করে, তবে কোনও কারণে এটি আমাকে প্রতিটি সারির নকলগুলি বের করে দেয়।
awk '
/<TR/{p=1; s=$0}
p && /<\/TR>/{print $0 FS s; s=""; p=0}
p' htmlfile> newfile
কিভাবে এই সম্পর্কে যেতে হবে?
awk
কাজ করছেন কিন্তু ডুপ্লিকেট দিচ্ছেন তা আপনার sort -u
'/<tr/{p=1}; p; /<\/tr>/{p=0}'
। এটি কাজ না করে কিছু উদাহরণ ইনপুট এবং প্রত্যাশিত আউটপুট পোস্ট করুন।