আমি শৃঙ্খলার জন্য যেতে হবে তবে কিছুটা আলাদা। আপনার যদি স্ট্রিংস টেক্সট নামে একটি পাঠ্য ফাইলে আপনার মতো টেক্সট স্নিপেট থাকে তবে আপনি নীচের মতো করতে পারেন:
grep http ./strings.txt | sed 's/http/\nhttp/g' | grep ^http | sed 's/\(^http[^ <]*\)\(.*\)/\1/g' | grep IWANTthis | sort -u
ব্যাখ্যা:
grep http ./st3.txt => will catch lines with http from text file
sed 's/http/\nhttp/g' => will insert newline before each http
grep ^http => will take only lines starting with http
sed 's/\(^http[^ <]*\)\(.*\)/\1/g'
=> will preserve string from ^http until first space or < (the latter in hope if
grep IWANTthis => will take only urls containing your text of your interest; you can omit this.
sort -u => will sort the list and remove duplicates from it
ইউআরএলটি কাজ না করার সম্ভাবনা রয়েছে বলে আপনি আপনার আগ্রহের URL টি দিয়ে অতিরিক্ত ত্রুটিটি পরীক্ষা করতে পারেন। উদাহরণস্বরূপ wget -p URL -O /dev/null- URL টি উপলভ্য না হলে এটি বেশ আলাদা ত্রুটি কোডগুলি মুদ্রণ করবে, যাতে আপনি আপনার লিঙ্কগুলির তালিকা প্রক্রিয়া করতে এবং তাদের বৈধতার স্থিতি আউটপুট করতে একটি লুপ সেট আপ করতে পারেন।
আপনি যদি শেষ পর্যন্ত এইচটিএমএল ফাইলগুলি থেকে লিঙ্কগুলি সরিয়ে নিচ্ছেন তবে sedবিশেষ ক্ষেত্রে কিছুটা সমস্যা হতে পারে । যেহেতু এটি একটি মজাদার (পোস্ট) এ পরামর্শ দেওয়া হয়েছে যে আপনি সম্ভবত ইতিমধ্যে দেখেছেন - রিজেক্সপস না ব্যবহার করা তবে এইচটিএমএল পার্সার ইঞ্জিন ব্যবহার করা ভাল। এই জাতীয় সহজে উপলব্ধ পার্সার হ'ল পাঠ্য ব্রাউজারটি lynx(যে কোনও লিনাক্সে উপলব্ধ) on এটি আপনাকে তাত্ক্ষণিকভাবে একটি ফাইলে সমস্ত লিঙ্কের তালিকা ডাম্প করার অনুমতি দেয় এবং তারপরে আপনি কেবল গ্রেপ সহ আপনার পছন্দসই ইউআরএলগুলি বের করতে পারেন।
lynx -dump -listonly myhtmlfile.html | grep IWANTthisString | sort -u
তবে এটি লিঙ্কযুক্ত বেশিরভাগ ম্যাঙ্গেলড এইচটিএমএল ফাইল বা টেক্সট স্নিপেটে কাজ করবে না।