আমি একটি সাধারণ ব্যাশ-স্ক্রিপ্ট / কমান্ডের সাহায্যে সংরক্ষিত এইচটিএমএল- ফাইল থেকে কিছু ইউআরএল বিশ্লেষণ করতে চাই , তাই আমি এগুলি wget
লেটারের মাধ্যমে ডাউনলোড করতে পারি ।
আমার এখন পর্যন্ত যা আছে তা হ'ল:
awk 'BEGIN{ RS="<a *href *= *\""} NR>2 {sub(/".*/,"");print; }' index.html >> url-list.txt
যা আমার এইচটিএমএল-ফাইলের ভিতরে থাকা প্রতিটি লিঙ্ককে একটি ঝরঝরে টেক্সট-ডকুমেন্টে লিখে দেয় writes
আমার যা দরকার তা হ'ল কেবল নির্দিষ্ট লিঙ্ক
- একটি নির্দিষ্ট ডোমেন থেকে
- উদাহরণস্বরূপ সমস্ত .ogg ফাইল
শেষ পর্যন্ত দেখতে সমস্ত কিছু:
http://www.foo.com/(randomfolder)/(randombasename).ogg
অথবা
http://subdomain.foo.com/(randomfolder)/(anotherrandomsubfolder)/(randombasename).ogg
আগাম ধন্যবাদ!