আমি কীভাবে কোনও ওয়েব পৃষ্ঠার সমস্ত বাহ্যিক লিঙ্কগুলি বের করব এবং সেগুলি একটি ফাইলে সংরক্ষণ করব?

11

আপনার যদি কোনও কমান্ড লাইনের সরঞ্জাম থাকে তবে দুর্দান্ত।

linux command-line

— RogerioO
সূত্র

18

আপনার দুটি সরঞ্জামের দরকার হবে, লিঙ্কস এবং অ্যাডক , এটি ব্যবহার করে দেখুন:

$ lynx -dump http://www.google.com.br | awk '/http/{print $2}' > links.txt

আপনার যদি সংখ্যা রেখাগুলির প্রয়োজন হয়, কমান্ড এনএল ব্যবহার করুন, এটি চেষ্টা করুন:

$ lynx -dump http://www.google.com.br | awk '/http/{print $2}' | nl > links.txt

— Ielton
সূত্র

আমি মনে করি না এটি আপেক্ষিক url- এর জন্য কাজ করবে

— শ্রীধর সারনোবাত

8

এখানে লেটনের উত্তরের একটি উন্নতি রয়েছে: লিংসের কিছু দরকারী বিকল্প পাওয়ার জন্য আপনার মোটেও বিশ্রী লাগবে না।

lynx -listonly -nonumbers -dump http://www.google.com.br

যদি আপনি সংখ্যা চান

lynx -listonly -dump http://www.google.com.br

— ম্যাক্স
সূত্র

0

প্রশ্নযুক্ত ওয়েব পৃষ্ঠাগুলি পুনরুদ্ধার করতে সুন্দর স্যুপ ব্যবহার করুন ।
আপনার ডোমেনের দিকে ইঙ্গিত না করে এমন সমস্ত ইউআরএল সন্ধান করতে বিশ্রী ব্যবহার করুন

আমি স্ক্রিন স্ক্র্যাপিং কৌশলগুলির ওপরে বিউটিফুল স্যুপের পরামর্শ দেব।

— ওয়েসলি
সূত্র

0

যদি কমান্ড লাইনটি কোনও শক্তি না হয় তবে আপনি সমস্ত লিঙ্কগুলি অনুলিপি করুন ফায়ারফক্স এক্সটেনশনটি ব্যবহার করতে পারেন ।

— মজিদ আজিমি
সূত্র