আমি কীভাবে কোনও ওয়েব পৃষ্ঠার সমস্ত বাহ্যিক লিঙ্কগুলি বের করব এবং সেগুলি একটি ফাইলে সংরক্ষণ করব?


11

আমি কীভাবে কোনও ওয়েব পৃষ্ঠার সমস্ত বাহ্যিক লিঙ্কগুলি বের করব এবং সেগুলি একটি ফাইলে সংরক্ষণ করব?

আপনার যদি কোনও কমান্ড লাইনের সরঞ্জাম থাকে তবে দুর্দান্ত।

উত্তর:


18

আপনার দুটি সরঞ্জামের দরকার হবে, লিঙ্কস এবং অ্যাডক , এটি ব্যবহার করে দেখুন:

$ lynx -dump http://www.google.com.br | awk '/http/{print $2}' > links.txt

আপনার যদি সংখ্যা রেখাগুলির প্রয়োজন হয়, কমান্ড এনএল ব্যবহার করুন, এটি চেষ্টা করুন:

$ lynx -dump http://www.google.com.br | awk '/http/{print $2}' | nl > links.txt

আমি মনে করি না এটি আপেক্ষিক url- এর জন্য কাজ করবে
শ্রীধর সারনোবাত

8

এখানে লেটনের উত্তরের একটি উন্নতি রয়েছে: লিংসের কিছু দরকারী বিকল্প পাওয়ার জন্য আপনার মোটেও বিশ্রী লাগবে না।

lynx -listonly -nonumbers -dump http://www.google.com.br

যদি আপনি সংখ্যা চান

lynx -listonly -dump http://www.google.com.br

0
  1. প্রশ্নযুক্ত ওয়েব পৃষ্ঠাগুলি পুনরুদ্ধার করতে সুন্দর স্যুপ ব্যবহার করুন ।
  2. আপনার ডোমেনের দিকে ইঙ্গিত না করে এমন সমস্ত ইউআরএল সন্ধান করতে বিশ্রী ব্যবহার করুন

আমি স্ক্রিন স্ক্র্যাপিং কৌশলগুলির ওপরে বিউটিফুল স্যুপের পরামর্শ দেব।


আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.