উইজেট সহ পুনরাবৃত্তভাবে ডাউনলোড করুন

32

নিম্নলিখিত উইজেট কমান্ডটিতে আমার একটি সমস্যা রয়েছে:

wget -nd -r -l 10 http://web.archive.org/web/20110726051510/http://feedparser.org/docs/

এটি মূল ওয়েবে লিঙ্কযুক্ত সমস্ত নথি পুনরাবৃত্তভাবে ডাউনলোড করা উচিত তবে এটি কেবলমাত্র দুটি ফাইল ( index.htmlএবং robots.txt) ডাউনলোড করে download

আমি কীভাবে এই ওয়েবটির পুনরাবৃত্ত ডাউনলোড ডাউনলোড করতে পারি ?

wget

— xralf
সূত্র

40

wgetডিফল্টরূপে ক্রলিং পৃষ্ঠাগুলির জন্য রোবটস.টিএসটি স্ট্যান্ডার্ডকে সম্মান করে , ঠিক যেমন সার্চ ইঞ্জিনগুলি করে, এবং আর্কাইভ.অর্গের জন্য, এটি সম্পূর্ণ / ওয়েব / উপ-ডিরেক্টরিকে অস্বীকার করে। ওভাররাইড করতে, ব্যবহার করুন -e robots=off,

wget -nd -r -l 10 -e robots=off http://web.archive.org/web/20110726051510/http://feedparser.org/docs/

— উলরিচ শোয়ার্জ
সূত্র

ধন্যবাদ. প্রতি লিঙ্কটি একবারে সঞ্চয় করার জন্য কি কিছু বিকল্প আছে? হয়তো আমার 10সংখ্যা কমতে হবে তবে এটি অনুমান করা শক্ত hard এখন সেখানে একটি ফাইল introduction.html, introduction.html.1, introduction.html.2এবং আমি বরং প্রক্রিয়া শেষ হয়েছে।

— xralf

এবং লিঙ্কগুলি ওয়েবে পরিচালিত হচ্ছে। কি --mirrorসংযোগগুলি ফাইলসিস্টেম সরাসরি করার জন্য বিকল্প?

— xralf

1

@ এক্স্রাল্ফ: ঠিক আছে, আপনি ব্যবহার করছেন -nd, সুতরাং index.htmlএকই ডিরেক্টরিতে বিভিন্ন গুলি রাখা হয় এবং এটি ছাড়াও -kআপনি লিঙ্কগুলির পুনর্লিখন পাবেন না।

— উলরিচ শোয়ার্জ

12

$ wget --random-wait -r -p -e robots=off -U Mozilla \
    http://web.archive.org/web/20110726051510/http://feedparser.org/docs/

ইউআরএলের সামগ্রী পুনরাবৃত্তভাবে ডাউনলোড করে।

--random-wait - wait between 0.5 to 1.5 seconds between requests.
-r - turn on recursive retrieving.
-e robots=off - ignore robots.txt.
-U Mozilla - set the "User-Agent" header to "Mozilla". Though a better choice is a real User-Agent like "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.1; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729)".

কিছু অন্যান্য দরকারী বিকল্পগুলি হ'ল:

--limit-rate=20k - limits download speed to 20kbps.
-o logfile.txt - log the downloads.
-l 0 - remove recursion depth (which is 5 by default).
--wait=1h - be sneaky, download one file every hour.

— নিখিল মুলি
সূত্র

-l 0 - remove recursion depth (which is 5 by default)+1

— দানি