উইজেট ব্যবহার করে কোনও ওয়েবসাইট থেকে সমস্ত ফাইল (তবে এইচটিএমএল নয়) কীভাবে ডাউনলোড করবেন?


162

wgetওয়েবসাইট থেকে সমস্ত ফাইল কীভাবে ব্যবহার করবেন এবং পাবেন?

এইচটিএমএল, পিএইচপি, এএসপি ইত্যাদির মতো ওয়েবপৃষ্ঠা ফাইল ব্যতীত আমার সমস্ত ফাইল দরকার


এমনকি আপনি পিএইচপি ডাউনলোড করতে চাইলেও উইজেট ব্যবহার করা সম্ভব নয়। আমরা কেবল উইজেট ব্যবহার করে কাঁচা এইচটিএমএল পেতে পারি। আমার ধারণা আপনি কারণটি জানেন
ভেঙ্কটেশ্বরন সেলভরাজ

এনবি: সর্বদা wget --spiderপ্রথমে চেক করুন এবং সর্বদা যুক্ত করুন -w 1(বা আরও -w 5) যাতে আপনি অন্য ব্যক্তির সার্ভারটি প্লাবিত না করেন।
isomorphismes

1
আমি কীভাবে এই পৃষ্ঠায় সমস্ত পিডিএফ ফাইল ডাউনলোড করতে পারি? pualib.com/collection/pua-titles-a.html

স্ট্যাক ওভারফ্লো প্রোগ্রামিং এবং বিকাশের প্রশ্নের জন্য একটি সাইট। এই প্রশ্নটি অফ-টপিক হিসাবে উপস্থিত বলে মনে হচ্ছে কারণ এটি প্রোগ্রামিং বা উন্নয়ন সম্পর্কিত নয়। সহায়তা কেন্দ্রে আমি এখানে কোন বিষয় সম্পর্কে জিজ্ঞাসা করতে পারি তা দেখুন । সম্ভবত সুপার ইউজার বা ইউনিক্স ও লিনাক্স স্ট্যাক এক্সচেঞ্জ জিজ্ঞাসা করতে একটি ভাল জায়গা হবে। এছাড়াও দেখুন দেব অপ্স সম্পর্কে আমি কোথায় প্রশ্ন পোস্ট করব?
jww

উত্তর:


262

নির্দিষ্ট ফাইল এক্সটেনশনের জন্য ফিল্টার করতে:

wget -A pdf,jpg -m -p -E -k -K -np http://site/path/

বা, যদি আপনি দীর্ঘ বিকল্পের নাম পছন্দ করেন:

wget --accept pdf,jpg --mirror --page-requisites --adjust-extension --convert-links --backup-converted --no-parent http://site/path/

এটি সাইটের মিরর করবে, তবে jpgবা pdfএক্সটেনশন ছাড়াই থাকা ফাইলগুলি স্বয়ংক্রিয়ভাবে সরানো হবে।


17
আপনি যদি কেবল পুরো ডিরেক্টরি আর্কিটেকচার ছাড়াই ফাইল ডাউনলোড করতে চান তবে আপনি -nd বিকল্পটি ব্যবহার করতে পারেন ।
ডায়াবলনেও

4
প্রতিটি পতাকা মানে কি?
জর্জেন পল

আমি মনে করি --acceptকেস-সংবেদনশীল, তাই আপনাকে করতে হবে--accept pdf,jpg,PDF,JPG
ফ্লিম

8
এটি কোনও নতুন সংস্করণের সাথে রয়েছে কিনা তা নিশ্চিত নয় wgetতবে আপনাকে কোনও --progressধরণের উল্লেখ করতে হবে , যেমন--progress=dot
জামিস

@ ফ্লিম আপনি কেস সংবেদনশীল --ignore-caseকরার জন্য পতাকা ব্যবহার করতে পারেন --accept
হর্ষ

84

এটি আমার জন্য পুরো ওয়েবসাইটটি ডাউনলোড করেছে:

wget --no-clobber --convert-links --random-wait -r -p -E -e robots=off -U mozilla http://site/path/

20
+1 এর জন্য -e robots=off! এই অবশেষে আমার সমস্যা স্থির! :) ধন্যবাদ
এনএইচডালি

12
--random-wait); বিকল্প প্রতিভা
poitroae

2
@izilotti আপনি কী এই সাইটের সাহায্যে তাদের সাইটের ফাইলগুলি WGET কিনা তা সাইটের মালিক জানতে পারবেন?
ইলিয়াস 7

1
পছন্দ করুন
জ্যাক

1
@ জ্যাকনিচলসন কীভাবে সাইটের মালিক জানতে পারবেন? ব্যবহৃত এজেন্টটি ছিল মজিলা, যার অর্থ সমস্ত শিরোলেখ মোজিলা ব্রাউজার হিসাবে যাবে, সুতরাং ব্যবহৃত উইজেট সনাক্ত করা সম্ভব হবে না? আমি ভুল হলে দয়া করে সংশোধন করুন। ধন্যবাদ
খোফি

63
wget -m -p -E -k -K -np http://site/path/

ম্যান পেজ আপনাকে জানাবে যে এই বিকল্পগুলি কী করে।

wgetকেবলমাত্র লিঙ্কগুলি অনুসরণ করবে, যদি সূচী পাতা থেকে কোনও ফাইলের লিঙ্ক wgetনা থাকে , তবে এর অস্তিত্ব সম্পর্কে জানতে পারবেন না, এবং তাই এটি ডাউনলোড করবেন না। অর্থাত। সমস্ত পৃষ্ঠাগুলি ওয়েব পৃষ্ঠাগুলিতে বা ডিরেক্টরি সূচকগুলিতে লিঙ্কযুক্ত থাকলে এটি সহায়তা করে।


উত্তরের জন্য ধন্যবাদ :) এটি পুরো সাইটটি অনুলিপি করেছে এবং আমার ওয়েবসাইটে কেবল ফাইলগুলি (অর্থাত্ txt, পিডিএফ, চিত্র ইত্যাদি) দরকার
অনিরুদ্ধসিংহ

25

আমি ওমেকার থিম পৃষ্ঠা থেকে লিঙ্কযুক্ত জিপ ফাইলগুলি ডাউনলোড করার চেষ্টা করছিলাম - বেশ অনুরূপ কাজ। এটি আমার পক্ষে কাজ করেছে:

wget -A zip -r -l 1 -nd http://omeka.org/add-ons/themes/
  • -A: কেবল জিপ ফাইল গ্রহণ করুন
  • -r: পুনরাবৃত্তি
  • -l 1: এক স্তর গভীর (যেমন কেবলমাত্র এই পৃষ্ঠা থেকে সরাসরি সংযুক্ত ফাইলগুলি)
  • -nd: একটি ডিরেক্টরি কাঠামো তৈরি করবেন না, কেবল এই ডিরেক্টরিতে সমস্ত ফাইল ডাউনলোড করুন।

সঙ্গে সব উত্তর -k, -K, -Eইত্যাদি অপশন সম্ভবত সত্যিই, প্রশ্ন বোঝা নি, HTML পৃষ্ঠা rewriting একটি স্থানীয় গঠন করতে পুনঃনামকরনের জন্য যারা .phpফাইল এবং তাই। প্রাসঙ্গিক না.

আক্ষরিক ইত্যাদি ছাড়া সমস্ত ফাইল পেতে .html:

wget -R html,htm,php,asp,jsp,js,py,css -r -l 1 -nd http://yoursite.com

2
-Aকেস সংবেদনশীল, আমি মনে করি, তাই আপনাকে করতে হবে-A zip,ZIP
Flimm

7

আপনি চেষ্টা করতে পারেন:

wget --user-agent=Mozilla --content-disposition --mirror --convert-links -E -K -p http://example.com/

এছাড়াও আপনি যোগ করতে পারেন:

-A pdf,ps,djvu,tex,doc,docx,xls,xlsx,gz,ppt,mp4,avi,zip,rar

নির্দিষ্ট এক্সটেনশনগুলি গ্রহণ করতে, বা কেবলমাত্র নির্দিষ্ট এক্সটেনশনগুলি প্রত্যাখ্যান করতে:

-R html,htm,asp,php

বা নির্দিষ্ট ক্ষেত্রগুলি বাদ দিতে:

-X "search*,forum*"

যদি ফাইলগুলি রোবটের জন্য উপেক্ষা করা হয় (যেমন অনুসন্ধান ইঞ্জিন), আপনাকে আরও যুক্ত করতে হবে: -e robots=off




আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.