সমস্ত ফাইল এবং উপ-ডিরেক্টরিগুলি অনলাইন ফাইল / ফোল্ডার তালিকায় উপস্থিত হওয়ার সাথে কীভাবে HTTP ডিরেক্টরি ডাউনলোড করবেন?


207

একটি অনলাইন এইচটিটিপি ডিরেক্টরি রয়েছে যা আমার অ্যাক্সেস করেছে। আমি সমস্ত উপ ডিরেক্টরি এবং ফাইলগুলি ডাউনলোড করার চেষ্টা করেছি wget। তবে, সমস্যাটি হ'ল wgetসাব-ডিরেক্টরিগুলি ডাউনলোড করার সময় এটি index.htmlফাইলটি ডাউনলোড করে যার মধ্যে ফাইলগুলি নিজেরাই ডাউনলোড না করেই সেই ডিরেক্টরিতে থাকা ফাইলগুলির তালিকা থাকে।

গভীর ডিরেক্টরি সীমা ছাড়াই উপ-ডিরেক্টরি এবং ফাইলগুলি ডাউনলোড করার কোনও উপায় আছে (যেন আমি যে ডিরেক্টরিটি ডাউনলোড করতে চাই তা কেবলমাত্র একটি ফোল্ডার যা আমি আমার কম্পিউটারে অনুলিপি করতে চাই)।

অনলাইন HTTP ডিরেক্টরি

উত্তর:


389

সমাধান:

wget -r -np -nH --cut-dirs=3 -R index.html http://hostname/aaa/bbb/ccc/ddd/

ব্যাখ্যা:

  • এটি ডিডিডি ডিরেক্টরিতে সমস্ত ফাইল এবং সাবফোল্ডারগুলি ডাউনলোড করবে
  • -r : পুনরাবৃত্তি
  • -np: সিসিসি /… এর মতো উচ্চ ডিরেক্টরিতে যাচ্ছি না
  • -nH : হোস্টনাম ফোল্ডারে ফাইল সংরক্ষণ করা হচ্ছে না
  • --cut-dirs=3: তবে প্রথম 3 ফোল্ডার , বিবিবি , সিসি বাদ দিয়ে এটি ডিডিএতে সংরক্ষণ করুন to
  • -R index.html: index.html ফাইলগুলি বাদ দিয়ে

তথ্যসূত্র: http://bmwieczorek.wordpress.com/2008/10/01/wget-recursively-download-all-files-from-certain-directory-lided-by-apache/


17
ধন্যবাদ! এছাড়াও, আপনার অবগতির অনুযায়ী এই আপনি ব্যবহার করতে পারেন -Rমত -R cssসব সিএসএস ফাইল বাদ দেওয়ার, বা ব্যবহারের -Aমত-A pdf শুধুমাত্র ডাউনলোড পিডিএফ ফাইল হয়।
জন

9
ধন্যবাদ! When downloading from Internet servers, consider using the ‘-w’ option to introduce a delay between accesses to the server. The download will take a while longer, but the server administrator will not be alarmed by your rudeness.
উইজেট

4
আমি এই ত্রুটিটি পেয়েছি 'উইজেট' কোনও অভ্যন্তরীণ বা বাহ্যিক কমান্ড, অপারেবল প্রোগ্রাম বা ব্যাচ ফাইল হিসাবে স্বীকৃত নয়।
হামিশ

4
@ তবে আপনাকে প্রথমে উইজেট ইনস্টল করতে হবে বা উইজেটটি আপনার AT PATH এ নেই ish
মিংজিয়াং শি

18
দুর্দান্ত উত্তর, তবে মনে রাখবেন যে যদি কোনও robots.txtফাইল ডিরেক্টরিতে ফাইল ডাউনলোড করতে অস্বীকৃতি জানায় তবে এটি কাজ করবে না। সেক্ষেত্রে আপনাকে যুক্ত করতে হবে -e robots=off Unix.stackexchange.com/a/252564/10312
ড্যানিয়েল হার্শকোভিচ

48

আমি ভিজ্যুয়ালগেট ব্যবহার করে এই পোস্টের জন্য ধন্যবাদ কাজ করতে সক্ষম হয়েছি । এটা আমার জন্য দুর্দান্ত কাজ করেছে। গুরুত্বপূর্ণ অংশটি চেক করা বলে মনে হচ্ছে-recursive পতাকাটি (চিত্র দেখুন) ।

এছাড়াও পাওয়া গেছে যে -no-parentপতাকাটি গুরুত্বপূর্ণ, অন্যভাবে এটি সবকিছু ডাউনলোড করার চেষ্টা করবে।

এখানে চিত্র বর্ণনা লিখুন এখানে চিত্র বর্ণনা লিখুন


4
সবে এটি পাওয়া গেছে - ডিসেম্বর 2017. এটি দুর্দান্ত কাজ করে। আমি বুঝেছি sourceforge.net/projects/visualwget
SDsolar

4
উইন্ডোজ মেশিনে সূক্ষ্মভাবে কাজ করেছেন, উত্তরে উল্লিখিত বিকল্পগুলি চেক করতে ভুলবেন না, অন্যথায় এটি কাজ করবে না
csharpcoder

নির্দিষ্ট https নিয়ে কাজ করে না। @ ডেভলুক্রে যদি আপনি সেমিডি সলিউশনে উইজেটের চেষ্টা করে থাকেন তবে আপনিও ডাউনলোড করতে সক্ষম হবেন তবে কিছু
শেভর

চেক করা --no-parentকি করে?
টুডো


9
wget -r -np -nH --cut-dirs=3 -R index.html http://hostname/aaa/bbb/ccc/ddd/

থেকে man wget

'-r' '- পুনরাবৃত্তি পুনরুদ্ধার চালু করুন। আরও তথ্যের জন্য পুনরাবৃত্ত ডাউনলোডগুলি দেখুন। ডিফল্ট সর্বাধিক গভীরতা 5।

'-np' '- কোন পিতামাতা' না পুনরাবৃত্তভাবে পুনরুদ্ধার করার সময় ডিরেক্টরিতে কখনও যাবেন না। এটি একটি দরকারী বিকল্প, যেহেতু এটি গ্যারান্টি দেয় যে নির্দিষ্ট শ্রেণিবদ্ধের নীচের ফাইলগুলি কেবল ডাউনলোড করা হবে। আরও তথ্যের জন্য ডিরেক্টরি ভিত্তিক সীমাবদ্ধতা দেখুন।

'-nH' '--no-host-ডিরেক্টরি' হোস্ট-প্রিফিক্সড ডিরেক্টরিগুলির জেনারেশন অক্ষম করুন। ডিফল্টরূপে, '-r http://fly.srk.fer.hr/ ' এর সাহায্যে উইজেট চাওয়া ফ্লাই.স্রেক.ফার.আর.ক্র। দিয়ে ডিরেক্টরিগুলির একটি কাঠামো তৈরি করবে। এই বিকল্পটি এ জাতীয় আচরণ অক্ষম করে।

'--cut-dirs = সংখ্যা' সংখ্যা ডিরেক্টরি উপাদানগুলি উপেক্ষা করুন। ডিরেক্টরিটিতে পুনরাবৃত্তির পুনরুদ্ধার সংরক্ষণ করা হবে সেখানে সূক্ষ্ম-নিয়ন্ত্রণযুক্ত নিয়ন্ত্রণ পেতে এটি দরকারী।

উদাহরণস্বরূপ, ' ftp://ftp.xemacs.org/pub/xemacs/ এ ডিরেক্টরিটি নিন ' । আপনি যদি এটি '-r' দিয়ে পুনরুদ্ধার করেন তবে এটি স্থানীয়ভাবে ftp.xemacs.org/pub/xemacs/ এর অধীনে সংরক্ষণ করা হবে। যদিও '-nH' বিকল্পটি ftp.xemacs.org/ অংশটি সরাতে পারে, আপনি এখনও পাব / এক্সেম্যাক্সের সাথে আটকে আছেন। এখানেই '--cut-dirs' আসে; এটি উইজেটকে দূরবর্তী ডিরেক্টরি উপাদানগুলি "দেখুন" নয় makes '--Cut-dirs' বিকল্পটি কীভাবে কাজ করে তার কয়েকটি উদাহরণ এখানে।

কোনও বিকল্প নেই -> ftp.xemacs.org/pub/xemacs/ -nH -> পাব / xemacs / -nH --cut-dirs = 1 -> xemacs / -nH --cut-dirs = 2 ->।

--cut-dirs = 1 -> ftp.xemacs.org/xemacs/ ... আপনি যদি কেবল ডিরেক্টরি কাঠামো থেকে মুক্তি পেতে চান তবে এই বিকল্পটি '-nd' এবং '-P' এর সংমিশ্রনের অনুরূপ। তবে '-nd' এর বিপরীতে '--cut-dirs' উপ-ডিরেক্টরিগুলি সহ হারাবে না — উদাহরণস্বরূপ, '-nH --cut-dirs = 1' এর সাথে একটি বিটা / সাব-ডিরেক্টরিকে xemacs / beta এ স্থাপন করা হবে এক আশা করতে হবে।


4
কিছু ব্যাখ্যা দুর্দান্ত হবে।
বেনোট ল্যাটিনিয়র

ভিজুয়ালওয়েট ব্যবহার করে একটি নির্দিষ্ট ফাইল টাইপ ডাউনলোড করার বিষয়ে কী ? ভিসুয়ালওজেটে কোনও ডিরেক্টরি এবং এর উপ-ডিরেক্টরিগুলিতে কেবল এমপি 3 ফাইল ডাউনলোড করা সম্ভব ?
ক্লিন্ট ইস্টউড

4

আপনি lftp ব্যবহার করতে পারেন, ডাউনলোডের সুইশ আর্মি ছুরি যদি আপনার কাছে আরও বড় ফাইল থাকে তবে --use-pget-n=10আপনি কমান্ডে যুক্ত করতে পারেন

lftp -c 'mirror --parallel=100 https://example.com/files/ ;exit'

4
নিখুঁত এবং সত্যিই দ্রুত কাজ করেছে, এটি আমার ইন্টারনেট লাইনটি কয়েক হাজার ছোট ফাইল ডাউনলোড করে তুলেছে। খুব ভালো.
এন 13

3

wgetএকটি অমূল্য সম্পদ এবং এমন কিছু যা আমি নিজেকে ব্যবহার করি। তবে কখনও কখনও ঠিকানায় অক্ষরগুলি থাকে যা wgetসিনট্যাক্স ত্রুটি হিসাবে চিহ্নিত করে। আমি নিশ্চিত যে এর জন্য একটি সমাধান রয়েছে, তবে এই প্রশ্নটি বিশেষভাবে জিজ্ঞাসা না করায় wgetআমি ভেবেছিলাম যে আমি সেই সমস্ত লোকদের জন্য একটি বিকল্প প্রস্তাব দেব যা নিঃসন্দেহে এই পৃষ্ঠায় হোঁচট খাবে যে কোনও শিখনের বক্রতা না নিয়ে দ্রুত সমাধানের সন্ধান করবে।

ব্রাউজারের কয়েকটি এক্সটেনশন রয়েছে যা এটি করতে পারে তবে বেশিরভাগের জন্য ডাউনলোড ম্যানেজার ইনস্টল করা প্রয়োজন, যা সর্বদা নিখরচায় নয়, চোখের দৃষ্টিতে পরিণত হতে থাকে এবং প্রচুর সংস্থান ব্যবহার করে। হেরস হ'ল যার মধ্যে এই কোনও ত্রুটি নেই:

"ডাউনলোড মাস্টার" গুগল ক্রোমের একটি এক্সটেনশন যা ডিরেক্টরি থেকে ডাউনলোড করার জন্য দুর্দান্ত কাজ করে। কোন ফাইল-টাইপগুলি ডাউনলোড করতে হবে বা পুরো ডিরেক্টরিটি ডাউনলোড করতে হবে তা আপনি চয়ন করতে পারেন।

https://chrome.google.com/webstore/detail/download-master/dljdacfojgikogldjffnkdcielnklkce

একটি আপ-টু-ডেট বৈশিষ্ট্য তালিকা এবং অন্যান্য তথ্যের জন্য বিকাশকারীর ব্লগে প্রকল্প পৃষ্ঠাটি দেখুন:

http://monadownloadmaster.blogspot.com/



2

কোন সফ্টওয়্যার বা প্লাগইন প্রয়োজন!

(কেবল তখনই ব্যবহারযোগ্য যদি আপনার পুনরাবৃত্ত ডিপার্টমেন্টের প্রয়োজন হয় না)

বুকমার্কলেট ব্যবহার করুন। এই লিঙ্কটি বুকমার্কগুলিতে টানুন , তারপরে এই কোডটি সম্পাদনা করুন এবং পেস্ট করুন:

(function(){ var arr=[], l=document.links; var ext=prompt("select extension for download (all links containing that, will be downloaded.", ".mp3"); for(var i=0; i<l.length; i++) { if(l[i].href.indexOf(ext) !== false){ l[i].setAttribute("download",l[i].text); l[i].click(); } } })();

এবং পৃষ্ঠাতে যান (যেখান থেকে আপনি ফাইল ডাউনলোড করতে চান), এবং সেই বুকমার্কলেট ক্লিক করুন।


-1

উইজেট সাধারণত এইভাবে কাজ করে তবে কিছু সাইটের সমস্যা হতে পারে এবং এটি অনেকগুলি অপ্রয়োজনীয় এইচটিএমএল ফাইল তৈরি করতে পারে। এই কাজটি আরও সহজ করার জন্য এবং অপ্রয়োজনীয় ফাইল তৈরি রোধ করতে, আমি আমার getwebfolder স্ক্রিপ্টটি ভাগ করছি, যা আমি নিজের জন্য লিখেছিলাম প্রথম লিনাক্স স্ক্রিপ্ট। এই স্ক্রিপ্টটি প্যারামিটার হিসাবে প্রবেশ করা একটি ওয়েব ফোল্ডারের সমস্ত সামগ্রী ডাউনলোড করে।

আপনি যখন উইজেট দ্বারা একটি ওপেন ওয়েব ফোল্ডার ডাউনলোড করার চেষ্টা করেন যার মধ্যে একটি বেশি ফাইল থাকে, তখন উইজেট একটি সূচী। Html নামে একটি ফাইল ডাউনলোড করে। এই ফাইলে ওয়েব ফোল্ডারের একটি ফাইল তালিকা রয়েছে। আমার স্ক্রিপ্ট সূচী। Html ফাইলে লেখা ফাইলের নামগুলিকে ওয়েব ঠিকানায় রূপান্তর করে এবং সেগুলি উইজেটের সাথে স্পষ্টভাবে ডাউনলোড করে।

উবুন্টু 18.04 এবং কালি লিনাক্সে পরীক্ষিত, এটি অন্যান্য ডিস্ট্রোতেও কাজ করতে পারে।

ব্যবহার:

  • নীচে সরবরাহ করা জিপ ফাইল থেকে getwebfolder ফাইলটি বের করুন

  • chmod +x getwebfolder (শুধুমাত্র প্রথমবারের জন্য)

  • ./getwebfolder webfolder_URL

যেমন ./getwebfolder http://example.com/example_folder/

লিংক ডাউনলোড কর

ব্লগে বিশদ

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.