কেবলমাত্র এইচটিএমএল ফাইল ডাউনলোড করতে উইজেট ব্যবহার করে কীভাবে ক্রল করবেন (চিত্র, সিএসএস, জেএস উপেক্ষা করুন)


14

মূলত, আমি উইজেটের সাথে একটি সম্পূর্ণ সাইট ক্রল করতে চাই, তবে অন্যান্য সম্পদগুলি (যেমন চিত্র, সিএসএস, জেএস, ইত্যাদি) ডাউনলোড করার দরকার নেই। আমি কেবল এইচটিএমএল ফাইল চাই।

গুগল অনুসন্ধানগুলি সম্পূর্ণ অকেজো।

আমি চেষ্টা করেছি এমন একটি আদেশ এখানে:

wget --limit-rate=200k --no-clobber --convert-links --random-wait -r -E -e robots=off -U "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/32.0.1700.102 Safari/537.36" -A html --domain=www.example.com http://www.example.com

আমাদের সাইটটি হাইব্রিড ফ্ল্যাট-পিএইচপি এবং সিএমএস। সুতরাং, এইচটিএমএল "ফাইল" হতে পারে /path/to/page, /path/to/page/, /path/to/page.php, অথবা /path/to/page.html

আমি এমনকি অন্তর্ভুক্ত করেছি -R js,cssকিন্তু এটি ফাইলগুলি ডাউনলোড করে, তারপরে সেগুলি প্রত্যাখ্যান করে (ব্যান্ডউইথ, সিপিইউ, এবং সার্ভার লোডের অর্থহীন বর্জ্য!)।


2
আপনি এতক্ষণ যে আদেশটি চেষ্টা করেছেন তা কী? যদি ফাইলগুলির নামকরণ সামঞ্জস্যপূর্ণ হয়, আপনার -আর পতাকাটি ব্যবহার করতে সক্ষম হওয়া উচিত। বিকল্পভাবে, আপনি --ignore-ট্যাগ পতাকা ব্যবহার করতে পারেন এবং স্ক্রিপ্ট এবং img ট্যাগ উপেক্ষা করতে পারেন।
আর্নি

বিপরীতে:
উইজেটে

আমি --accept = html ব্যবহার করার চেষ্টা করেছি, তবে এটি সিএসএস ফাইল ডাউনলোড করে তা সেগুলি মুছে ফেলে। আমি তাদের সর্বদা ডাউনলোড হতে বাধা দিতে চাই। একটি শিরোনামের অনুরোধ ঠিক আছে, যদিও - উদাহরণস্বরূপ আমি Length: 558 [text/css]যে ফাইলগুলি চাই না সেগুলিতে লক্ষ্য করি। আমি যদি অনুরোধটি থামাতে পারতাম যদি শিরোনামটি ফিরে না আসে তবে text/htmlআমি আনন্দিত হব।
নাথান জেবি

উত্তর:


13

@ এর্নির মন্তব্য সম্পর্কে --ignore-tagsআমাকে সঠিক পথে নিয়ে যেতে! যখন আমি তাকিয়ে --ignore-tagsমধ্যে man, আমি লক্ষ্য করেছি --follow-tags

সেটিং --follow-tags=aআমাকে এড়িয়ে যেতে অনুমতি দেওয়া img, link, script, ইত্যাদি

কিছু লোক একই উত্তর খুঁজছেন সম্ভবত এটি খুব সীমিত, তবে এটি আমার ক্ষেত্রে আসলে ভাল কাজ করে (যদি আমি কয়েকটি পৃষ্ঠা মিস করি তবে ঠিক আছে)।

যদি কেউ সমস্ত ট্যাগ স্ক্যান করার জন্য কোনও উপায় খুঁজে পান তবে wgetফাইলগুলি ডাউনলোড করার পরেই তাদের প্রত্যাখ্যান করা থেকে বিরত রাখে (ডাউনলোডের আগে তাদের ফাইল নাম বা শিরোনামের বিষয়বস্তুর ধরণের ভিত্তিতে প্রত্যাখ্যান করা উচিত), আমি খুব খুশি তাদের উত্তর গ্রহণ করব!


5

বিকল্পগুলি যুক্ত করার বিষয়ে কী:

--reject '*.js,*.css,*.ico,*.txt,*.gif,*.jpg,*.jpeg,*.png,*.mp3,*.pdf,*.tgz,*.flv,*.avi,*.mpeg,*.iso'
--ignore-tags=img,link,script 
--header="Accept: text/html"
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.