মূলত, আমি উইজেটের সাথে একটি সম্পূর্ণ সাইট ক্রল করতে চাই, তবে অন্যান্য সম্পদগুলি (যেমন চিত্র, সিএসএস, জেএস, ইত্যাদি) ডাউনলোড করার দরকার নেই। আমি কেবল এইচটিএমএল ফাইল চাই।
গুগল অনুসন্ধানগুলি সম্পূর্ণ অকেজো।
আমি চেষ্টা করেছি এমন একটি আদেশ এখানে:
wget --limit-rate=200k --no-clobber --convert-links --random-wait -r -E -e robots=off -U "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/32.0.1700.102 Safari/537.36" -A html --domain=www.example.com http://www.example.com
আমাদের সাইটটি হাইব্রিড ফ্ল্যাট-পিএইচপি এবং সিএমএস। সুতরাং, এইচটিএমএল "ফাইল" হতে পারে /path/to/page
, /path/to/page/
, /path/to/page.php
, অথবা /path/to/page.html
।
আমি এমনকি অন্তর্ভুক্ত করেছি -R js,css
কিন্তু এটি ফাইলগুলি ডাউনলোড করে, তারপরে সেগুলি প্রত্যাখ্যান করে (ব্যান্ডউইথ, সিপিইউ, এবং সার্ভার লোডের অর্থহীন বর্জ্য!)।
Length: 558 [text/css]
যে ফাইলগুলি চাই না সেগুলিতে লক্ষ্য করি। আমি যদি অনুরোধটি থামাতে পারতাম যদি শিরোনামটি ফিরে না আসে তবে text/html
আমি আনন্দিত হব।