আপনি কীভাবে কোনও ওয়েবসাইটকে ক্রমাগত ক্রল করতে এবং নির্দিষ্ট ধরণের চিত্রগুলি ডাউনলোড করতে বাজেটকে নির্দেশ দেন?
আমি এটি কোনও সাইট ক্রল করার জন্য এবং কেবল জেপিগ চিত্রগুলি ডাউনলোড করতে চেষ্টা করেছি:
wget --no-parent --wait=10 --limit-rate=100K --recursive --accept=jpg,jpeg --no-directories http://somedomain/images/page1.html
তবে, যদিও পেজ 1 এইচটিএমএলতে সাবপেজগুলিতে কয়েকশ লিঙ্ক রয়েছে, যার নিজস্ব চিত্রগুলির সরাসরি লিঙ্ক রয়েছে, উইজেট "সাবপেজ 13 এইচটিএমএল এটি প্রত্যাখ্যান করা উচিত যেহেতু রিমুভ করা উচিত" এর মতো বিষয়গুলির প্রতিবেদন করে, এবং কোনও চিত্রই ডাউনলোড করে না, যেহেতু কোনওই সরাসরি লিঙ্কযুক্ত নয় since প্রারম্ভিক পৃষ্ঠা থেকে
আমি ধরে নিচ্ছি কারণ এটি - আমার গ্রহণযোগ্যতা ক্রল এবং ফিল্টার সামগ্রী উভয়ই ডাউনলোড করতে ডাইরেক্ট করার জন্য ব্যবহৃত হচ্ছে, আমি চাই যে এটি কেবলমাত্র সামগ্রী ডাউনলোডের জন্যই ব্যবহার করা যেতে পারে। আমি কীভাবে উইজেট সমস্ত লিঙ্ক ক্রল করতে পারি, তবে কেবল * .jpeg এর মতো নির্দিষ্ট এক্সটেনশানগুলির সাথে ফাইলগুলি ডাউনলোড করতে পারি?
সম্পাদনা: এছাড়াও, কিছু পৃষ্ঠাগুলি গতিশীল এবং একটি সিজিআই স্ক্রিপ্টের মাধ্যমে উত্পন্ন হয় (উদাঃ img.cgi? Fo9s0f989wefw90e)। এমনকি আমি আমার গ্রহণযোগ্য তালিকায় সিজি যোগ করলেও (যেমন - - গ্রহণ = জেপিজি, জেপিজি, এইচটিএমএল, সিজিআই) এগুলি সর্বদা প্রত্যাখ্যানিত হয়। এই সমস্যা এড়ানোর একটি উপায় আছে কি?