পুনরাবৃত্তভাবে কোনও সাইট ক্রল করতে এবং চিত্রগুলি ডাউনলোড করতে উইজেট ব্যবহার করে

13

আপনি কীভাবে কোনও ওয়েবসাইটকে ক্রমাগত ক্রল করতে এবং নির্দিষ্ট ধরণের চিত্রগুলি ডাউনলোড করতে বাজেটকে নির্দেশ দেন?

আমি এটি কোনও সাইট ক্রল করার জন্য এবং কেবল জেপিগ চিত্রগুলি ডাউনলোড করতে চেষ্টা করেছি:

wget --no-parent --wait=10 --limit-rate=100K --recursive --accept=jpg,jpeg --no-directories http://somedomain/images/page1.html

তবে, যদিও পেজ 1 এইচটিএমএলতে সাবপেজগুলিতে কয়েকশ লিঙ্ক রয়েছে, যার নিজস্ব চিত্রগুলির সরাসরি লিঙ্ক রয়েছে, উইজেট "সাবপেজ 13 এইচটিএমএল এটি প্রত্যাখ্যান করা উচিত যেহেতু রিমুভ করা উচিত" এর মতো বিষয়গুলির প্রতিবেদন করে, এবং কোনও চিত্রই ডাউনলোড করে না, যেহেতু কোনওই সরাসরি লিঙ্কযুক্ত নয় since প্রারম্ভিক পৃষ্ঠা থেকে

আমি ধরে নিচ্ছি কারণ এটি - আমার গ্রহণযোগ্যতা ক্রল এবং ফিল্টার সামগ্রী উভয়ই ডাউনলোড করতে ডাইরেক্ট করার জন্য ব্যবহৃত হচ্ছে, আমি চাই যে এটি কেবলমাত্র সামগ্রী ডাউনলোডের জন্যই ব্যবহার করা যেতে পারে। আমি কীভাবে উইজেট সমস্ত লিঙ্ক ক্রল করতে পারি, তবে কেবল * .jpeg এর মতো নির্দিষ্ট এক্সটেনশানগুলির সাথে ফাইলগুলি ডাউনলোড করতে পারি?

সম্পাদনা: এছাড়াও, কিছু পৃষ্ঠাগুলি গতিশীল এবং একটি সিজিআই স্ক্রিপ্টের মাধ্যমে উত্পন্ন হয় (উদাঃ img.cgi? Fo9s0f989wefw90e)। এমনকি আমি আমার গ্রহণযোগ্য তালিকায় সিজি যোগ করলেও (যেমন - - গ্রহণ = জেপিজি, জেপিজি, এইচটিএমএল, সিজিআই) এগুলি সর্বদা প্রত্যাখ্যানিত হয়। এই সমস্যা এড়ানোর একটি উপায় আছে কি?

— Cerin
সূত্র

5

আপনি কেন ব্যবহার করার চেষ্টা করবেন না wget -A jpg,jpeg -r http://example.com?

— meoninterwebz
সূত্র

প্রশ্নটিতে বলা হয়েছে যে কয়েকটি চিত্রগুলি /url/path.cgi?query ফর্মের, তাই আপনার পরামর্শগুলি সেগুলি আনবে না।

— চার্লস স্টুয়ার্ট

1

আপনি কীভাবে উইজেটকে সাবপেজ 13 এইচটিএমএল (এবং এর সাথে জেপিজির সাথে লিঙ্ক করেছেন) এর বিষয়বস্তু জানতে পারবেন তা যদি ডাউনলোড করার অনুমতি না থাকে তবে কীভাবে তা প্রত্যাশা করবেন। আমি আপনাকে পরামর্শ দিচ্ছি যে আপনি এইচটিএমএলকে অনুমতি দিন, যা চান তা পান, তারপরে যা চান না তা সরিয়ে দিন।

আপনার সিজি কেন প্রত্যাখ্যান হচ্ছে সে সম্পর্কে আমি পুরোপুরি নিশ্চিত নই ... উইজেটে কোনও ত্রুটি আউটপুট আছে কি? সম্ভবত উইজেট ভার্বোজ ( -v) তৈরি করুন এবং দেখুন। পৃথক প্রশ্ন হিসাবে সেরা হতে পারে।

এটি বলেছে, আপনি যদি ব্যান্ডউইথ এবং লট ডাউনলোডের বিষয়ে চিন্তা না করেন তবে আপনি যা চান না তা সরিয়ে ফেলুন, তাতে কিছু আসে যায় না।

এছাড়াও চেক আউট --html-extension

ম্যান পৃষ্ঠা থেকে:

-E

--html-এক্সটেনশন

টাইপ অ্যাপ্লিকেশন / এক্সএইচটিএমএল + এক্সএমএল বা পাঠ্য / এইচটিএমএল ফাইল ডাউনলোড করা হয় এবং ইউআরএল রিজেক্সএক্সের সাথে শেষ না হয় [[এইচএইচ] [টিটি] [এমএম] [এলএল] ?, এই বিকল্পটির ফলে প্রত্যয় তৈরি হবে cause এইচটিএমএল স্থানীয় ফাইলের নামের সাথে যুক্ত। উদাহরণস্বরূপ, যখন আপনি .asp পৃষ্ঠাগুলি ব্যবহার করে এমন কোনও রিমোট সাইট মিরর করছেন, তবে আপনি চান যে মিররযুক্ত পৃষ্ঠাগুলি আপনার স্টক অ্যাপাচি সার্ভারে দৃশ্যমান হয়। এর জন্য আর একটি ভাল ব্যবহার হ'ল আপনি যখন সিজিআই-জেনারেটেড উপকরণগুলি ডাউনলোড করেন। Http://site.com/article.cgi ? 25 এর মতো একটি URL নিবন্ধের হিসাবে সংরক্ষণ করা হবে?

নোট করুন যে এইরকম পরিবর্তিত ফাইলের নামগুলি আপনি যখন কোনও সাইটের পুনরায় মিরর করে প্রতিবারই ডাউনলোড হবেন, কারণ উইজেট বলতে পারবেন না যে স্থানীয় এক্স এইচটিএমএল ফাইল দূরবর্তী ইউআরএল এক্স এর সাথে মিল রাখে (যেহেতু এটি এখনও জানে না যে URL টি টাইপের আউটপুট উত্পাদন করে পাঠ্য / এইচটিএমএল বা অ্যাপ্লিকেশন / এক্সএইচটিএমএল + এক্সএমএল। এই পুনরায় ডাউনলোডটি রোধ করতে আপনার অবশ্যই -k এবং -K ব্যবহার করতে হবে যাতে ফাইলটির মূল সংস্করণটি X.orig হিসাবে সংরক্ষণ করা যায়।

--restrict-file-names=unix সেই সিজি ইউআরএলের কারণেও এটি কার্যকর হতে পারে ...

— ব্যয়বহুল
সূত্র

আমার উইজেটের বিকল্পগুলির লিঙ্কিং বন্ধ করা উচিত .. নির্দেশ করতে চলেছিল --no-parentতবে আমি সেখানে থামব।

— ব্যয়বহুল

0

আপনি প্রোগ্রামিং ছাড়াই মেটাপ্রডাক্টস অফলাইন এক্সপ্লোরারও ব্যবহার করতে পারেন

— TiansHUo
সূত্র

-1

--page-requisitesবিকল্পটি যুক্ত করার চেষ্টা করুন

এটি সমস্ত লিঙ্কযুক্ত মিডিয়া ডাউনলোড করে। চিত্রগুলি ডাউনলোড করতে উইজেট ব্যবহারের একমাত্র উপায় হ'ল কোনও পৃষ্ঠায় সমস্ত সামগ্রী ডাউনলোড করা ?!

— সেরিন