উইজেট পুনরাবৃত্ত ডাউনলোড, কিন্তু আমি সমস্ত লিঙ্ক অনুসরণ করতে চাই না


10

আমি উইজেট ব্যবহার করে কোনও ওয়েবসাইট আয়না করার চেষ্টা করছি, তবে আমি প্রচুর ফাইল ডাউনলোড করতে চাই না, তাই আমি --rejectসমস্ত ফাইল সংরক্ষণ না করার জন্য উইজেটের বিকল্পটি ব্যবহার করছি । তবে উইজেট এখনও সমস্ত ফাইল ডাউনলোড করবে এবং তারপরে ফাইলটি আমার অপসারণ বিকল্পের সাথে মিলে গেলে তারপরে সরিয়ে ফেলবে।

কিছু শেল ওয়াইল্ডকার্ডের সাথে মিলে যদি উইজেট নির্দিষ্ট লিঙ্কগুলি অনুসরণ না করে তবে তা বলার কোনও উপায় আছে? যদি উইজেট এটি না করতে পারে তবে অন্য কিছু সাধারণ লিনাক্স কমান্ড রয়েছে যা এটি করতে পারে?


3
আপনার সম্পূর্ণ কমান্ড পোস্ট করুন। এটি সমস্যা সমাধানে অনেক সহজ করে তোলে।
জোসেফ কার্ন

উত্তর:


9

আপনি এইচটি ট্র্যাক চেষ্টা করতে পারেন যা আইএমও, আরও নমনীয় এবং স্বজ্ঞাত যুক্তি যুক্ত / বাদ দেয়। এটার মতো কিছু...

httrack "https://example.com" -O ExampleMirrorDirectory \
"-*" \
"+https://example.com/images/*" \
"-*.swf"

নিয়মগুলি যথাযথভাবে প্রয়োগ করা হবে এবং পূর্ববর্তী নিয়মগুলিকে ওভাররাইড করবে ...

  1. সব কিছু বাদ দিন
  2. তবে https://example.com/images/ * অন্তর্ভুক্ত করুন
  3. তবে swf এ শেষ হওয়া কিছু বাদ দিন

এটি আপডেট হওয়া ইউআরএল সহ সিএসএস, ছবি ইত্যাদি ডাউনলোড করবে?
ব্র্যান্ডিজি


1

'ম্যান উইজেটের' --reject বিভাগের অধীনে:

"মনে রাখবেন যে ওয়াইল্ডকার্ডের কোনও অক্ষর, *,?, [বা], এ্যাকলিস্ট বা পুনরায় তালিকার কোনও উপাদানটিতে উপস্থিত হয়, এটি প্রত্যয়ের পরিবর্তে একটি নিদর্শন হিসাবে বিবেচিত হবে।"

আপনি যদি এটি করে থাকেন তবে আপনি যে প্যাটার্নগুলি ব্যবহার করছেন এবং আপনার কী মিল হওয়া উচিত বলে উদাহরণ দিতে পারেন might আপনি বলছেন যে তারা মিলছে, তবে আপনি কি নিশ্চিত?

এছাড়াও, নিশ্চিত হয়ে নিন যে আপনি এই তালিকাটি উদ্ধৃতিতে রেখেছেন, যাতে শেলটি আর্গুমেন্ট (গুলি) কে উইজেটে যাওয়ার আগে শেলটি সেই ওয়াইল্ডকার্ডগুলি প্রসারিত করে না।

এমনকি আপনার সিস্টেমে সংস্করণ 1.12 না থাকলেও ম্যানুয়ালটির ফাইলগুলির ধরণটি এখানে পড়ুন । পরিবর্তনের লগ অনুসারে রক্ষণাবেক্ষণকারী কিছু সতর্কতা যুক্ত করেছে:

* NEWS: Added documentation change re: --no-parents, and various
caveats on accept/reject lists behavior. Rearranged some items in
order of priority.

--Reject বিকল্পগুলি উদ্ধৃতিতে রয়েছে। আমি দেখতে পাচ্ছি যে সঠিক ফাইলগুলি মিলে যাচ্ছে কারণ ফাইলটি ডাউনলোড হওয়ার পরে, উইজেট ফাইলটি সরিয়ে দেয়। আমি কেবল ফাইলটি প্রথম স্থানে ডাউনলোড করা বন্ধ করতে চাই
ররি

এই এইচটিএম (এল) ফাইলগুলি কি? ম্যানুয়াল অনুসারে, এগুলি ডাউনলোড করা হয় যাই হোক না কেন।
কাইল ব্র্যান্ড্ট

হ্যাঁ. যে ফাইলগুলিকে আমি প্রত্যাখ্যান করতে চাই তা হ'ল এইচটিএমএল ফাইল। আমি জানি যে তারা যাই হোক না কেন ডাউনলোড হয়। এটি রোধ করার কোনও উপায় আছে?
ররি

1

আপনি -l NUMBERবিকল্পটির সাথে পুনরাবৃত্তির স্তরকে সীমাবদ্ধ করতে পারেন, যদি এটি সহায়তা করে (কোনও নির্দিষ্ট রেজেক্স প্যাটার্ন অনুসরণ না করে)।

"২" ডাউনলোডের সূচক html এর স্তর, এর সাবসাইট / চিত্র / ইত্যাদি এবং সাবসিটের লিঙ্কগুলি।


না যা এই পরিস্থিতিতে সাহায্য করবে না
ররি

1

আপনি কিভাবে উইজেট ব্যবহার করবেন? এটি এইভাবে ব্যবহার করার চেষ্টা করুন:

wget -r --reject=gif,jpg,swf http://norc.aut.ac.ir/

এই কমান্ডটি gif এবং jpg এবং swf ফাইলগুলিকে উপেক্ষা করবে।


ররি ম্যাকক্যান যে ফাইলগুলি প্রত্যাখ্যান করতে চায় সেগুলি হ'ল এইচটিএমএল ফাইল, তবে তিনি অন্যান্য এইচটিএমএল ফাইল রাখতে চান, সুতরাং এই বাক্য গঠনটি তার প্রশ্নের ক্ষেত্রে প্রযোজ্য না।
রয়েস উইলিয়ামস

1

একটি কর্মসূচী হ'ল প্রক্সি সার্ভারের মাধ্যমে উইজেট চালানো। নির্দিষ্ট নিদর্শনগুলি বাতিল করতে আপনার প্রক্সি সেট করুন। এটি প্রথম স্থানে সেগুলি ডাউনলোড করা থেকে উইজেটকে অবরুদ্ধ করবে।

উইজেট -R প্যাটার্নের সাথে মেলে এমন একটি ফাইল ডাউনলোড এবং মুছে ফেলবে। এটি কেবলমাত্র এক্সটেনশান বা ফাইলের নামের অংশগুলি নয়, নিদর্শনগুলির সাথেও মেলে। এটি প্রথমে ডাউনলোড করা এবং পরে মুছে ফেলা থেকে উইজেটটি থামায় না।

এইচটি ট্র্যাকের কিছু সুন্দর বৈশিষ্ট্য রয়েছে তবে আমার অভিজ্ঞতায় এটি কোনও "ফাইল" সংরক্ষণ করে তাতে কিছুটা উদ্বুদ্ধ হতে পারে উদাহরণস্বরূপ, যদি এইচটি ট্র্যাকটি সূচি.অ্যাসপ জুড়ে আসে? টাইপ = বেসিক এবং পৃষ্ঠা পৃষ্ঠা = 2234234
এটি এটি সংরক্ষণ করতে পারে তবে আপনাকে সংরক্ষণের জন্য এটি বলতে হবে ক্যোয়ারির অংশগুলি
যেমন% h% p /% n% [টাইপ: @ টিওয়াইপি = ::]% [পেজআইডি: পেজআইডি = ::]।% টি
@ একটি প্রশ্নের চিহ্নের স্থানধারক, আপনি পরে ফাইলগুলির নাম পরিবর্তন করতে পারেন, অথবা এর পরিবর্তে একটি প্রশ্ন চিহ্ন থেকে বাঁচতে পারেন? সমস্যাটি হল,।% t আপনার ইউআরআইয়ের শেষে একটি '.html' যুক্ত করবে যা মূলত '.html' ছিল না এবং যদি আপনি এটিটি বন্ধ করেন, এইচটি ট্র্যাক ডাউনলোডগুলি ফাইলের এক্সটেনশনের অভাব করবে।

উইজেট আইএমএইচও ব্যবহার করা ভাল

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.