পরামিতিগুলির সাথে লিঙ্কগুলি অনুসরণ না করে কীভাবে উইজেট দিয়ে ডাউনলোড করবেন


7

আমি একটি সিডিতে অন্তর্ভুক্তির জন্য দুটি সাইট ডাউনলোড করার চেষ্টা করছি:

http://boinc.berkeley.edu/trac/wiki
http://www.boinc-wiki.info

আমার যে সমস্যা হচ্ছে তা হ'ল এগুলি উভয়ই উইকি are উদাহরণস্বরূপ ডাউনলোড করার সময়:

wget -r -k -np -nv -R jpg,jpeg,gif,png,tif http://www.boinc-wiki.info/

আমি প্রচুর ফাইল পাই কারণ এটি ... ... ক্রিয়া = সম্পাদনা ...? ক্রিয়া = ডিফ এবং সংস্করণ = ... এর মতো লিঙ্কগুলিও অনুসরণ করে

কেউ কি এর কাছাকাছি যাওয়ার কোনও উপায় জানেন?

আমি কেবল বর্তমান পৃষ্ঠাগুলি চাই, ছবি ছাড়া এবং ভিন্নতা ইত্যাদি চাই want

পুনশ্চ:

wget -r -k -np -nv -l 1 -R jpg,jpeg,png,gif,tif,pdf,ppt http://boinc.berkeley.edu/trac/wiki/TitleIndex

এটি বার্কলির পক্ষে কাজ করেছে তবে Boinc-wiki.info এখনও আমাকে সমস্যা দিচ্ছে: /

PPS:

এর সাথে সর্বাধিক প্রাসঙ্গিক পৃষ্ঠাগুলি হিসাবে উপস্থিত বলে আমি পেয়েছি:

wget -r -k -nv  -l 2 -R jpg,jpeg,png,gif,tif,pdf,ppt http://www.boinc-wiki.info

সুপার-ইউজার এবং serverfault মধ্যে ক্রস পোস্ট করার কোন প্রয়োজন superuser.com/questions/158318/...
ব্রায়ান

আমার এটি কোথায় পোস্ট করা উচিত?
টাই-ফাইটার

উত্তর:


7
wget --reject-regex '(.*)\?(.*)' http://example.com

( --reject-type posixডিফল্টরূপে) wgetঅন্যান্য মন্তব্য অনুসারে শুধুমাত্র সাম্প্রতিক (> = 1.14) সংস্করণগুলির জন্য কাজ করে ।

সাবধান থাকুন যে দেখে মনে হয় আপনি --reject-regexএকবার wgetকল প্রতি একবার ব্যবহার করতে পারবেন । এটি হ'ল, |যদি আপনি বেশ কয়েকটি রেইজেক্সে নির্বাচন করতে চান তবে আপনাকে একটি একক রেজেক্সে ব্যবহার করতে হবে:

wget --reject-regex 'expr1|expr2|…' http://example.com

2
উইজেটে থাকা রেজেক্স শুরু বা শেষদিকে নোঙ্গর করা হয় না, তাই আপনার প্রথম উদাহরণে wget --reject-regex '\?' http://example.comযথেষ্ট।
স্টাফেন গৌরিচন

4

Wget হয় ডকুমেন্টেশন বলেছেন:

দ্রষ্টব্য, এছাড়াও, সেই ক্যোরিয় স্ট্রিংগুলি (কোনও প্রশ্ন চিহ্ন ('?') দিয়ে URL এর শেষে শুরু হওয়া স্ট্রিংগুলি নিয়ম গ্রহণ / প্রত্যাখ্যান করার জন্য ফাইলের নাম হিসাবে অন্তর্ভুক্ত করা হয়নি, যদিও এগুলি আসলে নির্বাচিত নামটিতে অবদান রাখবে) স্থানীয় ফাইল এটি প্রত্যাশা করা হয় যে উইজেটের ভবিষ্যতের সংস্করণ কোয়েরি স্ট্রিংগুলির সাথে মিলের জন্য একটি বিকল্প সরবরাহ করবে।

দেখে মনে হচ্ছে এই কার্যকারিতাটি কিছুক্ষণের জন্য টেবিলে রয়েছে এবং এটি দিয়ে কিছুই করা হয়নি।

আমি এটি ব্যবহার করি নি, তবে httrack দেখে মনে হচ্ছে এটিতে ওয়াগেটের চেয়ে আরও শক্তিশালী ফিল্টারিং বৈশিষ্ট্য রয়েছে এবং আপনি যা খুঁজছেন তার জন্য এটি আরও উপযুক্ত হতে পারে (ফিল্টারগুলি সম্পর্কে এখানে পড়ুন http://www.httrack.com/html /fcguide.html )।


আমাকে httrack এ নির্দেশ করার জন্য +1। এটি উইজেটের চেয়ে আরও ভাল দেখাচ্ছে এবং উইজেট স্থির দেখায়।
স্টিফান লাসিউইস্কি

আমি উইনটট্রাক চেষ্টা করেছি তবে এটি মজার আচরণ করে। এটি ফাইলগুলি এবং ট্র্যাভারস ডিরেক্টরিগুলি ডাউনলোড করে যা এটি করা উচিত নয়: /
টাই-ফাইটার

হতে পারে এক দিনের উইজেট স্থির হয়ে যাবে। আপাতত এইচটি ট্র্যাক এবং পাভুক উভয়ই ভাল দেখাচ্ছে।
জোয়েটউইডল

3

উইজেটের নতুন সংস্করণ (v.1.14) এই সমস্ত সমস্যার সমাধান করে।

--reject-regex=....কোয়েরি স্ট্রিংগুলি পরিচালনা করতে আপনাকে নতুন বিকল্পটি ব্যবহার করতে হবে ।

মনে রাখবেন যে আমি নতুন ম্যানুয়ালটি খুঁজে পাইনি যাতে এই নতুন বিকল্পগুলি অন্তর্ভুক্ত রয়েছে, সুতরাং আপনাকে সহায়তা আদেশটি ব্যবহার করতে হবে wget --help > help.txt


1

পাভুক এটি করতে সক্ষম হবেন:

http://pavuk.sourceforge.net/man.html#sect39

মিডিয়াউইকি উদাহরণ:

[...]

-skip_url_pattern ' oldid = , কর্ম = সম্পাদন করা , কর্ম = ইতিহাস , পরিবর্তন = , সীমা = , [/ =] ব্যবহারকারী: , [/ =] User_talk: , [^ পি] / স্পেশাল: , = বিশেষ: [^ আর] , .php / বিশেষ: [^ Lua] [^ onl] [^ nul] , মিডিয়াউইকি: , অনুসন্ধান করুন: , সাহায্য: '

[...]


1

দেখে মনে হচ্ছে আপনি মিডিয়াউইকের বিশেষ পৃষ্ঠাগুলি ডাউনলোড এড়ানোর চেষ্টা করছেন। index.phpপৃষ্ঠাটি একবার এড়িয়ে গিয়ে আমি এই সমস্যার সমাধান করেছি :

wget  -R '*index.php*'  -r ... <wiki link>

যাইহোক, উইকি URL গুলির উইকিপিডিয়া দেখা (ব্যবহৃত http://<wiki>/en/Theme) এবং প্যাটার্ন আমি অন্যান্য স্থানে দেখা যায় ( http://<wiki>/index.php?title=Theme)। যেহেতু আপনি দেওয়া লিঙ্কটি উইকিপিডিয়া প্যাটার্নে ইউআরএল ব্যবহার করে, তাই আমি মনে করি এই সমাধানটি আপনার পক্ষেও কার্যকর হতে পারে।


0

'-আর রেজলিস্ট - পুনরায় তালিকাভুক্ত করুন' গ্রহণ করতে বা প্রত্যাখ্যান করতে ফাইল নাম প্রত্যয় বা প্যাটার্নগুলির কমা-বিচ্ছিন্ন তালিকা নির্দিষ্ট করুন (ফাইলের প্রকার দেখুন)। মনে রাখবেন যে ওয়াইল্ডকার্ডের কোনও অক্ষর, '*', '?', '[' বা ']' যদি অভিবাদক বা পুনরায় তালিকাভুক্তির উপাদানটিতে উপস্থিত হয়, তবে এটি প্রত্যয়ের পরিবর্তে একটি নিদর্শন হিসাবে বিবেচিত হবে।

প্যাটার্নগুলি সম্ভবত আপনি যা চান। নিখুঁত নিদর্শনগুলি কতটা নিশ্চিত তা আমি নিশ্চিত নই তবে আপনি কেবলমাত্র কয়েকটি নির্দিষ্ট ফাইল গ্রহণ করতে বা ব্লক করতে চেষ্টা করতে পারেন:

wget -r -k -np -nv -R jpg,jpeg,gif,png,tif,*\? http://www.boinc-wiki.info/

স্বীকার করুন:

wget -r -k -np -nv -R jpg,jpeg,gif,png,tif -A [a-zA-Z.] http://www.boinc-wiki.info/

সম্পাদনা করুন: অন্য পোস্টের আলোকে এনভিএম।


এটি কোয়েরি স্ট্রিংগুলিতে কাজ করে? আমি যে উইজেটের ব্যবহার করেছি তার প্রতিটি সংস্করণ কেবলমাত্র URL এর ফাইল অংশে তালিকাকে প্রত্যাখ্যান করে। আমি এটি একটি শট দিতে এবং দেখুন।
ইভান অ্যান্ডারসন

আমি এটি পরীক্ষা করিনি। আমি স্রেফ ডকুমেন্টেশন সন্ধান করেছি। আমি এটি শেল কনভেনশন ব্যবহার করে খুঁজে পেয়েছি, তবে আপনার অভিজ্ঞতাটি ম্যাচের কার্যকরী কাজের ক্ষেত্রে আমার চেয়ে বেশি কথা বলবে।
জোশুয়া এনফিল্ড

"পালিয়ে যাচ্ছে?" আমার সেন্টোস 5.3 বাক্সে চলমান উইজেট 1.11.4 এ ওপি যা পছন্দ করবে তা করার জন্য উইজেট পাবেন বলে মনে হচ্ছে না।
ইভান অ্যান্ডারসন
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.