Save উইজেট তৈরি করা পৃষ্ঠাটি সংরক্ষণ করবেন না


68

আমি wgetপ্রোগ্রামটি ব্যবহার করছি , তবে আমি চাই যে এটি ডাউনলোড করা এইচটিএমএল ফাইলটি সংরক্ষণ না করে। আমি এটি পাওয়ার পরে তা ফেলে দিতে চাই। আমি কেমন করে ঐটি করি?


আমি লিনাক্সে নতুন - /dev/nullজিনিসটি কি কাজ করবে?
রাম রাছুম

2
তাহলে এটি ডাউনলোড করার পয়েন্ট কী?
বেনামে

1
@ বেনামে আমি রিমোট সার্ভারকে চাপ দেওয়ার জন্য ধরে নিয়েছি .. আপনি যদি বিষয়বস্তুর প্রতি যত্নশীল না হন .. তবে আমি সম্ভবত অ্যাপাচিবেঞ্চ (আব) ব্যবহার করব।
টম ও'কনোর

উত্তর:


83

আপনি উইজেটের আউটপুটটিকে / dev / নাল (বা উইন্ডোজে NUL) এ পুনঃনির্দেশ করতে পারেন:

wget http://www.example.com -O /dev/null

ফাইলটি ডিস্কে লিখিত হবে না, তবে এটি ডাউনলোড করা হবে।


এটি পৃষ্ঠাটি সংরক্ষণ করে না, তবে এটি আমার ইমেল পাঠায়। ইমেলিং অক্ষম করা কি সম্ভব?
ট্র্যান্ট করুন

32

আপনি ফাইল সংরক্ষণ করতে না চান, এবং আপনি পৃষ্ঠার ডাউনলোড করার সমাধান গ্রহণ করেছেন এমন /dev/null, আমি তোমাকে wget হয় ব্যবহার করছেন পেতে এবং পৃষ্ঠা সামগ্রীর বিশ্লেষণ করতে না অনুমান করা

যদি আপনার আসল প্রয়োজনটি কিছু দূরবর্তী ক্রিয়াকে চালিত করতে হয় তবে পৃষ্ঠাটি উপস্থিত রয়েছে কিনা তা যাচাই করে নিন এবং আমার মনে হয় এইচটিএমএল বডি পেজ একেবারে ডাউনলোড করা এড়ানো ভাল।

wgetআপনার যা প্রয়োজন তা কেবল পুনরুদ্ধার করতে বিকল্পগুলির সাথে খেলুন , যেমন HTTP শিরোনাম, অনুরোধের স্থিতি ইত্যাদি

  • আপনার পৃষ্ঠাটি যাচাই করা দরকার বলে ধরে নেওয়া ঠিক আছে (অর্থাত্ স্ট্যাটাসটি 200 হয়) আপনি নিম্নলিখিতটি করতে পারেন:

    wget --no-cache --spider http://your.server.tld/your/page.html
    
  • আপনি যদি সার্ভারকে বিশ্লেষণ করতে চান তবে ফেরত শিরোনামগুলি নিম্নলিখিতটি করুন:

    wget --no-cache -S http://your.server.tld/your/page.html
    

খেলতে আরও বিকল্পের জন্য উইজেট ম্যান পৃষ্ঠাটি দেখুন । উইজেটের বিকল্প হিসাবেও
দেখুন lynx


আমি বিভ্রান্ত --no-cacheমানুষ পৃষ্ঠা থেকে বলেছেন wget হয় কারণ "দূরবর্তী সার্ভারে একটি যথাযথ নির্দেশ ( 'Pragma: কোন-ক্যাশে') পাঠাতে দূরবর্তী চাকরি থেকে ফাইল পেতে" এ
গাইয়া

এটি সার্ভারকে বলেছে যে আপনার ক্লায়েন্ট ফাইলটির ক্যাশেড সংস্করণ চান না .. আমরা যে সংস্থানটির জন্য অনুরোধ করছি তার সর্বশেষ প্রকাশ পেতে চাই
drAlberT

17

$ wget http://www.somewebsite.com -O foo.html --delete-after


1
অনেক ধন্যবাদ. --delete-afterবিকল্প পছন্দ আপনি recursively ডাউনলোড করতে হবে কিন্তু আপনি প্রকৃত বিষয়বস্তু বাতিল করতে চান যখন হয়।
এজালেভ

আমার জন্য +1, আদেশটি স্বজ্ঞাত - এক নজরে, আমি এর চেয়ে আরও কী ঘটতে চলেছে তা আরও দ্রুত বুঝতে পারি-O /dev/null
ফিউশন 27

15

আপনি যদি কনসোলটিতে মুদ্রণ করতে চান তবে আপনি যে ফলাফলটি করতে পারেন তা করতে পারেন:

wget -qO- http://www.example.com

1
আমি এই বিকল্পটি সবচেয়ে পছন্দ করি। এটি আমাকে কী পাওয়া যায় তা দেখতে দেয় তবে এটি সংরক্ষণ করে না। স্যুইচগুলি বিশেষত qশান্ত মোড, (এটি অগ্রগতি এবং অন্যান্য তথ্য আউটপুট দেয় না), এবং O-(কনসোলে পুনরুদ্ধার করা ডকুমেন্টটি লিখুন)।
অক্টোপাস 21

9

অন্য বিকল্পটি হ'ল একটি সরঞ্জাম ব্যবহার করা curl, এটি ডিফল্টরূপে stdoutকোনও ফাইলে সংরক্ষণের পরিবর্তে দূরবর্তী সামগ্রীকে আউটপুট করে ।


4

"স্পাইডার" বিকল্পটি দেখুন। আমার ওয়েব সাইটগুলি নিশ্চিত কিনা তা নিশ্চিত করতে আমি এটি ব্যবহার করি এবং সেগুলি না থাকলে আমাকে একটি ইমেল প্রেরণ করে। এটি আমার ক্রন্টব থেকে একটি সাধারণ প্রবেশ:

46 */2 * * * if ! wget -q --spider http://www.rochesterflyingclub.com/ >/dev/null 2>&1; then echo "Rochester Flying Club site is down" ; fi

3

আপনার যদি উইজেট ব্যবহার করে কোনও ওয়েবসাইট ক্রল করতে হয় এবং ডিস্কের মন্থকে ছোট করতে চান ...

* এনআইএক্স বাক্স এবং ব্যবহারের জন্য wget, আমি কোনও ফাইলে লেখা বাদ দেওয়ার পরামর্শ দিই। আমি আমার উবুন্টু 10.04 বাক্সে লক্ষ্য করেছি যে wget -O /dev/nullপ্রথম ডাউনলোডের পরে উইজেট ডাউনলোডগুলি বাতিল করে দিয়েছে।
আমি এটিও লক্ষ্য করেছি যে wget -O real-fileউইজেটের কারণে পৃষ্ঠায় থাকা আসল লিঙ্কগুলি ভুলে যেতে পারে। এটি index.htmlপ্রতিটি পৃষ্ঠায় উপস্থিত থাকার জন্য জোর দেয় । এই জাতীয় পৃষ্ঠাগুলি সর্বদা উপস্থিত না থাকতে পারে এবং উইজেট এর আগে যে লিঙ্কগুলি দেখেছিল তা মনে রাখে না।

ডিস্কে না লিখে ক্রল করার জন্য, আমি যে সেরাটি নিয়ে এসেছি তা হল নীচে

 mkdir /dev/shm/1   
 cd /dev/shm/1
 wget --recursive --relative --no-parent ...

লক্ষ্য করুন কোন -O fileবিকল্প নেই। উইজেট $ PWD ডিরেক্টরিতে লিখবে। এই ক্ষেত্রে এটি কেবলমাত্র একটি র‌্যাম-র tmpfs ফাইল সিস্টেম। এখানে লেখার ক্ষেত্রে ডিস্ক মন্থন (স্বাপের জায়গার উপর নির্ভর করে) বাইপাস করা উচিত এবং সমস্ত লিঙ্কের ট্র্যাক রাখা উচিত। এটি পুরো ওয়েবসাইটকে সফলভাবে ক্রল করা উচিত।

পরে অবশ্যই,

 rm --recursive --force /dev/shm/1/*

2

--Delete-after অপশনটি ব্যবহার করুন, যা ফাইলটি ডাউনলোড করার পরে মুছে ফেলা হয়।

সম্পাদনা: উফ, আমি সবেমাত্র লক্ষ্য করেছি যে ইতিমধ্যে উত্তর দেওয়া হয়েছে।


0

সহায়তা দস্তাবেজের (উইজেট -h) অনুসারে, আপনি ডাউনলোড এড়াতে --spider বিকল্পটি ব্যবহার করতে পারেন (সংস্করণ 1.14)।

Download:
  -S,  --server-response         print server response.
       --spider                  don't download anything.


এটি কীভাবে অন্য উত্তরটিতে যুক্ত করে - স্পাইডারটির উল্লেখ?
ওয়ার্ড
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.