আমি wget
প্রোগ্রামটি ব্যবহার করছি , তবে আমি চাই যে এটি ডাউনলোড করা এইচটিএমএল ফাইলটি সংরক্ষণ না করে। আমি এটি পাওয়ার পরে তা ফেলে দিতে চাই। আমি কেমন করে ঐটি করি?
আমি wget
প্রোগ্রামটি ব্যবহার করছি , তবে আমি চাই যে এটি ডাউনলোড করা এইচটিএমএল ফাইলটি সংরক্ষণ না করে। আমি এটি পাওয়ার পরে তা ফেলে দিতে চাই। আমি কেমন করে ঐটি করি?
উত্তর:
আপনি উইজেটের আউটপুটটিকে / dev / নাল (বা উইন্ডোজে NUL) এ পুনঃনির্দেশ করতে পারেন:
wget http://www.example.com -O /dev/null
ফাইলটি ডিস্কে লিখিত হবে না, তবে এটি ডাউনলোড করা হবে।
আপনি ফাইল সংরক্ষণ করতে না চান, এবং আপনি পৃষ্ঠার ডাউনলোড করার সমাধান গ্রহণ করেছেন এমন /dev/null
, আমি তোমাকে wget হয় ব্যবহার করছেন পেতে এবং পৃষ্ঠা সামগ্রীর বিশ্লেষণ করতে না অনুমান করা ।
যদি আপনার আসল প্রয়োজনটি কিছু দূরবর্তী ক্রিয়াকে চালিত করতে হয় তবে পৃষ্ঠাটি উপস্থিত রয়েছে কিনা তা যাচাই করে নিন এবং আমার মনে হয় এইচটিএমএল বডি পেজ একেবারে ডাউনলোড করা এড়ানো ভাল।
wget
আপনার যা প্রয়োজন তা কেবল পুনরুদ্ধার করতে বিকল্পগুলির সাথে খেলুন , যেমন HTTP শিরোনাম, অনুরোধের স্থিতি ইত্যাদি
আপনার পৃষ্ঠাটি যাচাই করা দরকার বলে ধরে নেওয়া ঠিক আছে (অর্থাত্ স্ট্যাটাসটি 200 হয়) আপনি নিম্নলিখিতটি করতে পারেন:
wget --no-cache --spider http://your.server.tld/your/page.html
আপনি যদি সার্ভারকে বিশ্লেষণ করতে চান তবে ফেরত শিরোনামগুলি নিম্নলিখিতটি করুন:
wget --no-cache -S http://your.server.tld/your/page.html
খেলতে আরও বিকল্পের জন্য উইজেট ম্যান পৃষ্ঠাটি দেখুন । উইজেটের বিকল্প হিসাবেও
দেখুন lynx
।
--no-cache
মানুষ পৃষ্ঠা থেকে বলেছেন wget হয় কারণ "দূরবর্তী সার্ভারে একটি যথাযথ নির্দেশ ( 'Pragma: কোন-ক্যাশে') পাঠাতে দূরবর্তী চাকরি থেকে ফাইল পেতে" এ
$ wget http://www.somewebsite.com -O foo.html --delete-after
--delete-after
বিকল্প পছন্দ আপনি recursively ডাউনলোড করতে হবে কিন্তু আপনি প্রকৃত বিষয়বস্তু বাতিল করতে চান যখন হয়।
-O /dev/null
আপনি যদি কনসোলটিতে মুদ্রণ করতে চান তবে আপনি যে ফলাফলটি করতে পারেন তা করতে পারেন:
wget -qO- http://www.example.com
q
শান্ত মোড, (এটি অগ্রগতি এবং অন্যান্য তথ্য আউটপুট দেয় না), এবং O-
(কনসোলে পুনরুদ্ধার করা ডকুমেন্টটি লিখুন)।
"স্পাইডার" বিকল্পটি দেখুন। আমার ওয়েব সাইটগুলি নিশ্চিত কিনা তা নিশ্চিত করতে আমি এটি ব্যবহার করি এবং সেগুলি না থাকলে আমাকে একটি ইমেল প্রেরণ করে। এটি আমার ক্রন্টব থেকে একটি সাধারণ প্রবেশ:
46 */2 * * * if ! wget -q --spider http://www.rochesterflyingclub.com/ >/dev/null 2>&1; then echo "Rochester Flying Club site is down" ; fi
* এনআইএক্স বাক্স এবং ব্যবহারের জন্য wget
, আমি কোনও ফাইলে লেখা বাদ দেওয়ার পরামর্শ দিই। আমি আমার উবুন্টু 10.04 বাক্সে লক্ষ্য করেছি যে wget -O /dev/null
প্রথম ডাউনলোডের পরে উইজেট ডাউনলোডগুলি বাতিল করে দিয়েছে।
আমি এটিও লক্ষ্য করেছি যে wget -O real-file
উইজেটের কারণে পৃষ্ঠায় থাকা আসল লিঙ্কগুলি ভুলে যেতে পারে। এটি index.html
প্রতিটি পৃষ্ঠায় উপস্থিত থাকার জন্য জোর দেয় । এই জাতীয় পৃষ্ঠাগুলি সর্বদা উপস্থিত না থাকতে পারে এবং উইজেট এর আগে যে লিঙ্কগুলি দেখেছিল তা মনে রাখে না।
mkdir /dev/shm/1
cd /dev/shm/1
wget --recursive --relative --no-parent ...
লক্ষ্য করুন কোন -O file
বিকল্প নেই। উইজেট $ PWD ডিরেক্টরিতে লিখবে। এই ক্ষেত্রে এটি কেবলমাত্র একটি র্যাম-র tmpfs ফাইল সিস্টেম। এখানে লেখার ক্ষেত্রে ডিস্ক মন্থন (স্বাপের জায়গার উপর নির্ভর করে) বাইপাস করা উচিত এবং সমস্ত লিঙ্কের ট্র্যাক রাখা উচিত। এটি পুরো ওয়েবসাইটকে সফলভাবে ক্রল করা উচিত।
পরে অবশ্যই,
rm --recursive --force /dev/shm/1/*
--Delete-after অপশনটি ব্যবহার করুন, যা ফাইলটি ডাউনলোড করার পরে মুছে ফেলা হয়।
সম্পাদনা: উফ, আমি সবেমাত্র লক্ষ্য করেছি যে ইতিমধ্যে উত্তর দেওয়া হয়েছে।
সহায়তা দস্তাবেজের (উইজেট -h) অনুসারে, আপনি ডাউনলোড এড়াতে --spider বিকল্পটি ব্যবহার করতে পারেন (সংস্করণ 1.14)।
Download:
-S, --server-response print server response.
--spider don't download anything.
/dev/null
জিনিসটি কি কাজ করবে?