চিত্র, এইচটিএমএল এবং সিএসএস ডাউনলোড করতে HTTP- র মাধ্যমে কোনও ওয়েবসাইট ছিঁড়ে নিন


22

আমার এইচটিটিপি এর মাধ্যমে একটি সাইট ছিঁড়ে নেওয়া দরকার। আমার ইমেজগুলি, এইচটিএমএল, সিএসএস এবং জাভাস্ক্রিপ্ট ডাউনলোড করার পাশাপাশি এটি একটি ফাইল সিস্টেমে সাজানো দরকার।

কেউ কি জানেন, এটা কিভাবে করে?


2
আপনার উল্লেখ করা উচিত যে আপনি এই সফ্টওয়্যারটি কপিরাইট লঙ্ঘনের জন্য ব্যবহার করছেন না। অন্যথায় আমরা কেবল ধরে নিয়েছি যে আপনি অন্য কারও সামগ্রীর আয়না করতে চান যাতে আপনি এটি থেকে অর্থ উপার্জন করতে পারেন।
বেলগারিয়ান 19

আমাদের একবার কোনও ক্লায়েন্ট চলে যেতে চেয়েছিল, তবে সিএমএস ত্যাগ করে তাদের সাইটের স্থির এইচটিএমএল সংস্করণ নিন। আমি স্থির সাইট উত্পন্ন করতে HTTrack ব্যবহার করেছি। এটি উইন্ডোজ এবং উবুন্টুতে ভাল কাজ করে।
ট্রিগ 21

4
@ বেগারিয়ানথেকিং: আকর্ষণীয় আপনি সবচেয়ে খারাপ অনুমান করেন। আমরা আমাদের নিজস্ব গতিশীল ওয়েব সাইটের স্ট্যাটিক এইচটিএমএল সংস্করণ ডাউনলোড করতে উইনএইচটিট্র্যাক ব্যবহার করি।
উম্বার ফেরুলি

উত্তর:


40
wget -erobots=off --no-parent --wait=3 --limit-rate=20K -r -p -U "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)" -A htm,html,css,js,json,gif,jpeg,jpg,bmp http://example.com

এটি কনসোলে চলে।

এটি কোনও সাইট দখল করবে, অনুরোধগুলির মধ্যে 3 সেকেন্ড অপেক্ষা করবে, এটি কত দ্রুত ডাউনলোড হবে তা সীমাবদ্ধ করবে যাতে এটি সাইটটিকে হত্যা করে না এবং এমনভাবে মুখোশ দেয় যাতে এটি কেবল ব্রাউজার হিসাবে প্রদর্শিত হয় যাতে সাইটটি আপনাকে কাটা না দেয় site একটি অ্যান্টি-জোঁক প্রক্রিয়া ব্যবহার করে।

-Aআপনি যে ফাইল ফাইলগুলি ডাউনলোড করতে চান তার একটি তালিকা নির্দেশ করে এমন প্যারামিটারটি নোট করুন ।

আপনি অন্য ট্যাগ ব্যবহার -D domain1.com,domain2.comকরতে পারেন, আপনি ডাউনলোড করতে চান এমন কয়েকটি ডোমেনগুলি বোঝাতে যদি তাদের অন্য সার্ভার থাকে বা বিভিন্ন ধরণের ফাইল হোস্ট করার জন্য যা কিছু থাকে। আপনি যদি ফাইলগুলি না পান তবে সমস্ত ক্ষেত্রে এটি স্বয়ংক্রিয় করার কোনও নিরাপদ উপায় নেই।

wgetলিনাক্সে সাধারণত ইনস্টল করা থাকে তবে অন্যান্য ইউনিক্স সিস্টেমের জন্য তুচ্ছভাবে সংকলন করা যায় বা উইন্ডোজের জন্য সহজেই ডাউনলোড করা যায়: GNUwin32 WGET

এটি ভাল এবং না মন্দ জন্য ব্যবহার করুন।


1
wget -erobots = অফ - না-পিতামাতার - ওয়েইট = 3 - রিলিট-রেট = 50 কে-আর -p -U "মজিলা / 4.0 (সামঞ্জস্যপূর্ণ; এমএসআইই 7.0; উইন্ডোজ এনটি 5.1)" -কে --ডাইরেক্টরি-প্রিফিক্স "সি: p রিপ" - পৃষ্ঠা-প্রয়োজনীয়তা -এইচটিএম, এসপিএক্স, পিএইচপি, জেএসপি, এসপি, জিপ, পিএনজি, এইচটিএমএল, সিএসএস, জেএসসন, জিআইপি, জেপিগ, জেপিজি, বিএমপি ডোমেইন ডটকম
ক্রিস এস

এটি "ভ্যানিটি ইউআরএল" এ কাজ করবে? আমি একটি সোশ্যাল নেটওয়ার্কিং সাইটে আমার লিখিত সামগ্রী (ওকে, গান) সম্পর্কে উদ্বিগ্ন এবং আমি স্থানীয়ভাবে এটি ব্যাকআপ করতে চাই। সাইটটি "www.example.com" তবে আমার ব্যবহারকারীর নাম "avi.example.com" সহ একটি ভ্যানিটি URL রয়েছে। আমি পুরো সাইটটি ডাউনলোড করতে চাই না, কেবল আমার সামগ্রী!
আভি

লিনাক্সে, আপনি উত্স থেকে উইজেট ইনস্টল করতে চাইতে পারেন। উবুন্টু সংস্করণ, উদাহরণস্বরূপ, আপস্ট্রিম উইজেটের সময় সিএসএসকে পার্স করে না।
জিডিআর

16

ভাল, নিখরচায় সমাধান: এইচটি ট্র্যাক

এইচটি ট্র্যাক একটি ফ্রি (জিপিএল, বিনামূল্যে / বিনামূল্যে সফটওয়্যার) এবং সহজেই ব্যবহারযোগ্য অফলাইন ব্রাউজার ইউটিলিটি।

এটি আপনাকে ইন্টারনেট থেকে একটি স্থানীয় ডিরেক্টরিতে একটি ওয়ার্ল্ড ওয়াইড ওয়েব সাইট ডাউনলোড করতে, পুনরায় ক্রমান্বয়ে সমস্ত ডিরেক্টরি তৈরি করতে, সার্ভার থেকে আপনার কম্পিউটারে এইচটিএমএল, চিত্র এবং অন্যান্য ফাইল প্রাপ্ত করার অনুমতি দেয়। এইচটি ট্র্যাক মূল সাইটের আপেক্ষিক লিঙ্ক-কাঠামোটি সাজিয়েছে। আপনার ব্রাউজারে কেবল "মিররযুক্ত" ওয়েবসাইটের একটি পৃষ্ঠা খুলুন এবং আপনি লিঙ্ক থেকে লিঙ্কে সাইটটি ব্রাউজ করতে পারেন, যেন আপনি এটি অনলাইনে দেখছেন। এইচটি ট্র্যাক একটি বিদ্যমান মিররযুক্ত সাইট আপডেট করতে পারে এবং বাধা ডাউনলোডগুলি আবার শুরু করতে পারে। এইচটিট্র্যাক সম্পূর্ণরূপে কনফিগারযোগ্য এবং এতে একটি সমন্বিত সহায়তা সিস্টেম রয়েছে।


7

লিনাক্স সিস্টেমে 'উইজেট' এটি করে, অনেক বেশি।

এটি অন্যান্য বেশ কয়েকটি প্ল্যাটফর্মেও চালিত হয়েছে, যেমন অন্যান্য উত্তরগুলির উল্লেখ রয়েছে।


উইন্ডোজ ডাব্লুগেট: gnuwin32.sourceforge.net/packages/wget.htm

এটি লিনাক্স যেহেতু আমি সম্ভবত একটি উবুন্টু ভিএম তৈরি করব, উইজেট চালাব এবং ফাইলগুলি আমার হোস্ট কম্পিউটারে ফিরিয়ে দেব। দেখে মনে হচ্ছে উইন্ডোজে পোর্টিংয়ের চেয়ে দ্রুত হবে। :) (মঞ্জুর, উইন্ডোজ পোর্টিং সম্ভবত যাইহোক একটি ভাল অনুশীলন!)
জেএমডি

আমি আমার মেশিনে ডেবিয়ান চালাই। আমি কী উইজেটকে কেবলমাত্র http টি মূল ডোমেন দিয়ে সম্পর্কিত সাব ডায়ার / জাভাস্ক্রিপ্ট / সিএসএস / চিত্রগুলি পুনরুদ্ধার করতে বলতে পারি?
অভিশাপ

#

হ্যাঁ ... বা দেশীয় উইন্ডোজ বন্দর ব্যবহার করুন, বা
সাইগউইন

2

স্পষ্টতই WGet কয়েকবার উল্লেখ করা হয়েছে। আমি এটির জন্য সেরা ইউআই খুঁজে পেয়েছি

ডাব্লুগেটের জন্য আরও কয়েকটি ইউআই রয়েছে, যার মধ্যে বেশিরভাগ খারাপ ইউআই প্রশ্নের প্রার্থী


1

ফায়ারফক্সের জন্য স্ক্র্যাপবুক এক্সটেনশানটি দেখুন। এটি এতে একটি আশ্চর্যজনক কাজ করে এবং ফায়ারব্যাগের সাথে একীকরণ করে এবং আপনি চান তা সংরক্ষণ করার আগে আপনাকে DOM এর বাইরে থাকা উপাদানগুলি মুছতে দেয়।


1

আপনাকে উইজেট ব্যবহার করতে হবে - যা বেশিরভাগ প্ল্যাটফর্মের জন্য উপলব্ধ। কার্ল নথিগুলি পুনরাবৃত্তির জন্য অনুরোধ করবে না, যা উইজেটের অন্যতম প্রধান শক্তি।

লিনাক্স: (সাধারণত ডিস্ট্রোতে অন্তর্ভুক্ত) http://www.gnu.org/software/wget/
উইন্ডোজ: http://gnuwin32.sourceforge.net/packages/wget.htm
ম্যাক: http: //www.geekology। co.za/blog/2009/02/macports-compile-and-install-open-source-software-on-mac-os-x/

অনুগ্রহ করে নিশ্চিত করুন যে আপনি ওয়েবসাইটটি হাতুড়ি দিচ্ছেন না - অনুরোধগুলির মধ্যে উপযুক্ত বিলম্ব স্থাপন করুন এবং নিশ্চিত করুন এটি সাইটের পরিষেবার শর্তাদির মধ্যে রয়েছে।

-Adam


আসলে, এটি আমাদের সার্ভারগুলি যা আমরা হাতুড়ি হয়ে থাকি। সাইটটি পিএইচপি এর মাধ্যমে গতিশীলভাবে উত্পন্ন হয়েছিল এবং সিএমএস / ডিবি সাজানো ছিল সাজানো। এটি একটি বিভ্রান্তিকর গল্প, আমি বিকাশকারী যিনি এখানে এসেছিলেন। তবে আমরা এখন জ্যাঙ্গোতে সবকিছু তৈরি করছি, সুতরাং আপনার চিন্তা করার দরকার নেই।
অভিমান

1

প্রকৃতপক্ষে, জিডব্লিউল্লাসার পোস্টে আমার মন্তব্য অনুসরণ করে, আমি কেবল মনে করেছি যে আমি GnuWin32 ইনস্টল করেছি এবং নিশ্চিত যে এটিতে উইজেটের একটি উইন্ডোজ পোর্ট রয়েছে।

http://sourceforge.net/projects/gnuwin32/

GnuWin32 provides Win32-versions of GNU tools,
or tools with a similar open source licence.
The ports are native ports, that is they rely
only on libraries provided with any 32-bits
MS-Windows operating system, such as
MS-Windows 95 / 98 / 2000 / NT / XP

1

আমি কয়েক বছর আগে এটি ব্যবহার করেছি এবং এটি ভাল কাজ করেছে। উইন্ডোজ শুধুমাত্র। অ্যাডওয়্যার হিসাবে ব্যবহৃত হয় তবে আর স্পষ্টত:

http://www.webreaper.net/


1

wget --random-wait -r -p -e robots=off -U "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)" --limit-rate=20k -b http://www.example.com

  • -p : প্যারামিটার উইজেটকে চিত্র সহ সমস্ত ফাইল অন্তর্ভুক্ত করতে বলে।
  • -e robots=off : সাইট রোবটসটেক্সট বিধি উপেক্ষা করুন
  • -U "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)" : ব্যবহারকারী এজেন্ট স্ট্রিং
  • --random-wait : কালো তালিকাভুক্ত হওয়া এড়ান
  • --limit-rate=20k : এটি যে হারে ফাইল ডাউনলোড করে তা সীমাবদ্ধ করে।
  • -b : লগ আউট পরে উইজেট অবিরত।

এগুলি আমি ব্যবহার করি ms যখন জিনিসগুলি ভুল হয়ে যায় এবং আমি প্রক্রিয়াটি পুনরায় শুরু করতে হয় তখন আমি -c(বা --continue) বিকল্পও যুক্ত করি।
kub1x


আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.