আপনি কীভাবে কোনও সাইটের 1 স্তরের গভীর, জেএস, সিএসএস চিত্র সহ সিএসএস সংস্থানগুলি পুনরুদ্ধার করতে কোনও সাইটটি আয়নাতে WGET ব্যবহার করবেন?


11

ভান করুন স্থায়ী রাখার জন্য আমি একটি সাধারণ পৃষ্ঠার অনুলিপি আমার এইচডি তে ডাউনলোড করা চাই। আমি একটি গভীর পুনরাবৃত্তি প্রাপ্তির সন্ধান করছি না, কেবল একটি একক পৃষ্ঠা, তবে সেই পৃষ্ঠাটি লোড হওয়া কোনও সংস্থানও ডাউনলোড করতে হবে।

উদাহরণ: https://www.tumblr.com/

আশা:

  • সূচক। Html
  • যে কোনও লোড হওয়া চিত্র
  • যে কোনও লোড হওয়া জেএস ফাইল
  • কোনও লোড হওয়া সিএসএস ফাইল
  • সিএসএস ফাইলে লোড হওয়া কোনও চিত্র
  • ডাউনলোডকৃত অনুলিপিগুলির সাথে কাজ করার জন্য স্থানীয় সংস্থাগুলির জন্য লিঙ্কসমূহ (ওয়েব নির্ভরতা নেই)

আমি জানতে আগ্রহী যে আপনি আমাকে সেরা উইজেট সিনট্যাক্স বা অন্যান্য সরঞ্জাম এটি করতে সাহায্য করতে পারেন কিনা তা জানতে আগ্রহী। আমি যে সরঞ্জামগুলির চেষ্টা করেছি সেগুলি সিএসএস দ্বারা চিত্রগুলি লোড করতে ব্যর্থ হয়, তাই স্থানীয়ভাবে লোড হওয়ার পরে পৃষ্ঠাটি কখনই ঠিক দেখাচ্ছে না। ধন্যবাদ!

স্পর্শকাতর সমাধান

আমি ফায়ারফক্স ব্যবহার করে এটি করার একটি উপায় পেয়েছি। ডিফল্ট সেভটি নষ্ট হয়ে গেছে এবং সেখানে একটি অ্যাডন রয়েছে তাকে "সেভ কমপ্লিট" বলা হয় যা সম্ভবত এটি দিয়ে ভাল কাজ করতে পারে। তবে আপনি এটি ডাউনলোড করতে পারবেন না কারণ এটি বলছে এটি বর্তমান ফায়ারফক্স সংস্করণে সমর্থিত নয়। কারণটি হ'ল এটি এই অ্যাডনটিতে রোল করা হয়েছিল: "মোজিলা আর্কাইভ ফর্ম্যাট"। এটি ইনস্টল করুন, তারপরে আপনি যখন ফাইল> "সেভ পৃষ্ঠা হিসাবে .." ব্যবহার করেন তখন "ওয়েব পৃষ্ঠা, সম্পূর্ণ" নামে একটি নতুন বিকল্প উপস্থিত থাকে যা মূলত পুরাতন অ্যাডন থাকে, যা ফায়ারফক্স ব্যবহার করে (যা ভয়ঙ্কর) fix এটি কোনও ডাব্লুজিইটি সমাধান নয় তবে এটি একটি কার্যক্ষম সমাধান সরবরাহ করে।

সম্পাদনা: যে কেউ ভবিষ্যতে এই প্রশ্নটি অনুসরণ করতে পারে তার জন্য আরেকটি হাস্যকর বিষয়, এটি করার চেষ্টা করছেন। অ্যাডনটি সঠিকভাবে কাজ করার জন্য আপনাকে সরঞ্জামগুলি> মজিলা সংরক্ষণাগার ফর্ম্যাট করতে হবে এবং "পৃষ্ঠার একটি বিশ্বস্ত স্ন্যাপশট নিন" "স্ক্রিপ্টগুলি সংরক্ষণ করুন এবং সম্পূর্ণ সংরক্ষণ করুন ব্যবহার করে উত্স সংরক্ষণ করুন" এর ডিফল্ট সেটিংটি পরিবর্তন করতে হবে, অন্যথায় অ্যাডোনটি সমস্ত খালি হয়ে যাবে আপনার স্ক্রিপ্ট ফাইলগুলি এবং স্ন্যাপশট সেভ * / "দ্বারা সরানো স্ক্রিপ্ট" / * স্ক্রিপ্টের সাহায্যে তাদের প্রতিস্থাপন করুন।


ফাইল> ফায়ারফক্স বা অন্যান্য ব্রাউজার হিসাবে সেভ সমস্ত চিত্র,
জেএসএস

আপনি কি আসলে ফাইলগুলি চান বা আপনি কেবল পৃষ্ঠার একটি সঠিকভাবে রেন্ডার করা সংস্করণ চান?

আমি ফাইলগুলি চাই, তাদের যেভাবেই হোক পৃষ্ঠাটি সঠিকভাবে সরবরাহ করা প্রয়োজন। আপনার না থাকলে এটি অন্যরকম দেখায়। ফাইল> সেভ অ্যাস ফায়ারফক্সে কাজ করে না। আপনি যদি এটি করেন তবে আপনি CSS চিত্রগুলি পাবেন না। এটি চেষ্টা করুন tumblr.com / লগইনে । পটভূমি চিত্র অনুপস্থিত, ইনপুট ক্ষেত্রগুলির জন্য বিজি চিত্র অনুপস্থিত।

উইজেটের সমাধানগুলির কোনওটিই আমার পক্ষে কাজ করেনি। এই জাতীয় সাইট সাশ্রয় অর্জনের জন্য আমার ট্যানজেন্ট সলিউশন হ'ল সেরা পদ্ধতি। যাইহোক, আমি এটি অ্যাপল ডটকমের মতো খুব জটিল পৃষ্ঠায় ব্যর্থ হতে দেখেছি , সম্ভবতঃ কারণ প্রচুর সংস্থানগুলি জাভাস্ক্রিপ্ট সম্পাদন করে গতিশীলভাবে উত্পন্ন হয়েছে, কিছু সরাসরি অবিলম্বে নয় তবে কিছু ধরণের এজ্যাক এক্সিকিউশন চলাকালীন।
লানা মিলার

উত্তর:


12

wget -p -k http://ExampleSite.com

-P আপনাকে সাইটটি সঠিকভাবে দেখতে (সিএসএস, চিত্র ইত্যাদি) প্রয়োজনীয় সমস্ত উপাদান সরবরাহ করবে। অনলাইনে প্রদর্শিত হওয়ার সাথে সাথে পৃষ্ঠাটি অফলাইনে দেখার অনুমতি দেওয়ার জন্য--কে সমস্ত লিঙ্ক (সিএসএস এবং চিত্রগুলির জন্য অন্তর্ভুক্ত করার জন্য) পরিবর্তন করবে।

আপডেট: এটি আপনার উদাহরণ সাইটের জন্য নির্দিষ্ট: tumblr.com

wget -H -N -k -p --exclude-domains quantserve.com --no-check-certificate -U "Mozilla/5.0 (Windows NT 6.1; WOW64; rv:6.0a2) Gecko/20110613 Firefox/6.0a2" https://www.tumblr.com

ভাঙ্গন:

-এইচ = বিদেশী হোস্ট স্প্যান করতে উইজেটকে অনুমতি দেয়। যেহেতু টম্বলারের একই চিত্রের প্রথম পৃষ্ঠায় এর চিত্র না থাকে, তাই তারা নিরাপদ.আসেটস.টাম্বলআর.কম ব্যবহার করে ডোমেনগুলি বাদ দিলে দেখুন

-এন = কেবলমাত্র সেই ফাইলগুলিকেই নতুন করে তুলবে যা আপনার কাছে বর্তমানে যা আছে, যদি একই সময়ের সাথে আপনি একই পৃষ্ঠাটি আবার ডাউনলোড করেন তবে

-k = আপনার লিঙ্কগুলি এটিকে অফলাইনে দেখতে সঠিকভাবে রূপান্তর করুন

-p = এটি প্রয়োজনীয়ভাবে দেখার জন্য প্রয়োজনীয় সমস্ত উপাদানকে ধরে ফেলে (সিএসএস, চিত্রগুলি, ইত্যাদি)

--excolve-domains = যেহেতু tumblr.com হোমপেজের কোয়ান্টজারভোজন.কমের জন্য একটি লিঙ্ক রয়েছে এবং আমি অনুমান করছি যে আপনি এই জিনিসটি চান না, তাই আপনার এটি আপনার উইজেট ডাউনলোড থেকে বাদ দিতে হবে। দ্রষ্টব্য : এটি একটি দুর্দান্ত গুরুত্বপূর্ণ যা আপনাকে এইচ-এর সাথে ব্যবহার করা উচিত কারণ আপনি যদি কোনও সাইটে যান এবং তাদের বাইরের হোস্টের জন্য একাধিক লিঙ্ক রয়েছে (বিজ্ঞাপনদাতারা এবং বিশ্লেষণী জিনিসগুলি ভাবেন) তবে আপনি সেই জিনিসটিও দখল করতে চলেছেন!

টুম্বলার https ব্যবহার করার কারণে - নন-চেক-শংসাপত্রের প্রয়োজন

-উ ব্যবহারকারী-এজেন্ট পরিবর্তন করে। এই ক্ষেত্রে সত্যই প্রয়োজনীয় নয় যেহেতু এটি ডিফল্ট উইজেট ব্যবহারকারী-এজেন্টকে অনুমতি দেয় তবে আমি জানি কিছু সাইট এটি ব্লক করবে। আপনি যদি অন্য সাইটে কোনও সমস্যায় পড়েন তবে আমি কেবল এটি এখানে ছুঁড়েছি। আমি যে স্নিপেটটি দিয়েছি তাতে এটি মজিলা ফায়ারফক্স 6.02 এ হিসাবে উপস্থিত হয়

শেষ পর্যন্ত আপনার কাছে সাইটটি রয়েছে: https://www.tumblr.com


1
আমি এটি চেষ্টা করেছি, কোনও জেএস বা সিএসএস বা চিত্র ফাইল পাইনি। তুমি কি?

আপনি যদি এটি টিম্বলারে ব্যবহার করেন (উপরে আপনার উদাহরণ), আপনাকে - না-চেক-শংসাপত্র নির্দিষ্ট করতে হতে পারে।

আমি মনে করি আপনি ঠিক বলেছেন, সম্ভবত এটি বিকল্পের দরকার নেই। তবুও সূচিপত্র ছাড়াও কিছুই নয় t কিছু অনুপস্থিত ...

@ লানা মিলার আমি আমার উত্তর আপডেট করেছি। কোনও সমস্যা আছে কিনা তা আমাকে জানান।

আপনি কী-এক্সক্লুড-ডোমেনসের মতো কিছু করতে পারবেন না! = Tumblr.com?
alpha1

3

আপনি উল্লিখিত নির্দিষ্ট সাইটের জন্য এবং আরও অনেকে কোডেড করেছেন যেমন উইজেট (এবং কার্ল) কেবল কাজ করবে না। সমস্যাটি হ'ল ব্রাউজারে পৃষ্ঠাটি রেন্ডার করার জন্য প্রয়োজনীয় কিছু সম্পদ লিঙ্কগুলি নিজেরাই জাভাস্ক্রিপ্টের মাধ্যমে তৈরি করা হয়েছে। জাভাস্ক্রিপ্ট চালানোর জন্য উইজেটের একটি বৈশিষ্ট্য অনুরোধ রয়েছে:

http://wget.addictivecode.org/FeatureSpecifications/JavaScript

তবে যতক্ষণ না জাভাস্ক্রিপ্ট ব্যবহার করে সম্পদ লিঙ্ক তৈরি করে এমন সম্পূর্ণ সাইটগুলি উইজেট ব্যবহার করে ক্লোনযোগ্য হবে না। সবচেয়ে সহজ সমাধানটি হ'ল কোনও ডিভাইস যা আসলে একটি ডিওএম তৈরি করছে এবং একটি ব্রাউজার ইঞ্জিনের মতো জাভাস্ক্রিপ্টকে পার্সিং করছে (যেমন আপনি উল্লেখ করেছেন ফায়ারফক্স পদ্ধতি)।


1

আপনি উইজেটের সাহায্যে শেলটির মাধ্যমে একটি কমান্ড জারি করে এটি স্বয়ংক্রিয়ভাবে (বা আপনি কোডিং করা হলে প্রোগ্রামক্রমে) করতে পারেন:

wget --convert-links -r http://www.yourdomain.com

এটি পৃষ্ঠা এবং অভ্যন্তরীণ ফাইলগুলি ডাউনলোড করবে এবং লিঙ্কগুলি স্থানীয় করে তুলবে।


1
এই পাবেন সবকিছু । প্রশ্ন পড়া.
ধর্মপ্রচারক

-1
wget -r http://www.example.com

আমি মনে করি এটি সবকিছু দখল করবে, তবে এটিকে শট দিন এবং খুঁজে বের করুন।


1
এটি সব কিছু পায় যা অনেক বেশি। এখন পর্যন্ত আমি যে ফায়ারফক্স সলিউশন পেয়েছি সেটি হ'ল সেরা কার্যক্ষম সমাধান। এটি আপনার যা প্রয়োজন তা পায় এবং এর চেয়ে বেশি কিছুই নয়।

-1

man ( ম্যান উইজেট ):

-p

--page অপরিহার্য বিষয়গুলি

এই বিকল্পের ফলে উইজেটকে প্রদত্ত এইচটিএমএল পৃষ্ঠাটি সঠিকভাবে প্রদর্শন করার জন্য প্রয়োজনীয় সমস্ত ফাইল ডাউনলোড করতে দেয়। এতে অন্তর্ভুক্ত চিত্র, শব্দ এবং রেফারেন্সযুক্ত স্টাইলশিটগুলির মতো জিনিস রয়েছে।

সাধারণত, একটি একক এইচটিএমএল পৃষ্ঠা ডাউনলোড করার সময়, এটি যথাযথভাবে প্রদর্শনের জন্য প্রয়োজনীয় যে কোনও ডকুমেন্টগুলি ডাউনলোড করা হয় না। -L এর সাথে একসাথে ব্যবহার সাহায্য করতে পারে তবে উইজেট যেহেতু বাহ্যিক এবং অন্তর্নিহিত নথিগুলির মধ্যে সাধারণভাবে পার্থক্য রাখে না, তাই সাধারণত '' পাতাযুক্ত নথিগুলি '' রেখে যায় যা তাদের প্রয়োজনীয় জিনিসগুলি হারিয়ে যায়।

উদাহরণস্বরূপ, বলুন ডকুমেন্টটি 1. এইচটিএমএলে একটি "<IMG>" ট্যাগ রেফারেন্সিং রয়েছে 1.gif এবং একটি "<A>" ট্যাগ বাইরের ডকুমেন্ট 2.html এ নির্দেশ করে। বলুন যে ২.এইচটিএমএল অনুরূপ তবে এটির চিত্রটি ২. জিআইএফ এবং এটি ৩.এইচটিএমএলের সাথে লিঙ্ক রয়েছে। বলুন এটি কিছু নির্বিচারে উচ্চ সংখ্যা পর্যন্ত অব্যাহত রয়েছে।

যদি কেউ আদেশটি কার্যকর করে:

wget -r -l 2 http: // <site> /1.html

তারপরে 1.html, 1.gif, 2.html, 2.gif, এবং 3.html ডাউনলোড হবে। যেমন আপনি দেখতে পাচ্ছেন, 3.html এর প্রয়োজনীয় 3.Gif ছাড়াই রয়েছে কারণ পুনরাবৃত্তিটি কোথায় থামানো যায় তা নির্ধারণ করার জন্য ওয়াগেট কেবল 1.html থেকে দূরে হપ્સের সংখ্যা (2 অবধি) গণনা করছে। তবে, এই আদেশ সহ:

wget -r -l 2 -p http: // <site> /1.html

উপরের সমস্ত ফাইল এবং 3.html এর প্রয়োজনীয় 3.gif ডাউনলোড করা হবে। একইভাবে,

wget -r -l 1 -p http: // <site> /1.html

ডাউনলোডের জন্য 1.html, 1.gif, 2.html এবং 2.gif সৃষ্টি করবে। কেউ মনে করতে পারে যে:

wget -r -l 0 -p http: // <site> /1.html

মাত্র 1.html এবং 1.gif ডাউনলোড করবে, তবে দুর্ভাগ্যক্রমে এটি হয় না, কারণ -l 0 -l inf এর সমান --- অর্থাৎ অসীম পুনরাবৃত্তি। একটি একক এইচটিএমএল পৃষ্ঠা ডাউনলোড করতে (বা তাদের মধ্যে কয়েকটি মুখ্য কমান্ড-লাইনে বা একটি -i ইউআরএল ইনপুট ফাইলে নির্দিষ্ট করা) এবং এর (বা তাদের) প্রয়োজনীয়তাগুলি কেবল অফ -r এবং -l ছেড়ে যান:

wget -p http: // <site> /1.html

নোট করুন যে উইজেট এমন আচরণ করবে যেমন -r নির্দিষ্ট করা হয়েছিল তবে কেবলমাত্র একটি একক পৃষ্ঠা এবং এর প্রয়োজনীয় জিনিসগুলি ডাউনলোড করা হবে। বাহ্যিক নথিতে সেই পৃষ্ঠা থেকে লিঙ্কগুলি অনুসরণ করা হবে না। প্রকৃতপক্ষে, একটি একক পৃষ্ঠা এবং তার প্রয়োজনীয় সমস্তগুলি ডাউনলোড করার জন্য (সেগুলি পৃথক ওয়েবসাইটে উপস্থিত থাকলেও) এবং স্থানীয়ভাবে লটটি সঠিকভাবে প্রদর্শিত হচ্ছে কিনা তা নিশ্চিত করতে এই লেখক -p এর সাথে কয়েকটি বিকল্প ব্যবহার করতে পছন্দ করেন:

wget -E -H -k -K -p http: // <site> / <ডকুমেন্ট & জিটি ;

এই বিষয়টি শেষ করতে, এটি জেনে রাখা বাহ্যিক যে কোনও বাহ্যিক ডকুমেন্ট লিঙ্কের সম্পর্কে উইজেটের ধারণাটি কোনও "<A>" ট্যাগ, একটি "<AREA>" ট্যাগ, বা "<LINK>" ট্যাগে << লিঙ্ক রেল = "স্টাইলশিট"> "।


2
এর কোন অংশটি সমাধানের সাথে সাদৃশ্যপূর্ণ বলে মনে করেন? কারণ আমি ম্যান পৃষ্ঠার সামগ্রীগুলি পড়ার চেষ্টা করেছি এবং আমি এখানে সঠিক সমাধান দেখতে পাচ্ছি না। আপনি নিজেই এর কোন একটি চেষ্টা করেছেন? আপনি কি মনে করেন যে আদেশটি হ'ল বিশেষত প্রশ্নটিকে উদ্দেশ্য করে।
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.