উইজেট ব্যবহার করে, আসল এইচটিএমএলের পরিবর্তে জিজেপড সংস্করণ পেতে সঠিক আদেশটি কী


18

আমি এই ওয়েবসাইটটিতে হোঁচট খেয়েছি যা এ সম্পর্কে কথা বলে।

সুতরাং gzip সংস্করণ পেয়ে পুরো ওয়েবসাইটটি ডাউনলোড করার সময় ডান কমান্ডটি কী?

আমি এই আদেশটি পরীক্ষা করেছি, তবে আমি জানি না উইজেট আসলেই জিজেপড সংস্করণ পাচ্ছে:

wget --header="accept-encoding: gzip" -m -Dlinux.about.com -r -q -R gif,png,jpg,jpeg,GIF,PNG,JPG,JPEG,js,rss,xml,feed,.tar.gz,.zip,rar,.rar,.php,.txt -t 1 http://linux.about.com/

আপনি বলেছিলেন যে আপনি এই কমান্ডটি পরীক্ষা করেছেন, কিন্তু নীচে @ আইটবিটোনির উত্তরটি বলে মনে হচ্ছে যে আপনি যেটি থেকে বেরিয়ে যাবেন সেটি আরও বেশি ফাইলের জন্য সাইটের মাধ্যমে সাইটের কোনও পুনরাবৃত্তি ছাড়াই প্রথম হিটের একটি জিপিপ ফাইল হবে। আপনি কি ফলাফল পেয়েছিলেন?
কালেব

linux.about.com gzip- সংকুচিত এবং এই কমান্ডটি পুরো সাইটটিকে পুনরাবৃত্তি করে। আমি অন্য ওয়েবসাইটে এই কমান্ডটি পরীক্ষা করেছি এবং এটি পুরো সাইটকেও পুনরাবৃত্তি করে। আমি কেন কিছুটা বিভ্রান্ত হয়ে পড়েছি তা সত্যিই এটি জিপিড ভার্সনটি ডাউনলোড করুন বা না
জোমন্না

উত্তর:


19

যদি আপনি gzip'ed সামগ্রীর জন্য অনুরোধ করেন (গ্রহণযোগ্য-এনকোডিং ব্যবহার করে: gzip শিরোনাম, যা সঠিক), তবে এটি আমার বোঝা যায় যে উইজেট তখন সামগ্রীটি পড়তে পারে না। সুতরাং আপনি প্রথমে যে পৃষ্ঠাটি আঘাত করেছেন তার জন্য ডিস্কে একক, গিজিপযুক্ত ফাইলটি শেষ করবেন তবে অন্য কোনও সামগ্রী নেই।

অর্থাত্ আপনি জিজেপড সামগ্রীর জন্য অনুরোধ করতে এবং একই সাথে পুরো সাইটটি পুনরাবৃত্তি করতে উইজেট ব্যবহার করতে পারবেন না।

আমি মনে করি একটি প্যাচ রয়েছে যা উইজেটকে এই ফাংশনটি সমর্থন করতে দেয় তবে এটি ডিফল্ট বিতরণ সংস্করণে নেই।

যদি আপনি -S পতাকা অন্তর্ভুক্ত করেন তবে আপনি বলতে পারেন যে ওয়েব সার্ভারটি সঠিক ধরণের সামগ্রীর সাথে প্রতিক্রিয়া জানাচ্ছে। উদাহরণ স্বরূপ,

wget -S --header="accept-encoding: gzip" wordpress.com
--2011-06-17 16:06:46--  http://wordpress.com/
Resolving wordpress.com (wordpress.com)... 72.233.104.124, 74.200.247.60, 76.74.254.126
Connecting to wordpress.com (wordpress.com)|72.233.104.124|:80... connected.
HTTP request sent, awaiting response...
  HTTP/1.1 200 OK
  Server: nginx
  Date: Fri, 17 Jun 2011 15:06:47 GMT
  Content-Type: text/html; charset=UTF-8
  Connection: close
  Vary: Accept-Encoding
  Last-Modified: Fri, 17 Jun 2011 15:04:57 +0000
  Cache-Control: max-age=190, must-revalidate
  Vary: Cookie
  X-hacker: If you're reading this, you should visit automattic.com/jobs and apply to join the fun, mention this header.
  X-Pingback: http://wordpress.com/xmlrpc.php
  Link: <http://wp.me/1>; rel=shortlink
  X-nananana: Batcache
  Content-Encoding: gzip
Length: unspecified [text/html]

লিখিত সামগ্রী এনকোডিং স্পষ্টভাবে gzip বলেছে, তবে linux.about.com (বর্তমানে) এর জন্য,

wget -S --header="accept-encoding: gzip" linux.about.com
--2011-06-17 16:12:55--  http://linux.about.com/
Resolving linux.about.com (linux.about.com)... 207.241.148.80
Connecting to linux.about.com (linux.about.com)|207.241.148.80|:80... connected.
HTTP request sent, awaiting response...
  HTTP/1.1 200 OK
  Date: Fri, 17 Jun 2011 15:12:56 GMT
  Server: Apache
  Set-Cookie: TMog=B6HFCs2H20kA1I4N; domain=.about.com; path=/; expires=Sat, 22-Sep-12 14:19:35 GMT
  Set-Cookie: Mint=B6HFCs2H20kA1I4N; domain=.about.com; path=/
  Set-Cookie: zBT=1; domain=.about.com; path=/
  Vary: *
  PRAGMA: no-cache
  P3P: CP="IDC DSP COR DEVa TAIa OUR BUS UNI"
  Cache-Control: max-age=-3600
  Expires: Fri, 17 Jun 2011 14:12:56 GMT
  Connection: close
  Content-Type: text/html
Length: unspecified [text/html]

এটি পাঠ্য / এইচটিএমএল ফিরে আসছে।

কিছু পুরানো ব্রাউজারগুলিতে এখনও জিজিপ এনকোডযুক্ত সামগ্রী নিয়ে সমস্যা রয়েছে তাই অনেকগুলি সাইট কেবল ব্রাউজার সনাক্তকরণের ভিত্তিতে এটিকে সক্ষম করে। তারা প্রায়শই এটি ডিফল্ট হিসাবে বন্ধ করে দেয় এবং কেবল তখনই এটি চালু করে যখন তারা জানে যে ব্রাউজারটি এটি সমর্থন করতে পারে - এবং তারা সাধারণত সেই তালিকায় উইজেট অন্তর্ভুক্ত করে না। এর অর্থ এটি আপনার ব্রাউজারের জন্য সাইটটি প্রদর্শিত না হলেও আপনার উইজেট কখনই জিজপ সামগ্রী ফিরে পাবে না।


তবে আমি একগুচ্ছ ফাইল পেয়েছি, এবং একটিও জিজেপ করা ফাইল নয় ... বা আমার উইজেটের সংস্করণটি কি আলাদা? (উবুন্টু 11.04 ব্যবহার করে)
জোমন্না

যদি আপনি -S ব্যবহার করেন তবে আপনি সার্ভার থেকে শিরোনামগুলি দেখতে পেয়েছেন এবং লিনাক্স.আউটআউট.কমের বিপরীতে আপনি এটি পরিষ্কারভাবে দেখতে পাবেন এটি জিটিপ সামগ্রী নয়, এটি এইচটিএমএল ফিরে আসছে returning wget -S --header = "গ্রহণ-এনকোডিং: gzip" linux.about.com বিষয়বস্তুর ধরণ: পাঠ্য / এইচটিএমএল
আইটবিটটনি

যেহেতু সমস্ত ব্রাউজারগুলি জিজিপ এনকোডিং সমর্থন করে না (IE এর প্রধান সমস্যাগুলি রয়েছে), অনেক ওয়েবসাইট কেবলমাত্র প্রতি ব্রাউজার ভিত্তিতে জিজিপ এনকোডিং সক্ষম করে এবং উইজেটের জন্য এটি করা বিরক্ত করে না। এটি সম্ভবত ব্যাখ্যা করে যে লিনাক্স.আউটআউট.কম যখন উইজেটের কাছে জিজ্ঞাসা করা হয় তখন কেন জিপ হয় না। তবে এটি মুখ্য সমস্যাটি স্থির করে না যে (এএফআইএকে) উইজেট জিজেপড সামগ্রীগুলি পুনরাবৃত্তি করতে পারে না।
এইটবিটটনি

1
সবেমাত্র এটি চেষ্টা করেছেন: উইজেটের আউটপুট এখনও রয়েছে Content-Type: text/html; charset=UTF-8, তবে রয়েছে Content-Encoding: gzip। এটি স্বচ্ছ সংক্ষেপণ হবে না যদি এটি ব্যবহার করে মাইম টাইপের সবকিছুকে জিজিপ করতে বাধ্য করে ... আমি strace -s 128 wget ...সকেট থেকে / ডিস্কে লিখিত কিছু বাইট দেখতে আসলে ছুটে যাই । তারা নন-এএসসিআইআই। সুতরাং আমি যখন মনে করি ২০১১ সালে আপনার আদেশটি জিজেপড সংস্করণটি পায় নি, একই কমান্ডটি ২০১৫ সালে করেছিল। (উইজেট 1.15)।
পিটার কর্ডস


0

এইচটিএমএল পৃষ্ঠা পেতে এবং এটি সংকুচিত করতে বা কোনও ফাইল এবং সংকুচিত হওয়ার সহজ কমান্ড।

$ wget -qO - <url> | gzip -c > file_name.gz

বিকল্প সম্পর্কে আরও তথ্যের জন্য। man কমান্ড ব্যবহার করুন।


2
ওপি চায় যে তাদের স্থানান্তরের সময় ডেটাগুলি সংকুচিত করা উচিত (গ্রহণ-এনকোডিং:
জিজিপ
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.