আর্কাইভ ওয়েবসাইটটি আয়নাতে উইজেট বা এইচটি ট্র্যাক ব্যবহার করে সমস্যা


12

আমি কোনও ওয়েবসাইটের স্থানীয় আয়না তৈরি করতে উইজেটটি ব্যবহার করার চেষ্টা করছি। তবে আমি সন্ধান করছি যে আমি সমস্ত লিঙ্কিং পৃষ্ঠা পাচ্ছি না।

এখানে ওয়েবসাইট

http://web.archive.org/web/20110722080716/http://cst-www.nrl.navy.mil/lattice/

আমি সব পৃষ্ঠাগুলি দিয়ে শুরু করতে চাই না web.archive.org, কিন্তু আমি সব পৃষ্ঠাগুলি দিয়ে শুরু চাও http://web.archive.org/web/20110722080716/http://cst-www.nrl.navy.mil/lattice/

আমি যখন ব্যবহার করি তখন wget -rআমার ফাইলের কাঠামোয় আমি খুঁজে পাই

web.archive.org/web/20110722080716/http://cst-www.nrl.navy.mil/lattice/index.html,

তবে আমার কাছে সমস্ত ফাইল নেই যা এই ডাটাবেসের অংশ, যেমন

web.archive.org/web/20110808041151/http://cst-www.nrl.navy.mil/lattice/struk/d0c.html.

সম্ভবত httrack আরও ভাল করতে পারে, কিন্তু এই মুহূর্তে এটি খুব বেশি দখল করেছে।

সুতরাং, কোন উপায়ে ইন্টারনেট আর্কাইভ ওয়েব্যাক মেশিন থেকে কোনও আর্কাইভ ওয়েবসাইটের স্থানীয় অনুলিপি গ্রহণ করা সম্ভব ?


মানুষ! আমি ঠিক একই পৃষ্ঠাটি মিরর করার চেষ্টা করেছি (এবং সত্যই রাগান্বিত হই যে মূল সাইটটি অনলাইনে থাকাকালীন আমি তা করি নি, যা আরও সহজ হয়ে যেত)। আমি মনে করি যে একটি সমস্যা হ'ল যে সমস্ত ফাইল 20110722080716স্ন্যাপশটের অধীনে অ্যাক্সেসযোগ্য নয় , সুতরাং উইজেটের -npবিকল্পটি কোনও সাহায্য করবে না।
এমপি

অনুপস্থিত পৃষ্ঠাগুলি আসলে সংরক্ষণাগারভুক্ত হয়েছে তা আপনি নিজে নিজে পরীক্ষা করেছেন? সংরক্ষণাগার.অর্গ সর্বদা প্রতিটি পৃষ্ঠা সংরক্ষণাগার রাখে না।
nitro2k01

উত্তর:


20

সহায়ক হওয়ার পরেও পূর্বের প্রতিক্রিয়াগুলি সংক্ষিপ্তভাবে, নির্ভরযোগ্যভাবে এবং বারবার অন্তর্নিহিত প্রশ্নটি সমাধান করতে ব্যর্থ। এই পোস্টে, আমরা প্রতিটিগুলির সাথে সংক্ষিপ্তসারগুলি সংক্ষেপে বিশদভাবে বর্ণনা করি এবং তারপরে একটি পরিমিত- httrackভিত্তিক সমাধান অফার করি ।

পটভূমি

যাইহোক, আমরা এটিতে পৌঁছানোর আগে এমপির সু-লিখিত প্রতিক্রিয়া অনুধাবন করার বিষয়টি বিবেচনা করুন । এইচ [ ইস | এর] দুর্ভাগ্যক্রমে অবহেলিত পোস্টে, এমপি কঠোরভাবে ওয়েব্যাক মেশিনের অস্পষ্ট (এবং সত্যই অবহেলিত ) সংরক্ষণাগার প্রকল্পটি নথিভুক্ত করেছেন।

আশ্চর্যজনকভাবে, এটি সুন্দর নয়। কোনও একক ডিরেক্টরিতে বুদ্ধিমানভাবে সংরক্ষণাগার স্থাপনের পরিবর্তে দ্য ওয়েব্যাক মেশিন দুটি বা ততোধিক সংখ্যায় চিহ্নিত ভাইবাল ডিরেক্টরিতে একক সাইট ছড়িয়ে দেয়। এটি বলার অপেক্ষা রাখে না যে এটি মিররিংকে জটিল করে তোলে একটি যথেষ্ট পরিমাণের হ্রাস করা হবে।

এই স্কিম দ্বারা উপস্থাপিত ভয়াবহ সমস্যাগুলি বোঝা পূর্বের সমাধানগুলির অপ্রতুলতা বোঝার মূল বিষয়। এর সাথে চলুন, আমরা কি করব?

পূর্ব সমাধান 1: উইজেট

ওয়্যাকব্যাক মিররিংয়ের জন্য প্রস্তাবিত সম্পর্কিত স্ট্যাকওভারফ্লো প্রশ্ন "ওয়েবব্যাকম্যাচিন বন্ধ পুরানো ওয়েবসাইট পুনরুদ্ধার" সম্ভবত এই ক্ষেত্রে সবচেয়ে খারাপ অপরাধী wget। স্বাভাবিকভাবেই, সেই প্রস্তাবটি মৌলিকভাবে নিরবচ্ছিন্ন।

জটিল বাহ্যিক ইউআরএল পুনর্লিখনের অনুপস্থিতিতে (যেমন, Privoxy) wgetওয়েবেব্যাক-সংরক্ষণাগারভুক্ত সাইটগুলি নির্ভরযোগ্যভাবে মিরর করতে ব্যবহার করা যাবে না। "সমস্যা 2 + সমাধান" এর অধীনে এমপি সম্পর্কিত বিবরণ হিসাবে, আপনি যে কোনও মিররিংয়ের সরঞ্জাম চয়ন করেন তা আপনাকে লক্ষ্য সাইটের অন্তর্ভুক্ত কেবলমাত্র ইউআরএলগুলি অ-স্থানান্তরিতভাবে ডাউনলোড করতে দেয়। ডিফল্টরূপে, বেশিরভাগ মিররিংয়ের সরঞ্জামগুলি সেই সাইট থেকে লিঙ্কযুক্ত টার্গেট সাইট এবং সাইট উভয়ের সাথে সম্পর্কিত সমস্ত URL গুলি ট্রানজিটিভ ডাউনলোড করে - যা সবচেয়ে খারাপ ক্ষেত্রে "পুরো ইন্টারনেট" এর অর্থ।

একটি দৃ concrete় উদাহরণ ক্রমযুক্ত। উদাহরণ ডোমেনটি মিরর করার সময় kearescue.comআপনার মিররিংয়ের সরঞ্জামটি অবশ্যই :

  • মিলে থাকা সমস্ত ইউআরএল অন্তর্ভুক্ত করুন https://web.archive.org/web/*/http://kearescue.com। এগুলি লক্ষ্য সাইটের দ্বারা সরবরাহ করা সম্পদ (যেমন, https://web.archive.org/web/20140521010450js_/http_/kearescue.com/media/system/js/core.js)।
  • অন্যান্য সমস্ত ইউআরএল বাদ দিন। এগুলি লক্ষ্যমাত্রা সাইটের (যেমন, https://web.archive.org/web/20140517180436js_/https_/connect.facebook.net/en_US/all.js) কেবলমাত্র লিঙ্কযুক্ত অন্যান্য সাইট দ্বারা সরবরাহিত সম্পদ ।

এই জাতীয় ইউআরএলগুলি বাদ দিতে ব্যর্থতা সাধারণত সাইট সংরক্ষণাগারভুক্ত করার সময় বিশেষভাবে বাহ্যিক-হোস্ট করা সম্পদ এম্বেড করা সাইটের জন্য (যেমন, ইউটিউব ভিডিও) ইন্টারনেটের সমস্ত বা বেশিরভাগ ইন্টারনেটের দিকে টান দেয়।

এটা খারাপ হবে। যদিও wget করে একটি কম্যান্ড-লাইন প্রদান --exclude-directoriesএক বা একাধিক URL গুলি মিলে বাদ দিতে হবে নিদর্শন গ্রহণ বিকল্প, সেগুলি হল না সাধারণ রেগুলার এক্সপ্রেশনের; তারা সরল globs যার করছি *সিনট্যাক্স ম্যাচ শূন্য বা তার বেশি অক্ষরের ব্যতীত/ । যেহেতু URL গুলি বাদ দিতে হবে ইচ্ছামত অনেক ধারণ /অক্ষর, wget না পারেন, এই URL গুলি অগ্রাহ্য করতে ব্যবহার করা যেতে তাই না পারেন, আয়না Wayback-সংরক্ষণাগার সাইট ব্যবহৃত হবে না। সময়কাল। দুর্ভাগ্যজনক গল্পের সমাপ্তি।

এই সমস্যাটি কমপক্ষে ২০০৯ সাল থেকে সর্বজনীন রেকর্ডে রয়েছে It এটি এখনও সমাধান হয়নি has পরবর্তী!

পূর্ব সমাধান 2: স্ক্র্যাপবুক

প্রিন্স সুপারিশ করেন ScrapBook, একটি ফায়ারফক্স প্লাগইন। একটি ফায়ারফক্স প্লাগইন।

আপনার সম্ভবত এটি জানা দরকার ছিল। যদিও ScrapBookএর Filter by String...কার্যকারিতা নেই ঠিকানা উপরোক্ত "সমস্যা 2+ সমাধান," এটা কী না পরবর্তী "সমস্যা 3 + + সমাধান 'ঠিকানা - যেমন, বিদেশী সদৃশ সমস্যা।

এটি ScrapBookপূর্ববর্তী সমস্যাটিকে পর্যাপ্তভাবে সম্বোধন করে কিনা তা প্রশ্নবিদ্ধ । এমপি যেমন স্বীকার করেছেন:

যদিও স্ক্র্যাপবুক পুরোপুরি সাইটটি দখল করতে ব্যর্থ হয়েছে ...

অবিশ্বাস্য ও অতিরিক্ত সরল সমাধান হ'ল অ-সমাধান। পরবর্তী!

পূর্ব সমাধান 3: উইজেট + প্রিভোক্সি

এমপি তারপর wgetএবং উভয়ই উপকারী একটি শক্তিশালী সমাধান সরবরাহ করে Privoxy। কনফিগার করার wget পক্ষে যুক্তিসঙ্গতভাবে সহজ যদিও যুক্তিসঙ্গত Privoxyকিছু নয়। বা সাধারণ।

সঠিকভাবে ইনস্টল, কনফিগার করা এবং ব্যবহারের অদম্য প্রযুক্তিগত প্রতিবন্ধকতার কারণে Privoxyআমরা এখনও এমপির সমাধানটি নিশ্চিত করতে পারি নি । এটি একটি স্কেলযোগ্য, শক্তিশালী উপায়ে কাজ করা উচিত । প্রবেশের পথে প্রতিবন্ধকতাগুলি দেওয়া, এই গড়পড়তা ছোট থেকে মাঝারি স্তরের সাইটগুলি পুনরুদ্ধার করার চেষ্টা করা গড় ওয়েবমাস্টারের চেয়ে বড় মাপের অটোমেশনের পক্ষে সম্ভবত আরও উপযুক্ত।

কি wget+ + Privoxyমূল্য একটি চেহারা? একেবারে। তবে বেশিরভাগ সুপারইউসারগুলি আরও সহজ, আরও সহজেই প্রয়োগযোগ্য সমাধানগুলির দ্বারা আরও ভালভাবে পরিবেশন করা হতে পারে।

নতুন সমাধান: এইচটি ট্র্যাক

প্রবেশ করান httrack, একটি কমান্ড-লাইন ইউটিলিটি wgetএর মিররিং কার্যকারিতাটির একটি সুপারসেট বাস্তবায়ন করে। httrackপ্যাটার্ন-ভিত্তিক ইউআরএল বহিষ্কার এবং সরল সাইট পুনর্গঠন উভয় সমর্থন করে । প্রাক্তন এমপি'র "সমস্যা 2 + সমাধান" সমাধান করে; দ্বিতীয়টি, "সমস্যা 3 + সমাধান"।

নীচের বিমূর্ত উদাহরণে, প্রতিস্থাপন করুন:

  • ${wayback_url}আপনার টার্গেট সাইটের সম্পূর্ণতা সংরক্ষণ করে (যেমন, 'https://web.archive.org/web/20140517175612/http://kearescue.com') শীর্ষ-স্তরের ডিরেক্টরি URL এর মাধ্যমে ।
  • ${domain_name}উপসর্গ (যেমন, ) ${wayback_url}বাদ দিয়ে একই ডোমেন নাম দ্বারা byhttp://'kearescue.com'

এখানে আমরা যাই। আপনি যে সাইটটি ডাউনলোড করতে চান সেগুলি স্থানীয় ডিরেক্টরিতে ইনস্টল করুন httrack, একটি টার্মিনাল উইন্ডোটি খুলুন cdএবং নীচের কমান্ডটি চালান:

httrack\
    ${wayback_url}\
    '-*'\
    '+*/${domain_name}/*'\
    -N1005\
    --advanced-progressinfo\
    --can-go-up-and-down\
    --display\
    --keep-alive\
    --mirror\
    --robots=0\
    --user-agent='Mozilla/5.0 (X11;U; Linux i686; en-GB; rv:1.9.1) Gecko/20090624 Ubuntu/9.04 (jaunty) Firefox/3.5'\
    --verbose

সমাপ্তির পরে, বর্তমান ডিরেক্টরিতে সেই URL থেকে মিরর করা প্রতিটি ফাইল টাইপের জন্য একটি উপ-ডিরেক্টরি থাকতে হবে। এর মধ্যে সাধারণত অন্তত অন্তর্ভুক্ত থাকে:

  • cssসমস্ত মিররড সিএসএস স্টাইলশিট রয়েছে।
  • htmlসমস্ত মিররযুক্ত এইচটিএমএল পৃষ্ঠা রয়েছে।
  • js, সমস্ত মিররযুক্ত জাভাস্ক্রিপ্ট রয়েছে।
  • ico, একটি মিররযুক্ত ফেভিকনযুক্ত।

যেহেতু httrackঅভ্যন্তরীণভাবে এই কাঠামোর প্রতিবিম্বিত করার জন্য সমস্ত ডাউনলোডকৃত সামগ্রী পুনর্লিখন করে, আপনার সাইটটি এখন পরিবর্তন ছাড়াই ব্রাউজযোগ্য হওয়া উচিত। আপনি যদি অকাল সময়ের আগে উপরের কমান্ডটি থামিয়ে দিয়ে ডাউনলোড করা চালিয়ে --continueযেতে চান তবে ঠিক একই কমান্ডটিতে বিকল্পটি যুক্ত করুন এবং আবার চেষ্টা করুন।

এটাই. কোনও বাহ্যিক সংযোজন, ত্রুটি-প্রবণতাযুক্ত ইউআরএল পুনর্লিখন, বা নিয়ম-ভিত্তিক প্রক্সি সার্ভারের প্রয়োজন নেই।

উপভোগ করুন, সহকর্মীরা।


কমপক্ষে একজন ব্যক্তি আমার উত্তর পুরোপুরি পড়লেন শুনে আমি আনন্দিত। এবং আপনার আরও বিশ্লেষণ এবং httrack সমাধানের জন্য ধন্যবাদ। +1
এমপি

1
এইচটি ট্র্যাক সমাধানটি নিখুঁত ছিল, আপনাকে অনেক ধন্যবাদ!
ক্রিসচিন্চিল্লা

নাবিকরা নাবালিক সাহায্যে পেরে আনন্দিত। হতাশ-ছলনার এই টেপস্ট্রিটি কীভাবে উদ্ঘাটিত হয়েছিল তা বুঝতে পেরে আমাকে কেবল নিজের অনুসন্ধানগুলি ভাগ করে নিতে হয়েছিল
সিসিল কারি

হার স্থানান্তর সীমাটি সরাতে এই পরামিতিগুলি যুক্ত করুন: - অক্ষম-সুরক্ষা-সীমাবদ্ধতা - ম্যাক্স-রেট = 0
ওসওয়াল্ডো

7

দুর্ভাগ্যক্রমে কোনও উত্তর আর্কাইভ ওয়েবসাইট থেকে সম্পূর্ণ আয়না তৈরির সমস্যার সমাধান করতে সক্ষম হয় নি (প্রতি ফাইলকে কয়েকবার নকল না করে)। সুতরাং আমি একসাথে অন্য পদ্ধতি হ্যাক। হ্যাক হ'ল গুরুত্বপূর্ণ শব্দ কারণ আমার সমাধানটি সাধারণ সমাধান না খুব সাধারণ (পড়ুন: অনুলিপি এবং পেস্ট করুন) one আমি উইজেটের সাথে মিরর করার সময় ফ্লাই-অন-ফ্লাইয়ে পুনরায় লেখার জন্য প্রিয়ভোক্সি প্রক্সি সার্ভার ব্যবহার করেছি ।

তবে প্রথমে, ওয়েব্যাক মেশিন থেকে আয়না সম্পর্কে এত কঠিন কী ?

সমস্যা 1 + সমাধান

ওয়াইব্যাক সরঞ্জামদণ্ডটি ইন্টারেক্টিভ ব্যবহারের জন্য সহজ, তবে উইজেটে হস্তক্ষেপ করতে পারে। সুতরাং এটি একটি প্রাইভোক্সি ফিল্টার নিয়ম দিয়ে পরিত্রাণ পান

FILTER: removewaybacktoolbar remove Wayback toolbar
s|BEGIN WAYBACK TOOLBAR INSERT.*END WAYBACK TOOLBAR INSERT|Wayback Toolbar removed|s

সমস্যা 2 + সমাধান

আমি পুরো সাইটটি ক্যাপচার করতে চেয়েছিলাম, তাই খুব কম সংখ্যক সংখ্যক পুনরাবৃত্তির গভীরতাও প্রয়োজন। তবে আমি চাই না যে উইজেট পুরো সার্ভারটি ক্রল করবে। সাধারণত আপনি সেই উদ্দেশ্যে উইজেটের নো-প্যারেন্ট বিকল্পটি ব্যবহার করেন -np। তবে এটি এখানে কাজ করবে না, কারণ আপনি পেতে চান

http://web.archive.org/web/ 20110722080716 /http://cst-www.nrl.navy.mil/lattice/struk/hcp.html

কিন্তু

http://web.archive.org/web/ 20110801041529 /http://cst-www.nrl.navy.mil/lattice/struk/a_f.html

(পাথগুলির পরিবর্তিত টাইমস্ট্যাম্পটি লক্ষ্য করুন)। ছাড় দেওয়া উইজেট -npপর্যন্ত ক্রলিংয়ের অবসান ঘটবে এবং শেষ পর্যন্ত (...)http://cst-www.nrl.navy.milপুরো navi.milসাইটটি পুনরুদ্ধার করবে । আমি অবশ্যই তা চাই না! সুতরাং এই ফিল্টারটি -npওয়েব্যাক মেশিনের সাথে আচরণ অনুকরণ করার চেষ্টা করে :

FILTER: blocknonparentpages emulate wget -np option
s|/web/([0-9].*)/http://cst-www.nrl.navy.mil/lattice/|THIS_IS_A_GOOD_$1_ADDRESS|gU
s|/web/(.*)/http(.*)([" ])|http://some.local.server/404$3|gU
s|THIS_IS_A_GOOD_(.*)_ADDRESS|/web/$1/http://cst-www.nrl.navy.mil/lattice/|gU

আমি সিনট্যাক্সটি খননের জন্য অনুশীলন হিসাবে ছেড়ে দেব। এই ফিল্টার করে নিম্নোক্ত: এটা মত সব Wayback URL গুলি প্রতিস্থাপন http://web.archive.org/web/20110801041529/http://www.nrl.navy.mil/সঙ্গে http://some.local.server/404যতদিন তারা না না থাকতে http://cst-www.nrl.navy.mil/lattice/

আপনাকে সামঞ্জস্য করতে হবে http://some.local.server/404। এটি উইজেটে 404 ত্রুটি প্রেরণ করা হয়। সম্ভবত প্রাইভোক্সি আরও বেশি মার্জিত করতে পারে। যাইহোক, আমার পক্ষে সবচেয়ে সহজ উপায়টি ছিল কেবলমাত্র স্থানীয় HTTP সার্ভারে অস্তিত্বহীন পৃষ্ঠার লিঙ্কটি পুনরায় লেখার জন্য, তাই আমি এটির সাথে আটকে গেলাম।

এবং, আপনার কাছে ঠিক করতে উভয় occurences এর http://cst-www.nrl.navy.mil/lattice/সাইট মিরর করতে চান প্রতিফলিত।

সমস্যা 3 + সমাধান

এবং অবশেষে কোনও পৃষ্ঠার কিছু সংরক্ষণাগারযুক্ত সংস্করণ অন্য স্ন্যাপশটের পৃষ্ঠায় লিঙ্ক করতে পারে। এবং এটি এখনও অন্য এক। এবং এইভাবেই ... এবং আপনি একই পৃষ্ঠার প্রচুর স্ন্যাপশট সহ শেষ করবেন - এবং উইজেট কখনই সমস্ত স্ন্যাপশট না এনে শেষ করতে সক্ষম হবে না । আমি সত্যিই তা চাই না, না! এখানে এটি অনেক সাহায্য করে, যে ওয়েব্যাক মেশিনটি খুব স্মার্ট। আপনি একটি ফাইল অনুরোধ করতে পারেন

http://web.archive.org/web/ 20110801041529 /http://cst-www.nrl.navy.mil/lattice/struk/a_f.html

এমনকি এটি 20110801041529স্ন্যাপশটে অন্তর্ভুক্ত না থাকলেও । এটি স্বয়ংক্রিয়ভাবে আপনাকে সঠিকটির দিকে পুনঃনির্দেশ করে:

http://web.archive.org/web/ 20110731225728 /http://cst-www.nrl.navy.mil/lattice/struk/a_f.html

সুতরাং, সর্বাধিক সাম্প্রতিক একটিতে সমস্ত স্ন্যাপশট পুনরায় লেখার জন্য অন্য একটি প্রাইভোক্সি ফিল্টার

FILTER: rewritewaybackstamp rewrite Wayback snapshot date
s|/([0-9]{14})(.{0,3})/|/20120713212803$2/|g

কার্যকরভাবে অন্তর্ভুক্ত প্রতিটি 14-সংখ্যার নম্বরটি /.../প্রতিস্থাপন হয়ে যায় 20120713212803(এটি আপনার পছন্দসই সাইটের সর্বাধিক স্ন্যাপশটের সাথে সামঞ্জস্য করুন)। সাইট কাঠামোতে ওয়েবব্যাক মেশিন থেকে উদ্ভূত না থাকলে এই জাতীয় সংখ্যা থাকতে পারে। নিখুঁত নয়, তবে স্ট্রুক্টুরটাইপেন সাইটের জন্য জরিমানা ।

তার সম্পর্কে দুর্দান্ত জিনিসটি হ'ল, সেই উইজেটটি নতুন স্থানটিকে উপেক্ষা করে যা এটি পুনঃনির্দেশিত হয় এবং উপরের উপস্থাপনায় - যেমন ফাইলটি সংরক্ষণ করে web.archive.org/web/20110801041529/http://cst-www.nrl.navy.mil/lattice/struk/a_f.html

আর্কাইভ সাইটটি আয়নাতে উইজেট ব্যবহার করে

সুতরাং, অবশেষে এই প্রাইভোক্সি ফিল্টারগুলির মাধ্যমে (সংজ্ঞায়িত user.filter) user.actionমাধ্যমে সক্ষম করা হয়েছে

{ +filter{removewaybacktoolbar} +filter{blocknonparentpages} +filter{rewritewaybackstamp} }
web.archive.org

আপনি যথারীতি উইজেট ব্যবহার করতে পারেন। প্রক্সিটি ব্যবহার করতে উইজেটকে বলতে ভুলবেন না:

export http_proxy="localhost:8118"
wget -r -p -k -e robots=off http://web.archive.org/web/20120713212803/http://cst-www.nrl.navy.mil/lattice/index.html

আমি এই বিকল্পগুলি ব্যবহার করেছি, তবে -mকাজ করা উচিত। আপনি ফোল্ডার দিয়ে শেষ হবে

20120713212803
20120713212803cs_
20120713212803im_
20120713212803js_

যেহেতু ওয়েব্যাক মেশিন চিত্রগুলি ( im_), স্টাইল শীট ( cs_) ইত্যাদি আলাদা করে দেয় আমি সবকিছু একসাথে একত্রিত করেছি এবং ../../../../20120713212803js_/http:/cst-www.nrl.navy.mil/latticeসেই অনুসারে কুৎসিত আপেক্ষিক লিঙ্কগুলি ( ) সংশোধন করতে কিছু সেড ম্যাজিক ব্যবহার করেছি । তবে এটি সত্যিই প্রয়োজনীয় নয়।


1
এটি একটি অমূল্য উত্তর ছিল। ওয়েব্যাক মেশিনের অভ্যন্তরীণ সাইট কাঠামোর যথাযথ বিভাজনটি httrack- ভিত্তিক সমাধানের মূল বিষয় যা আমি শেষ পর্যন্ত হোঁচট খেয়েছিআপনি শিলা, এমপি।
সিসিল কারি

5

wget হয়

- পৃষ্ঠা-প্রয়োজনীয়তা
এই বিকল্পের ফলে উইজেটকে প্রদত্ত এইচটিএমএল পৃষ্ঠা সঠিকভাবে প্রদর্শন করার জন্য প্রয়োজনীয় সমস্ত ফাইল ডাউনলোড করতে দেয়। এতে অন্তর্ভুক্ত চিত্র, শব্দ এবং রেফারেন্সযুক্ত স্টাইলশিটগুলির মতো জিনিস রয়েছে।

সাধারণত, একটি একক এইচটিএমএল পৃষ্ঠা ডাউনলোড করার সময়, এটি যথাযথভাবে প্রদর্শনের জন্য প্রয়োজনীয় যে কোনও ডকুমেন্টগুলি ডাউনলোড করা হয় না। -L এর সাথে একসাথে ব্যবহার সাহায্য করতে পারে তবে উইজেট যেহেতু বাহ্যিক এবং অন্তর্নিহিত নথিগুলির মধ্যে সাধারণভাবে পার্থক্য রাখে না, তাই সাধারণত একটি "পাতাগুলি নথি" রেখে যায় যা তাদের প্রয়োজনীয় জিনিসগুলি হারিয়ে যায়।

উদাহরণস্বরূপ, দস্তাবেজটি বলুন 1.html একটি ট্যাগ "" রেফারেন্সিং 1.gif এবং একটি ট্যাগ "" বহিরাগত নথি 2.html এর দিকে নির্দেশ করে contains বলুন যে ২.এইচটিএমএল অনুরূপ তবে এটির চিত্রটি ২. জিআইএফ এবং এটি ৩.এইচটিএমএলের সাথে লিঙ্ক রয়েছে। বলুন এটি কিছু নির্বিচারে উচ্চ সংখ্যা পর্যন্ত অব্যাহত রয়েছে।

-m
--mirror

মিরর করার জন্য উপযুক্ত বিকল্পগুলি চালু করুন। এই বিকল্পটি পুনরাবৃত্তি এবং সময়-স্ট্যাম্পিং চালু করে, অসীম পুনরাবৃত্তির গভীরতা নির্ধারণ করে এবং এফটিপি ডিরেক্টরি তালিকা রাখে। এটি বর্তমানে -r -N -l inf - না-অপসারণ-তালিকার সমতুল্য।

নোট করুন যে উইজেট এমন আচরণ করবে যেমন -r নির্দিষ্ট করা হয়েছিল তবে কেবলমাত্র একটি একক পৃষ্ঠা এবং এর প্রয়োজনীয় জিনিসগুলি ডাউনলোড করা হবে। বাহ্যিক নথিতে সেই পৃষ্ঠা থেকে লিঙ্কগুলি অনুসরণ করা হবে না। প্রকৃতপক্ষে, একটি একক পৃষ্ঠা এবং তার প্রয়োজনীয় সমস্তগুলি ডাউনলোড করার জন্য (সেগুলি পৃথক ওয়েবসাইটে উপস্থিত থাকলেও) এবং স্থানীয়ভাবে লটটি সঠিকভাবে প্রদর্শিত হচ্ছে কিনা তা নিশ্চিত করতে এই লেখক -p এর সাথে কয়েকটি বিকল্প ব্যবহার করতে পছন্দ করেন:

wget -E -H -k -K -p http://<site>/<document>

তাই wget -E -H -k -K -p http://web.archive.org/web/20110722080716/http://cst-www.nrl.navy.mil/lattice আপনার জন্য সেরা মামলা হবে। তবে আমি অন্য একটি সরঞ্জাম, একটি firefoxএক্সটেনশনের প্রস্তাব দিইscrapbook

স্ক্র্যাপবুক

স্ক্র্যাপবুক একটি ফায়ারফক্স এক্সটেনশন যা আপনাকে ওয়েব পৃষ্ঠাগুলি সংরক্ষণ করতে এবং সহজেই সংগ্রহগুলি পরিচালনা করতে সহায়তা করে। মূল বৈশিষ্ট্য হ'ল স্বাচ্ছন্দ্য, গতি, যথার্থতা এবং বহু ভাষা সমর্থন। প্রধান বৈশিষ্ট্যগুলি হ'ল:
* ওয়েব
পৃষ্ঠাগুলি সংরক্ষণ করুন * ওয়েব পৃষ্ঠার স্নিপেট সংরক্ষণ করুন
* ওয়েবসাইট সংরক্ষণ করুন
* সংগ্রহটি বুকমার্কগুলির মতো একইভাবে সংগঠিত করুন * সংগ্রহের
সম্পূর্ণ পাঠ্য অনুসন্ধান এবং দ্রুত ফিল্টারিং অনুসন্ধান
* সংগৃহীত ওয়েব পৃষ্ঠার সম্পাদনা
* পাঠ্য / এইচটিএমএল অপেরা নোটগুলির অনুরূপ বৈশিষ্ট্য সম্পাদনা করুন

কীভাবে কোনও সাইট মিরর করবেন স্ক্র্যাপবুক
ইনস্টল করুন এবং ফায়ারফক্স পুনরায় চালু করুন

  1. ব্রাউজারে পৃষ্ঠা লোড করুন [ওয়েব পৃষ্ঠাটি মিরর করা হবে]
  2. পৃষ্ঠায় ডান ক্লিক করুন -> পৃষ্ঠাটি হিসাবে সংরক্ষণ করুন ...
  3. গভীরতা থেকে স্তর নির্বাচন করুন সংরক্ষণ করুন এবং সংরক্ষণ করুন টিপুন এখানে চিত্র বর্ণনা লিখুন
  4. ফিল্টার থেকে Restrict to Drirectory/ নির্বাচন করুনDomain
    এখানে চিত্র বর্ণনা লিখুন

এটি সম্পূর্ণ হওয়ার জন্য মিররিংয়ের জন্য অপেক্ষা করুন। মিরর করার পরে আপনি ScrapBookমেনু থেকে ওয়েব সাইটে অফলাইনে অ্যাক্সেস করতে পারবেন ।


যদিও স্ক্র্যাপবুক পুরোপুরি সাইটটি দখল করতে ব্যর্থ হয়েছে তবে এটি অন্যান্য পরামর্শের চেয়ে সম্ভাব্য সমাধানের কাছাকাছি ছিল। বিশেষত এর ফিল্টার বাই স্ট্রিং ... বিকল্পটি হোস্ট / ডোমেন দ্বারা ফিল্টার করার চেয়ে বেশি সহায়ক ছিল। অতএব, আমি আপনাকে :)
অনুগ্রহটি

0

নীচের কমান্ডটি সম্পর্কে সতর্কতা অবলম্বন করুন কারণ এটি অনেক বেশি দখল করে। 'এল' এর পরের ১টি এটি লিঙ্কের জন্য যে সমস্ত পৃষ্ঠাগুলি 1 স্তর গভীর তাদের সমস্ত পৃষ্ঠাগুলি দখল করতে বলে। আপনি যদি এটির আরও গভীরভাবে মাকড়সা করতে চান তবে এটি 2 এ পরিবর্তন করুন তবে এটি কখনও শেষ হতে পারে না কারণ এটি লুপে আটকে যেতে পারে।

wget -rHpkl 1 -e robots=off http://www.example.com/

আমি নিশ্চিত নই যে আপনি সাইটের কোন অংশটি রাখতে চান এবং কোন অংশগুলির জন্য আপনি যত্নবান নন তবে আপনার সম্ভবত যা চান তা পেতে এবং নিজেকে রোধ করার জন্য আপনার সম্ভবত সাদা তালিকা এবং / অথবা সাইটের বিভিন্ন অংশকে কালো তালিকাভুক্ত করা উচিত আর্কাইভ.অর্গ বা ইন্টারনেটের সমস্ত ডাউনলোড করা।

ব্যবহারের -D www.examle.com,www.another.example.comপরিচ্ছন্ন তালিকা শুধুমাত্র ডোমেইনের করতে চান বা ব্যবহার --exclude-domains www.examle.com,www.another.example.com কালো তালিকাভুক্ত করতে আপনি কি চান।


ধন্যবাদ, তবে সাদা / কালো তালিকাভুক্তিতে সমস্যা হ'ল সমস্ত আর্কাইভ ওয়েবসাইট web.archive.orgহোস্টের কাছ থেকে আসে । wget -npমূল সাইটটি অনলাইনে অনলাইনে থাকাকালীন আমি যা কিছু মিরর করেছিলাম তা সবই আমি আয়ন করতে চাই । -lহয় খুব একটা সাহায্য করে না, যেহেতু এটি 3 বা 4 এ বৃদ্ধি করতে হবে, ফলে ওয়েবসাইটের স্তরক্রমকে অনেক বেশি আরোহণের ফলস্বরূপ।
এমপিপি

0

ইন্টারনেট সংরক্ষণাগারের জন্য URL গুলির বিন্যাসে সাইটটি সংরক্ষণাগারভুক্ত করার তারিখ এবং সময় অন্তর্ভুক্ত রয়েছে। পরিবর্তিত হয়নি এমন স্থানের সম্পদগুলি সংরক্ষণ করার জন্য কোনও সাইটের পূর্ববর্তী সংস্করণে আবার লিঙ্ক করা হয়েছে।

উদাহরণস্বরূপ এই ইউআরএলটিতে http://web.archive.org/web/20000229123340/http://www.yahoo.com/ সাইটটি ক্রল করার তারিখটি 29 ফেব্রুয়ারী, 2000 এ 12:33 এবং 40 সেকেন্ডে ছিল।

সুতরাং আপনার সকলের জন্য http://web.archive.org/web/20110722080716/http://cst-www.nrl.navy.mil/lattice/এটি শুরু করা দরকার তবে এগুলি থেকে সমস্ত সংযুক্ত সম্পদও দখল করুন http://web.archive.org/web/*/http://cst-www.nrl.navy.mil/lattice/


হুবহু, এবং এটি সমস্যা। আসুন পৃষ্ঠাটি বি এর সাথে একটি লিঙ্ক বলি, সুতরাং, বর্তমান সংস্করণটি পুরানো সংস্করণ বি এর সাথে একটি লিঙ্ক রয়েছে তবে বি এর সাথে এ এর ​​লিঙ্কও অন্তর্ভুক্ত রয়েছে সুতরাং A এর পুরানো সংস্করণটিও পুনরুদ্ধার হয়ে যায় এবং আবার পুরানো সংস্করণে লিঙ্ক হয়। এটি (একটি (প্রয়োজনীয়) 4 এর ক্রল গভীরতায়) ফলাফলের দিকে নিয়ে যায়, আপনি সূচিপত্র পৃষ্ঠার কয়েক ডজন সংস্করণ দিয়ে শেষ করেন তবে সমস্ত প্রয়োজনীয় ফাইল নয়।
এমপিপি

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.