আর্কাইভ.আর ওয়েবেব্যাক মেশিন থেকে কোনও ওয়েবসাইট কীভাবে ডাউনলোড করবেন?


83

আর্কাইভ.আরগে একটি প্রদত্ত ওয়েবসাইটের জন্য সমস্ত ফাইল পেতে চাই। কারণগুলি অন্তর্ভুক্ত থাকতে পারে:

  • মূল লেখক নিজের ওয়েবসাইট সংরক্ষণাগারভুক্ত করেননি এবং এটি এখন অফলাইনে রয়েছে, আমি এটি থেকে একটি সর্বজনীন ক্যাশে তৈরি করতে চাই
  • আমি কিছু ওয়েবসাইটের মূল লেখক এবং কিছু সামগ্রী হারিয়েছি। আমি এটি পুনরুদ্ধার করতে চাই
  • ...

আমি কেমন করে ঐটি করি ?

সংরক্ষণাগার ..org ওয়েবব্যাক মেশিনটি বিশেষভাবে বিবেচনা করে: ওয়েবপৃষ্ঠাগুলি লিঙ্কগুলি সংরক্ষণাগারটিতে নিজেই নির্দেশ করছে না, তবে এমন ওয়েব পৃষ্ঠায় যা সম্ভবত আর থাকবে না। লিঙ্কগুলি আপডেট করার জন্য জাভাস্ক্রিপ্ট ক্লায়েন্ট-সাইড ব্যবহৃত হয়, তবে পুনরাবৃত্ত উইজেটের মতো কৌশলটি কাজ করবে না।


14
আমি একই সমস্যা জুড়ে এসেছি এবং আমি একটি মণি কোড করেছি od ইনস্টল করার জন্য: gem install wayback_machine_downloader। আপনি যে প্যারামিটার হিসাবে পুনরুদ্ধার করতে চান সেই ওয়েবসাইটের বেস ইউআরএল দিয়ে ওয়েবেব্যাক_ম্যাচাইন_ডাউনলোডার চালান: wayback_machine_downloader http://example.comআরও তথ্য: github.com/hartator/wayback_machine_downloader
হার্টেটর

3
উইন্ডোজ ব্যবহারকারীদের জন্য ধাপে ধাপে সহায়তা (উইন 8.1 64 বিট) রুবিতে নতুন, আমি এটি কাজ করতে যা করেছি তা এখানে: 1) আমি রুবিইনস্টলআরর্গ / ডাউনলোডগুলি ইনস্টল করেছি তারপরে "রুবিইনস্টলার -২.২.৩-এক্স 64৪ .exe "2) জিথ ফাইলটি ডাউনলোড করেছেন github.com/hartator/wayback-machine-downloader/archive/… 3) আমার কম্পিউটারে জিপ আনজিপ করুন 4)" রুবি উইথ স্টার্ট কমান্ড প্রম্পট "জন্য উইন্ডোজ স্টার্ট মেনুতে অনুসন্ধান করুন (হতে চালিয়ে যাওয়া)
এরব

3
5) github.com/hartator/wayback_machine_downloader (e। .G : কপির জন্য প্রম্পটে এই "রত্ন ইনস্টল ওয়েবেব্যাক_ম্যাচিন_ডাউনলোডার" এর নির্দেশাবলী অনুসরণ করুন enter প্রবেশ করুন এবং এটি প্রোগ্রামটি ইনস্টল করবে ... তারপরে "ব্যবহার" নির্দেশিকা অনুসরণ করুন) 6) একবার আপনার ওয়েবসাইটে বন্দী আপনি সি ফাইল পাবেন: \ YOURusername \ ওয়েবসাইটের \ ব্যবহারকারীরা
ERB

উত্তর:


63

আমি একটি সাইট ডাউনলোড করার জন্য বিভিন্ন উপায়ে চেষ্টা করেছি এবং অবশেষে ওয়েবেব্যাক মেশিন ডাউনলোডারটি পেয়েছি - যা হার্টেটারের আগে উল্লেখ করা হয়েছিল (সুতরাং সমস্ত ক্রেডিট তার কাছে যায়, দয়া করে), তবে আমি কেবল তার প্রশ্নের মন্তব্যটি লক্ষ্য করি নি। আপনার সময় বাঁচাতে, আমি এখানে পৃথক উত্তর হিসাবে ওয়েব্যাক_ম্যাচিন_ডাউনলোডার রত্ন যুক্ত করার সিদ্ধান্ত নিয়েছি।

Http://www.archiveteam.org/index.php?title=Restore এ সাইটটি সংরক্ষণাগার.অর্গ থেকে ডাউনলোড করার জন্য এই উপায়গুলি তালিকাভুক্ত করে:


আমি পিএইচপি-তে একটি "ওয়েবেব্যাক ডাউনলোডার" লিখেছিলাম, সংস্থানগুলি অ্যাডজাস্ট করে, ইত্যাদি: gist.github.com/divinity76/85c01de416c541578342580997fa6acf
hanshenrik

@ComicSans, আপনি যে পৃষ্ঠায় লিঙ্ক করেছেন, তাতে একটি আর্কাইভ দল কী ধরবে ??
পেসারিয়ার

1
অক্টোবর 2018, ওয়েব্যাক মেশিন ডাউনলোডার এখনও কাজ করে।
ব্রাজিলিয়ান গাই

@Pacerier এটা আর্কাইভ টিম দ্বারা উত্পাদিত (এবং সাধারণত ইন্টারনেটের সংরক্ষণাগারের wayback মেশিন মধ্যে প্রতিপালিত) (সেট) WARC ফাইল মানে দেখতে archive.org/details/archiveteam
নিমো

12

এটি একত্রিতwget করে ব্যাশ শেল স্ক্রিপ্ট ব্যবহার করে করা যেতে পারে ।

ওয়েবেব্যাক মেশিনের কয়েকটি ইউআরএল বৈশিষ্ট্য ব্যবহার করার ধারণাটি হ'ল :

  • http://web.archive.org/web/*/http://domain/*http://domain/পুনরাবৃত্তি থেকে সমস্ত সংরক্ষিত পৃষ্ঠাগুলি তালিকাবদ্ধ করবে। ওয়েবপৃষ্ঠাগুলিতে লিঙ্কগুলি সনাক্ত করতে হিউরিস্টিকস ডাউনলোড করতে এবং এড়ানোর জন্য পৃষ্ঠাগুলির একটি সূচক তৈরি করতে এটি ব্যবহার করা যেতে পারে। প্রতিটি লিঙ্কের জন্য, প্রথম সংস্করণের তারিখ এবং শেষ সংস্করণও রয়েছে।
  • http://web.archive.org/web/YYYYMMDDhhmmss*/http://domain/pagehttp://domain/pageYYYY বছরের সমস্ত সংস্করণ তালিকাভুক্ত করবে । এই পৃষ্ঠায়, সংস্করণগুলির নির্দিষ্ট লিঙ্কগুলি পাওয়া যাবে (সঠিক টাইমস্ট্যাম্প সহ)
  • http://web.archive.org/web/YYYYMMDDhhmmssid_/http://domain/pagehttp://domain/pageপ্রদত্ত টাইমস্ট্যাম্পে অশোধিত পৃষ্ঠাটি ফিরিয়ে দেবে । আইডি_ টোকেন লক্ষ্য করুন ।

প্রদত্ত ডোমেন থেকে সমস্ত কিছু ডাউনলোড করার জন্য স্ক্রিপ্ট তৈরি করার জন্য এগুলি বেসিক।


7
আপনার পরিবর্তে আর্কাইভ.org/ help/ wayback_api.php উইকিপিডিয়া সহায়তা পৃষ্ঠাগুলি সাধারণ জনগণের জন্য নয়, সম্পাদকদের জন্য হ'ল API ব্যবহার করা উচিত । সুতরাং সেই পৃষ্ঠাটি গ্রাফিকাল ইন্টারফেসের উপর ফোকাস করেছে, যা উভয়ই এই কাজের জন্য অযোগ্য এবং অপর্যাপ্ত।
নিমো

কেবল ইউআরএল (পছন্দ http://web.archive.org/web/19981202230410/http://www.google.com/) নিন এবং id_"তারিখ সংখ্যা" এর শেষে যুক্ত করা আরও সহজ হবে । তারপরে, আপনি এমন কিছু পাবেন http://web.archive.org/web/19981202230410id_/http://www.google.com/
হাইকমাম

1
পাইথন লিপিটি এখানেও পাওয়া যাবে: gist.github.com/ingamedeo/…
আমেদেও বড়গিওলা

4

এই উদ্দেশ্যে বিশেষভাবে ডিজাইন করা একটি সরঞ্জাম রয়েছে, ওয়ারিক: https://code.google.com/p/warrick/

এটি মেমেন্টো প্রোটোকলের উপর ভিত্তি করে।


3
যতদূর আমি এটি ব্যবহার করতে সক্ষম হয়েছি (মে 2017 এ), এটি কেবল সংরক্ষণাগারটি অর্জন করে। এটি গুগল / ইয়াহু ক্যাশে থেকে দস্তাবেজ এবং চিত্রগুলি পাওয়ার চেষ্টা করে তবে সম্পূর্ণ ব্যর্থ হয়। গুগল কোড বন্ধ হয়ে যাওয়ার পর থেকে ওয়ারিককে গিটহাবে বেশ কয়েকবার ক্লোন করা হয়েছে, সম্ভবত সেখানে আরও কিছু ভাল সংস্করণ রয়েছে।
গুইনেথ ল্লেওলিন

0

আপনি এটি দিয়ে সহজেই এটি করতে পারেন wget

wget -rc --accept-regex '.*ROOT.*' START

ROOTওয়েবসাইটের মূল URL কোথায় এবং STARTএটি শুরু করার URL। উদাহরণ স্বরূপ:

wget -rc --accept-regex '.*http://www.math.niu.edu/~rusin/known-math/.*' http://web.archive.org/web/20150415082949fw_/http://www.math.niu.edu/~rusin/known-math/

নোট করুন যে আপনাকে STARTURL টির জন্য ওয়েব সংরক্ষণাগারটির মোড়ক ফ্রেমটি বাইপাস করা উচিত । বেশিরভাগ ব্রাউজারগুলিতে, আপনি পৃষ্ঠায় ডান ক্লিক করতে পারেন এবং "কেবল এই ফ্রেমটি দেখান" নির্বাচন করতে পারেন।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.