কিভাবে পুরো ওয়েবসাইট সংরক্ষণাগার?


15

ওয়েব্যাক মেশিনের মাধ্যমে একটি পৃষ্ঠা সংরক্ষণ করতে আমি এখানে যেতে পারি:

আমি কীভাবে ওয়েবেব্যাক মেশিনের মাধ্যমে পুনরাবৃত্তভাবে ওয়েবসাইট সংরক্ষণাগারভুক্ত করতে পারি ?


এখানে কিছু প্রকল্প রয়েছে wayback-machine-downloaderতবে আমি এমন একটি বৈশিষ্ট্য খুঁজছি যা আমাকে পুনরাবৃত্তভাবে ওয়েবসাইট আপলোড করতে দেয়।

উত্তর:


12

যেহেতু ওয়েব্যাক মেশিন এ জাতীয় বৈশিষ্ট্য সরবরাহ করে না, তাই আমি কিছুটা সন্ধান পেয়েছি।

  1. প্রথমত, ওয়েবসাইট ব্যবহার করে মিরর wget, যেমন

    wget -m https://example.com/
    
  2. তারপরে curlআপনি ডাউনলোড করেছেন এমন একটি করে সমস্ত পৃষ্ঠাগুলি সংরক্ষণাগার ব্যবহার করুন use

    find . -name "*.html" -exec curl -v "https://web.archive.org/save/https://{}" ';'
    

    দ্রষ্টব্য: আপনি পরিবর্তন .htmlকরতে পারেন .phpবা নির্দিষ্ট ধরণের ফাইল অন্তর্ভুক্ত করতে পারেন ।


যদি সাইটটি এক্সটেনশনগুলি ব্যবহার না করে (যেমন এইচটিএমএল বা পিএইচপি - যেমন এসই সেটআপ হয়), আপনি কীভাবে আপনার আদেশটি মানিয়ে নেবেন?
ডিবি

2
আপনি সমস্ত ফাইল অন্তর্ভুক্ত করতে পরিবর্তন -name "*.html"করতে পারেন -type f
কেনার্ব

এটি কোয়েরি পরামিতিগুলির সাথে কীভাবে কাজ করে?
মিথিলিক

6

আপনি যদি একটি ছোট ওয়েবসাইট সংরক্ষণাগারবদ্ধ করতে চান, সংরক্ষণাগার টিম আর্কাইভবট , একটি আইআরসি বট রক্ষণাবেক্ষণ করে যেখানে আপনি ওয়েবসাইট ক্রল করার জন্য অনুরোধ করতে পারেন। সংরক্ষণাগার টিম তখন ক্রলযুক্ত পৃষ্ঠাগুলি ইন্টারনেট সংরক্ষণাগারের ওয়েব্যাক মেশিনে জমা দেবে।


এটি অবিশ্বাস্যরূপে সহায়ক।
গাই

1

ওয়েব্যাক মেশিন কোনও সম্পূর্ণ সাইট জমা দেওয়ার উপায় সরবরাহ করে না, কেবল একটি পৃষ্ঠা যা আপনি ইতিমধ্যে খুঁজে পেয়েছেন। এটি তাদের ওয়েব্যাক মেশিন FAQ এর কয়েকটি পয়েন্টে স্পর্শ করা হয়েছে :

আমি কি ওয়েব্যাক মেশিনে পৃষ্ঠা যুক্ত করতে পারি?

উপর https://archive.org/web আপনি যদি একটি নির্দিষ্ট পৃষ্ঠা এক সময় বাঁচাতে "সংরক্ষণ করুন পৃষ্ঠাটি এখন" বৈশিষ্ট্য ব্যবহার করতে পারেন। এটি বর্তমানে কোনও ভবিষ্যতের ক্রলগুলিতে URL যুক্ত করে না বা এটি একটি পৃষ্ঠার চেয়ে বেশি সঞ্চয় করে না save এটি একাধিক পৃষ্ঠা, ডিরেক্টরি বা পুরো সাইটগুলি সংরক্ষণ করে না

এবং

আমি কীভাবে আমার সাইটটি ওয়েব্যাক মেশিনে অন্তর্ভুক্ত করব?

আমাদের সংরক্ষণাগারভুক্ত ওয়েব ডেটা আমাদের নিজস্ব ক্রল থেকে বা আলেক্সা ইন্টারনেটের ক্রল থেকে আসে। কোনও প্রতিষ্ঠানেরই এখন "আমার সাইট ক্রল করুন!" জমা দেওয়ার প্রক্রিয়া । ইন্টারনেট আর্কাইভের ক্রলগুলি এমন সাইটগুলি খুঁজতে থাকে যা অন্যান্য সাইট থেকে ভালভাবে লিঙ্কযুক্ত। আমরা আপনার ওয়েব সাইটটি সন্ধান করার সর্বোত্তম উপায় হ'ল এটি অনলাইনে ডিরেক্টরিতে অন্তর্ভুক্ত রয়েছে এবং এটি আপনার সাথে অনুরূপ / সম্পর্কিত সাইট লিঙ্ক করেছে তা নিশ্চিত করা।


1
এটি প্রশ্নের উত্তর নয়। এটি করার কোনও সরকারী উপায় নেই বলেই কাজটি করা অসম্ভব নয়। আসলে, লিপিগুলি পুনরাবৃত্তভাবে যুক্ত করে এমন কোনও স্ক্রিপ্ট বেত্রাঘাত করা বেশ সহজ হওয়া উচিত।
ডিবি

@ ডিবি, কেনোরবের উত্তরটি যা আপনি জিজ্ঞাসা করেছিলেন তা থেকে মনে হয়। ঘটনাক্রমে, এই উত্তরটি মুহুর্তে আমার পক্ষে আরও কার্যকর, কারণ আমি কেবল চেয়েছিলাম যে ওয়েব্যাকম্যাচাইন এখন আমার জন্য একটি পৃষ্ঠা ক্যাপচার করবে।
cp.engr

1

আর্কাইভ.আর.জে এই নিবন্ধটি এমন একটি প্রদত্ত পরিষেবাও প্রস্তাব করেছে যা আপনার জন্য যতবার ঘন ঘন ঘন ঘন ঘন ঘন আপনার জন্য ক্রলিং করবে:

  1. একটি সংরক্ষণাগার-অ্যাকাউন্ট অ্যাকাউন্টে সাইন আপ করুন

সংরক্ষণাগার-এটি ইন্টারনেট সংরক্ষণাগার দ্বারা সরবরাহিত একটি সাবস্ক্রিপশন পরিষেবা যা আপনাকে কোনও প্রযুক্তিগত দক্ষতা ছাড়াই আপনার নিজস্ব ক্রলিং প্রকল্পগুলি চালানোর অনুমতি দেয়। কী ক্রল করবেন এবং কত ঘন ঘন এটি ক্রল করবেন তা আমাদের বলুন এবং আমরা ক্রলটি কার্যকর করি এবং ফলাফলগুলি ওয়েবব্যাক মেশিনে রাখি।

এটি সম্ভবত আপনার পরে নয় তবে কিছু ব্যবসায়ের জন্য এই পরিষেবাটি কার্যকর হতে পারে। আমি ধরে নিয়েছি এটি আর্কাইভ.অর্গকে তহবিল করতে সহায়তা করে যা অন্যথায় বিনামূল্যে।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.