সহায়ক হওয়ার পরেও পূর্বের প্রতিক্রিয়াগুলি সংক্ষিপ্তভাবে, নির্ভরযোগ্যভাবে এবং বারবার অন্তর্নিহিত প্রশ্নটি সমাধান করতে ব্যর্থ। এই পোস্টে, আমরা প্রতিটিগুলির সাথে সংক্ষিপ্তসারগুলি সংক্ষেপে বিশদভাবে বর্ণনা করি এবং তারপরে একটি পরিমিত- httrack
ভিত্তিক সমাধান অফার করি ।
পটভূমি
যাইহোক, আমরা এটিতে পৌঁছানোর আগে এমপির সু-লিখিত প্রতিক্রিয়া অনুধাবন করার বিষয়টি বিবেচনা করুন । এইচ [ ইস | এর] দুর্ভাগ্যক্রমে অবহেলিত পোস্টে, এমপি কঠোরভাবে ওয়েব্যাক মেশিনের অস্পষ্ট (এবং সত্যই অবহেলিত ) সংরক্ষণাগার প্রকল্পটি নথিভুক্ত করেছেন।
আশ্চর্যজনকভাবে, এটি সুন্দর নয়। কোনও একক ডিরেক্টরিতে বুদ্ধিমানভাবে সংরক্ষণাগার স্থাপনের পরিবর্তে দ্য ওয়েব্যাক মেশিন দুটি বা ততোধিক সংখ্যায় চিহ্নিত ভাইবাল ডিরেক্টরিতে একক সাইট ছড়িয়ে দেয়। এটি বলার অপেক্ষা রাখে না যে এটি মিররিংকে জটিল করে তোলে একটি যথেষ্ট পরিমাণের হ্রাস করা হবে।
এই স্কিম দ্বারা উপস্থাপিত ভয়াবহ সমস্যাগুলি বোঝা পূর্বের সমাধানগুলির অপ্রতুলতা বোঝার মূল বিষয়। এর সাথে চলুন, আমরা কি করব?
পূর্ব সমাধান 1: উইজেট
ওয়্যাকব্যাক মিররিংয়ের জন্য প্রস্তাবিত সম্পর্কিত স্ট্যাকওভারফ্লো প্রশ্ন "ওয়েবব্যাকম্যাচিন বন্ধ পুরানো ওয়েবসাইট পুনরুদ্ধার" সম্ভবত এই ক্ষেত্রে সবচেয়ে খারাপ অপরাধী wget
। স্বাভাবিকভাবেই, সেই প্রস্তাবটি মৌলিকভাবে নিরবচ্ছিন্ন।
জটিল বাহ্যিক ইউআরএল পুনর্লিখনের অনুপস্থিতিতে (যেমন, Privoxy
) wget
ওয়েবেব্যাক-সংরক্ষণাগারভুক্ত সাইটগুলি নির্ভরযোগ্যভাবে মিরর করতে ব্যবহার করা যাবে না। "সমস্যা 2 + সমাধান" এর অধীনে এমপি সম্পর্কিত বিবরণ হিসাবে, আপনি যে কোনও মিররিংয়ের সরঞ্জাম চয়ন করেন তা আপনাকে লক্ষ্য সাইটের অন্তর্ভুক্ত কেবলমাত্র ইউআরএলগুলি অ-স্থানান্তরিতভাবে ডাউনলোড করতে দেয়। ডিফল্টরূপে, বেশিরভাগ মিররিংয়ের সরঞ্জামগুলি সেই সাইট থেকে লিঙ্কযুক্ত টার্গেট সাইট এবং সাইট উভয়ের সাথে সম্পর্কিত সমস্ত URL গুলি ট্রানজিটিভ ডাউনলোড করে - যা সবচেয়ে খারাপ ক্ষেত্রে "পুরো ইন্টারনেট" এর অর্থ।
একটি দৃ concrete় উদাহরণ ক্রমযুক্ত। উদাহরণ ডোমেনটি মিরর করার সময় kearescue.com
আপনার মিররিংয়ের সরঞ্জামটি অবশ্যই :
- মিলে থাকা সমস্ত ইউআরএল অন্তর্ভুক্ত করুন
https://web.archive.org/web/*/http://kearescue.com
। এগুলি লক্ষ্য সাইটের দ্বারা সরবরাহ করা সম্পদ (যেমন, https://web.archive.org/web/20140521010450js_/http_/kearescue.com/media/system/js/core.js
)।
- অন্যান্য সমস্ত ইউআরএল বাদ দিন। এগুলি লক্ষ্যমাত্রা সাইটের (যেমন,
https://web.archive.org/web/20140517180436js_/https_/connect.facebook.net/en_US/all.js
) কেবলমাত্র লিঙ্কযুক্ত অন্যান্য সাইট দ্বারা সরবরাহিত সম্পদ ।
এই জাতীয় ইউআরএলগুলি বাদ দিতে ব্যর্থতা সাধারণত সাইট সংরক্ষণাগারভুক্ত করার সময় বিশেষভাবে বাহ্যিক-হোস্ট করা সম্পদ এম্বেড করা সাইটের জন্য (যেমন, ইউটিউব ভিডিও) ইন্টারনেটের সমস্ত বা বেশিরভাগ ইন্টারনেটের দিকে টান দেয়।
এটা খারাপ হবে। যদিও wget
করে একটি কম্যান্ড-লাইন প্রদান --exclude-directories
এক বা একাধিক URL গুলি মিলে বাদ দিতে হবে নিদর্শন গ্রহণ বিকল্প, সেগুলি হল না সাধারণ রেগুলার এক্সপ্রেশনের; তারা সরল globs যার করছি *
সিনট্যাক্স ম্যাচ শূন্য বা তার বেশি অক্ষরের ব্যতীত/
। যেহেতু URL গুলি বাদ দিতে হবে ইচ্ছামত অনেক ধারণ /
অক্ষর, wget
না পারেন, এই URL গুলি অগ্রাহ্য করতে ব্যবহার করা যেতে তাই না পারেন, আয়না Wayback-সংরক্ষণাগার সাইট ব্যবহৃত হবে না। সময়কাল। দুর্ভাগ্যজনক গল্পের সমাপ্তি।
এই সমস্যাটি কমপক্ষে ২০০৯ সাল থেকে সর্বজনীন রেকর্ডে রয়েছে It এটি এখনও সমাধান হয়নি has পরবর্তী!
পূর্ব সমাধান 2: স্ক্র্যাপবুক
প্রিন্স সুপারিশ করেন ScrapBook
, একটি ফায়ারফক্স প্লাগইন। একটি ফায়ারফক্স প্লাগইন।
আপনার সম্ভবত এটি জানা দরকার ছিল। যদিও ScrapBook
এর Filter by String...
কার্যকারিতা নেই ঠিকানা উপরোক্ত "সমস্যা 2+ সমাধান," এটা কী না পরবর্তী "সমস্যা 3 + + সমাধান 'ঠিকানা - যেমন, বিদেশী সদৃশ সমস্যা।
এটি ScrapBook
পূর্ববর্তী সমস্যাটিকে পর্যাপ্তভাবে সম্বোধন করে কিনা তা প্রশ্নবিদ্ধ । এমপি যেমন স্বীকার করেছেন:
যদিও স্ক্র্যাপবুক পুরোপুরি সাইটটি দখল করতে ব্যর্থ হয়েছে ...
অবিশ্বাস্য ও অতিরিক্ত সরল সমাধান হ'ল অ-সমাধান। পরবর্তী!
পূর্ব সমাধান 3: উইজেট + প্রিভোক্সি
এমপি তারপর wget
এবং উভয়ই উপকারী একটি শক্তিশালী সমাধান সরবরাহ করে Privoxy
। কনফিগার করার wget
পক্ষে যুক্তিসঙ্গতভাবে সহজ যদিও যুক্তিসঙ্গত Privoxy
কিছু নয়। বা সাধারণ।
সঠিকভাবে ইনস্টল, কনফিগার করা এবং ব্যবহারের অদম্য প্রযুক্তিগত প্রতিবন্ধকতার কারণে Privoxy
আমরা এখনও এমপির সমাধানটি নিশ্চিত করতে পারি নি । এটি একটি স্কেলযোগ্য, শক্তিশালী উপায়ে কাজ করা উচিত । প্রবেশের পথে প্রতিবন্ধকতাগুলি দেওয়া, এই গড়পড়তা ছোট থেকে মাঝারি স্তরের সাইটগুলি পুনরুদ্ধার করার চেষ্টা করা গড় ওয়েবমাস্টারের চেয়ে বড় মাপের অটোমেশনের পক্ষে সম্ভবত আরও উপযুক্ত।
কি wget
+ + Privoxy
মূল্য একটি চেহারা? একেবারে। তবে বেশিরভাগ সুপারইউসারগুলি আরও সহজ, আরও সহজেই প্রয়োগযোগ্য সমাধানগুলির দ্বারা আরও ভালভাবে পরিবেশন করা হতে পারে।
নতুন সমাধান: এইচটি ট্র্যাক
প্রবেশ করান httrack
, একটি কমান্ড-লাইন ইউটিলিটি wget
এর মিররিং কার্যকারিতাটির একটি সুপারসেট বাস্তবায়ন করে। httrack
প্যাটার্ন-ভিত্তিক ইউআরএল বহিষ্কার এবং সরল সাইট পুনর্গঠন উভয় সমর্থন করে । প্রাক্তন এমপি'র "সমস্যা 2 + সমাধান" সমাধান করে; দ্বিতীয়টি, "সমস্যা 3 + সমাধান"।
নীচের বিমূর্ত উদাহরণে, প্রতিস্থাপন করুন:
${wayback_url}
আপনার টার্গেট সাইটের সম্পূর্ণতা সংরক্ষণ করে (যেমন, 'https://web.archive.org/web/20140517175612/http://kearescue.com'
) শীর্ষ-স্তরের ডিরেক্টরি URL এর মাধ্যমে ।
${domain_name}
উপসর্গ (যেমন, ) ${wayback_url}
বাদ দিয়ে একই ডোমেন নাম দ্বারা byhttp://
'kearescue.com'
এখানে আমরা যাই। আপনি যে সাইটটি ডাউনলোড করতে চান সেগুলি স্থানীয় ডিরেক্টরিতে ইনস্টল করুন httrack
, একটি টার্মিনাল উইন্ডোটি খুলুন cd
এবং নীচের কমান্ডটি চালান:
httrack\
${wayback_url}\
'-*'\
'+*/${domain_name}/*'\
-N1005\
--advanced-progressinfo\
--can-go-up-and-down\
--display\
--keep-alive\
--mirror\
--robots=0\
--user-agent='Mozilla/5.0 (X11;U; Linux i686; en-GB; rv:1.9.1) Gecko/20090624 Ubuntu/9.04 (jaunty) Firefox/3.5'\
--verbose
সমাপ্তির পরে, বর্তমান ডিরেক্টরিতে সেই URL থেকে মিরর করা প্রতিটি ফাইল টাইপের জন্য একটি উপ-ডিরেক্টরি থাকতে হবে। এর মধ্যে সাধারণত অন্তত অন্তর্ভুক্ত থাকে:
css
সমস্ত মিররড সিএসএস স্টাইলশিট রয়েছে।
html
সমস্ত মিররযুক্ত এইচটিএমএল পৃষ্ঠা রয়েছে।
js
, সমস্ত মিররযুক্ত জাভাস্ক্রিপ্ট রয়েছে।
ico
, একটি মিররযুক্ত ফেভিকনযুক্ত।
যেহেতু httrack
অভ্যন্তরীণভাবে এই কাঠামোর প্রতিবিম্বিত করার জন্য সমস্ত ডাউনলোডকৃত সামগ্রী পুনর্লিখন করে, আপনার সাইটটি এখন পরিবর্তন ছাড়াই ব্রাউজযোগ্য হওয়া উচিত। আপনি যদি অকাল সময়ের আগে উপরের কমান্ডটি থামিয়ে দিয়ে ডাউনলোড করা চালিয়ে --continue
যেতে চান তবে ঠিক একই কমান্ডটিতে বিকল্পটি যুক্ত করুন এবং আবার চেষ্টা করুন।
এটাই. কোনও বাহ্যিক সংযোজন, ত্রুটি-প্রবণতাযুক্ত ইউআরএল পুনর্লিখন, বা নিয়ম-ভিত্তিক প্রক্সি সার্ভারের প্রয়োজন নেই।
উপভোগ করুন, সহকর্মীরা।
20110722080716
স্ন্যাপশটের অধীনে অ্যাক্সেসযোগ্য নয় , সুতরাং উইজেটের-np
বিকল্পটি কোনও সাহায্য করবে না।