এখানে 2 টি সমস্যা আছে:
- উইল
robots.txt
আপনার সাইটে অননুমোদিত (অবরোধ করুন) আপনার সাইটটিতে ক্রল থেকে Wayback।
- উইল ওয়েব্যাক আপনার সাইটের ক্রল করবে।
পয়েন্ট # 1 এর জন্য:
অন্যরা যেমন বলেছেন, রোবটস টেক্সটের জন্য সঠিক প্রবেশিকাটি হ'ল:
User-agent: ia_archiver
Disallow:
মনে রাখবেন যে রোবট.টিএসটিএসটিতে আপনি যে কোনও পরিবর্তন করেছেন সে সম্পর্কে ওয়েব্যাকের জন্য কিছুক্ষণ (সম্ভবত বেশ ভাল সময়) লাগতে পারে।
robots.txt
আপনার সাইটে থাকাটি ওয়েবব্যাকটিকে আপনার সাইটটি ক্রল করার অনুমতি দেবে কিনা তা পরীক্ষা করতে :
- এই URL- এ যান: https://archive.org/web/
- পৃষ্ঠার শীর্ষে থাকা বাক্সে, আপনার সাইটের কোনও পৃষ্ঠার URL লিখুন এবং
"Browse History"
বোতামটি টিপুন।
- অথবা, "এখনই পৃষ্ঠা সংরক্ষণ করুন" এর নীচে বাক্সে (বর্তমানে ডানদিকে নীচে কাছে) এবং আপনার সাইটে একটি পৃষ্ঠার URL লিখুন এবং
"Save Page"
বোতামটি টিপুন।
এই মুহুর্তে, আপনার 3 টির মধ্যে 1 টি জিনিস দেখতে হবে:
- আপনি একটি ত্রুটি বার্তা দেখতে পাবেন যা ওয়েবেবাক সেই সাইটের পৃষ্ঠাগুলি "robots.txt" এর কারণে অ্যাক্সেস করতে পারে না indic
- আপনি আপনার সাইটের পৃষ্ঠার জন্য historicalতিহাসিক সংরক্ষণের পয়েন্টগুলির "ক্যালেন্ডার" দেখতে পাবেন। এই ক্ষেত্রে, আপনি জানেন যে ওয়েব্যাক আপনার সাইট ক্রলিং থেকে অবরুদ্ধ নয়।
- অথবা, আপনি এমন একটি বার্তা দেখবেন যা ইঙ্গিত করে যে ওয়েব্যাকের সেই পৃষ্ঠাটির সংরক্ষণাগার নেই এবং ওয়েব্যাকটিতে পৃষ্ঠা যুক্ত করার জন্য একটি লিঙ্কে ক্লিক করার অফার রয়েছে। এই ক্ষেত্রে এছাড়াও, আপনি জানেন যে ওয়েব্যাক আপনার সাইট ক্রলিং থেকে অবরুদ্ধ নয়।
এখন, পয়েন্ট # 2 এর জন্য:
উইল Wayback আপনার সাইট ক্রল?
আপনি ওয়েবেব্যাককে আপনার সাইটটি ক্রল করার অনুমতি দেওয়ার কারণে , এর অর্থ এই নয় যে তারা (কখনও) আপনার সাইটটি ক্রল করবে।
ওয়েব্যাক এফএকিউ অনুসারে (জোর দেওয়া)
আমাদের সংরক্ষণাগারভুক্ত ওয়েব ডেটা আমাদের নিজস্ব ক্রল থেকে বা আলেক্সা ইন্টারনেটের ক্রল থেকে আসে। কোনও প্রতিষ্ঠানেরই এখন "আমার সাইট ক্রল করুন!" জমা দেওয়ার প্রক্রিয়া ইন্টারনেট আর্কাইভের ক্রলগুলি এমন সাইটগুলি খুঁজতে থাকে যা অন্যান্য সাইট থেকে ভালভাবে লিঙ্কযুক্ত । আমরা আপনার ওয়েব সাইটটি সন্ধান করার সর্বোত্তম উপায় হ'ল এটি অনলাইনে ডিরেক্টরিতে অন্তর্ভুক্ত রয়েছে এবং এটি আপনার সাথে অনুরূপ / সম্পর্কিত সাইট লিঙ্ক করেছে তা নিশ্চিত করা।
অ্যালেক্সা ইন্টারনেট ক্রল করার জন্য সাইটগুলি আবিষ্কার করতে নিজস্ব পদ্ধতি ব্যবহার করে। নিখরচায় অ্যালেক্সা সরঞ্জামদণ্ডটি ইনস্টল করা এবং আপনি যে সাইটটি ক্রল করতে চান তা সে সম্পর্কে তারা জানে কিনা তা নিশ্চিত করার জন্য এটি সহায়ক হতে পারে।
সাইটটি কে ক্রল করছে তা নির্বিশেষে আপনার অবশ্যই নিশ্চিত হওয়া উচিত যে আপনার সাইটের 'রোবটস.টি.এস.টি.এস.' বিধি এবং ইন-পৃষ্ঠায় মেটা রোবট নির্দেশিকা ক্রলারদের আপনার সাইট এড়াতে বলবে না।
আপডেট: 09-মে-2017
অন্যরা মন্তব্য / উত্তর রেখে গেছে যে ইঙ্গিত দেয় যে আর্কাইভ.অর্গ আর রোবটস.টেক্সটকে সম্মান করে না। সম্ভবত এটি "ওয়ার্ক-ইন-প্রগ্রেস" এবং অবশেষে এটি হবে তবে আমি এই নতুন আচরণটি এখনও দেখিনি।
এটির জন্য মামলাটি এই নিবন্ধটি থেকে আসে বলে মনে হচ্ছে : রোবটস.টেক্সট: রোবটস.টিএক্সটি একটি সুইসাইড নোট দ্বারা archiveteam.org
। যদিও পৃষ্ঠাটিতে "রোবটস.টেক্সট" সম্পর্কে ভাল কিছু বলার দরকার থাকলেও এটি কোথাও উল্লেখ করেনি যে আর্কাইভ.অর্গ আর রোবটস.টিএসটি সম্মান করবে না।
আরও লক্ষ করুন: এই নিবন্ধটি হোস্ট করা হয়েছে archiveteam.org
, যা অবশ্যই স্পষ্টভাবে নয় archive.org
এবং আমি নিশ্চিত নই যে archive.org
এবং এর মধ্যে কোনও (অফিসিয়াল) সম্পর্ক আছে archiveteam.org
।
আসলে, সংরক্ষণাগার টিম সম্পর্কিত এই পৃষ্ঠাটি এবং (জোর দেওয়া যুক্ত) এর মধ্যে একটি পার্থক্য ঘোষণা করেছে বলে মনে হচ্ছে :archive.org
archive.org
archiveteam.org
২০০৯ সালে গঠিত, আর্কাইভ দলটি ( আর্কাইভ.আর্কাইভ -ইট টিমের সাথে বিভ্রান্ত হওয়ার দরকার নেই ) হ'ল ইতিহাস ও ডিজিটাল heritageতিহ্যের স্বার্থে দ্রুত মারা যাওয়া বা মুছে ফেলা ওয়েবসাইটগুলির অনুলিপিগুলি সংরক্ষণ করার জন্য উত্সর্গীকৃত এক দুর্বৃত্ত আর্কাইভিস্ট সমষ্টি। ...
যাই হোক, আমি এই একটি ব্যবহার করে দেখুন দেওয়ার সিদ্ধান্ত নিয়েছেন, এবং আমি যে খুঁজে পাওয়া যায় নি, এই সময়ে অন্তত Archive.org এখনও robots.txt এর সন্মান:
- আমি ইবেতে একটি এলোমেলো আইটেম পেয়েছি: আইটেম #: 131795294232
- বিক্রয়কৃত আইটেমগুলি দেখতে ক্লিক করুন:
- "বিক্রি হওয়া আইটেম" পৃষ্ঠাটি খোলে: http://offer.ebay.com/ws/eBayISAPI.dll?VideBidsLogin&item=131795294232 লিপটি ক্লিপবোর্ডে অনুলিপি করুন।
- এতে যান web.archive.org , এবং ইবে থেকে লিঙ্ক আটকে দিন।
- আপনি দেখতে পাবেন যে
archive.org
ইঙ্গিত দেয় যে "পৃষ্ঠাটি রোবটসটিটিএসটির কারণে প্রদর্শিত হতে পারে না।"
সুতরাং, এই সময়ে, আমি অবিস্মরণীয় রয়েছি, তবে আমি ভুল প্রমাণিত হতে চাই ... সত্য যদি এটি হয় তবে দুর্দান্ত।