এখানে 2 টি সমস্যা আছে:
- উইল
robots.txtআপনার সাইটে অননুমোদিত (অবরোধ করুন) আপনার সাইটটিতে ক্রল থেকে Wayback।
- উইল ওয়েব্যাক আপনার সাইটের ক্রল করবে।
পয়েন্ট # 1 এর জন্য:
অন্যরা যেমন বলেছেন, রোবটস টেক্সটের জন্য সঠিক প্রবেশিকাটি হ'ল:
User-agent: ia_archiver
Disallow:
মনে রাখবেন যে রোবট.টিএসটিএসটিতে আপনি যে কোনও পরিবর্তন করেছেন সে সম্পর্কে ওয়েব্যাকের জন্য কিছুক্ষণ (সম্ভবত বেশ ভাল সময়) লাগতে পারে।
robots.txtআপনার সাইটে থাকাটি ওয়েবব্যাকটিকে আপনার সাইটটি ক্রল করার অনুমতি দেবে কিনা তা পরীক্ষা করতে :
- এই URL- এ যান: https://archive.org/web/
- পৃষ্ঠার শীর্ষে থাকা বাক্সে, আপনার সাইটের কোনও পৃষ্ঠার URL লিখুন এবং
"Browse History"বোতামটি টিপুন।
- অথবা, "এখনই পৃষ্ঠা সংরক্ষণ করুন" এর নীচে বাক্সে (বর্তমানে ডানদিকে নীচে কাছে) এবং আপনার সাইটে একটি পৃষ্ঠার URL লিখুন এবং
"Save Page"বোতামটি টিপুন।
এই মুহুর্তে, আপনার 3 টির মধ্যে 1 টি জিনিস দেখতে হবে:
- আপনি একটি ত্রুটি বার্তা দেখতে পাবেন যা ওয়েবেবাক সেই সাইটের পৃষ্ঠাগুলি "robots.txt" এর কারণে অ্যাক্সেস করতে পারে না indic
- আপনি আপনার সাইটের পৃষ্ঠার জন্য historicalতিহাসিক সংরক্ষণের পয়েন্টগুলির "ক্যালেন্ডার" দেখতে পাবেন। এই ক্ষেত্রে, আপনি জানেন যে ওয়েব্যাক আপনার সাইট ক্রলিং থেকে অবরুদ্ধ নয়।
- অথবা, আপনি এমন একটি বার্তা দেখবেন যা ইঙ্গিত করে যে ওয়েব্যাকের সেই পৃষ্ঠাটির সংরক্ষণাগার নেই এবং ওয়েব্যাকটিতে পৃষ্ঠা যুক্ত করার জন্য একটি লিঙ্কে ক্লিক করার অফার রয়েছে। এই ক্ষেত্রে এছাড়াও, আপনি জানেন যে ওয়েব্যাক আপনার সাইট ক্রলিং থেকে অবরুদ্ধ নয়।
এখন, পয়েন্ট # 2 এর জন্য:
উইল Wayback আপনার সাইট ক্রল?
আপনি ওয়েবেব্যাককে আপনার সাইটটি ক্রল করার অনুমতি দেওয়ার কারণে , এর অর্থ এই নয় যে তারা (কখনও) আপনার সাইটটি ক্রল করবে।
ওয়েব্যাক এফএকিউ অনুসারে (জোর দেওয়া)
আমাদের সংরক্ষণাগারভুক্ত ওয়েব ডেটা আমাদের নিজস্ব ক্রল থেকে বা আলেক্সা ইন্টারনেটের ক্রল থেকে আসে। কোনও প্রতিষ্ঠানেরই এখন "আমার সাইট ক্রল করুন!" জমা দেওয়ার প্রক্রিয়া ইন্টারনেট আর্কাইভের ক্রলগুলি এমন সাইটগুলি খুঁজতে থাকে যা অন্যান্য সাইট থেকে ভালভাবে লিঙ্কযুক্ত । আমরা আপনার ওয়েব সাইটটি সন্ধান করার সর্বোত্তম উপায় হ'ল এটি অনলাইনে ডিরেক্টরিতে অন্তর্ভুক্ত রয়েছে এবং এটি আপনার সাথে অনুরূপ / সম্পর্কিত সাইট লিঙ্ক করেছে তা নিশ্চিত করা।
অ্যালেক্সা ইন্টারনেট ক্রল করার জন্য সাইটগুলি আবিষ্কার করতে নিজস্ব পদ্ধতি ব্যবহার করে। নিখরচায় অ্যালেক্সা সরঞ্জামদণ্ডটি ইনস্টল করা এবং আপনি যে সাইটটি ক্রল করতে চান তা সে সম্পর্কে তারা জানে কিনা তা নিশ্চিত করার জন্য এটি সহায়ক হতে পারে।
সাইটটি কে ক্রল করছে তা নির্বিশেষে আপনার অবশ্যই নিশ্চিত হওয়া উচিত যে আপনার সাইটের 'রোবটস.টি.এস.টি.এস.' বিধি এবং ইন-পৃষ্ঠায় মেটা রোবট নির্দেশিকা ক্রলারদের আপনার সাইট এড়াতে বলবে না।
আপডেট: 09-মে-2017
অন্যরা মন্তব্য / উত্তর রেখে গেছে যে ইঙ্গিত দেয় যে আর্কাইভ.অর্গ আর রোবটস.টেক্সটকে সম্মান করে না। সম্ভবত এটি "ওয়ার্ক-ইন-প্রগ্রেস" এবং অবশেষে এটি হবে তবে আমি এই নতুন আচরণটি এখনও দেখিনি।
এটির জন্য মামলাটি এই নিবন্ধটি থেকে আসে বলে মনে হচ্ছে : রোবটস.টেক্সট: রোবটস.টিএক্সটি একটি সুইসাইড নোট দ্বারা archiveteam.org। যদিও পৃষ্ঠাটিতে "রোবটস.টেক্সট" সম্পর্কে ভাল কিছু বলার দরকার থাকলেও এটি কোথাও উল্লেখ করেনি যে আর্কাইভ.অর্গ আর রোবটস.টিএসটি সম্মান করবে না।
আরও লক্ষ করুন: এই নিবন্ধটি হোস্ট করা হয়েছে archiveteam.org, যা অবশ্যই স্পষ্টভাবে নয় archive.orgএবং আমি নিশ্চিত নই যে archive.orgএবং এর মধ্যে কোনও (অফিসিয়াল) সম্পর্ক আছে archiveteam.org।
আসলে, সংরক্ষণাগার টিম সম্পর্কিত এই পৃষ্ঠাটি এবং (জোর দেওয়া যুক্ত) এর মধ্যে একটি পার্থক্য ঘোষণা করেছে বলে মনে হচ্ছে :archive.org archive.orgarchiveteam.org
২০০৯ সালে গঠিত, আর্কাইভ দলটি ( আর্কাইভ.আর্কাইভ -ইট টিমের সাথে বিভ্রান্ত হওয়ার দরকার নেই ) হ'ল ইতিহাস ও ডিজিটাল heritageতিহ্যের স্বার্থে দ্রুত মারা যাওয়া বা মুছে ফেলা ওয়েবসাইটগুলির অনুলিপিগুলি সংরক্ষণ করার জন্য উত্সর্গীকৃত এক দুর্বৃত্ত আর্কাইভিস্ট সমষ্টি। ...
যাই হোক, আমি এই একটি ব্যবহার করে দেখুন দেওয়ার সিদ্ধান্ত নিয়েছেন, এবং আমি যে খুঁজে পাওয়া যায় নি, এই সময়ে অন্তত Archive.org এখনও robots.txt এর সন্মান:
- আমি ইবেতে একটি এলোমেলো আইটেম পেয়েছি: আইটেম #: 131795294232
- বিক্রয়কৃত আইটেমগুলি দেখতে ক্লিক করুন:

- "বিক্রি হওয়া আইটেম" পৃষ্ঠাটি খোলে: http://offer.ebay.com/ws/eBayISAPI.dll?VideBidsLogin&item=131795294232 লিপটি ক্লিপবোর্ডে অনুলিপি করুন।
- এতে যান web.archive.org , এবং ইবে থেকে লিঙ্ক আটকে দিন।
- আপনি দেখতে পাবেন যে
archive.orgইঙ্গিত দেয় যে "পৃষ্ঠাটি রোবটসটিটিএসটির কারণে প্রদর্শিত হতে পারে না।"

সুতরাং, এই সময়ে, আমি অবিস্মরণীয় রয়েছি, তবে আমি ভুল প্রমাণিত হতে চাই ... সত্য যদি এটি হয় তবে দুর্দান্ত।