ইন্টারনেট আর্কাইভের উপর নিয়ন্ত্রণ কেবল "অস্বীকার করুন /" ছাড়াও?


13

কোনও সাইটে ইন্টারনেট সংরক্ষণাগার সংরক্ষণাগারটি নিয়ন্ত্রণ করার কোনও ব্যবস্থা আছে কি? আমি যুক্ত করতে পারি এমন সমস্ত পৃষ্ঠা বাতিল করতে জানি :

User-agent: ia_archiver
Disallow: /
  1. আমি কি বটকে বলতে পারি যে আমি চাই যে তারা আমার সাইটটি মাসে একবার, বা বছরে একবার ক্রল করবে?

  2. আমার কাছে একটি সাইট / পৃষ্ঠা রয়েছে যা সম্পদ বাছাইয়ের কারণে সঠিকভাবে সংরক্ষণাগারভুক্ত হয় না / না। ইন্টারনেট আর্কাইভ বটকে বলার উপায় আছে যে সাইটটি দখল করতে চলেলে কী কী সম্পদের প্রয়োজন?


আমি এর উত্তর পেতে খুব আগ্রহী। +1 :)
টিম পোস্ট

উত্তর:


8

দ্রষ্টব্য : এই উত্তরটি দিন দিন অতিক্রান্ত।

ইন্টারনেট আর্কাইভের ওয়েব সংগ্রহে সবচেয়ে বড় অবদানকারী আলেকসান ইন্টারনেট। অ্যালেক্সা তার উদ্দেশ্যে যে ক্রল করে সেগুলি কয়েক মাস পরে আইএতে দান করা হয়েছে। প্রশ্নে উল্লিখিত অনুমোদন বিধি যুক্ত করা সেই ক্রলগুলিকে প্রভাবিত করে না, তবে ওয়েব্যাক তাদের 'প্রতিবিম্বিতভাবে' সম্মান করবে (অ্যাক্সেস অস্বীকার করবে, উপাদানটি এখনও সংরক্ষণাগারে থাকবে - আপনি যদি সত্যই আপনার উপাদানটি বাইরে রাখতে চান তবে আপনার আলেক্সার রোবট বাদ দেওয়া উচিত) ইন্টারনেট সংরক্ষণাগার)

অ্যালেক্সার ক্রলগুলি প্রভাবিত করার উপায় থাকতে পারে তবে আমি তার সাথে পরিচিত নই।

যেহেতু আইএ তার নিজস্ব ক্রলার তৈরি করেছে (হেরিট্রিক্স) তারা নিজস্ব ক্রলগুলি শুরু করেছে, তবে তাদের লক্ষ্যবস্তু ক্রল হবে (তারা লাইব্রেরি অফ কংগ্রেসের জন্য নির্বাচনী হামাগুড়ি দিয়েছিল এবং ফ্রান্স এবং অস্ট্রেলিয়ায় জাতীয় ক্রল করেছে ইত্যাদি)। গুগল এবং আলেক্সা যে ধরণের টেকসই বিশ্ব স্কেল ক্রল চালায় সেগুলিতে তারা জড়িত না। আইএর বৃহত্তম ক্রলটি ছিল 2 বিলিয়ন পৃষ্ঠাগুলি ক্রল করার জন্য একটি বিশেষ প্রকল্প।

যেহেতু এই ক্রলের সময়সূচী প্রকল্পের নির্দিষ্ট কারণের থেকে আহরণ করা পরিচালিত হয়, আপনাকে প্রভাবিত করতে পারবে না কত ঘন ঘন তারা আপনার সাইট ভিজিট বা যদি তারা আপনার সাইট ভিজিট করুন।

আইএ আপনার সাইটের কীভাবে এবং কখন ক্রল করে তা সরাসরি প্রভাবিত করার একমাত্র উপায় হ'ল তাদের সংরক্ষণাগার- পরিষেবা পরিষেবাটি ব্যবহার করা। এই পরিষেবাটি আপনাকে কাস্টম ক্রলগুলি নির্দিষ্ট করতে দেয়। ফলস্বরূপ তথ্যগুলি (শেষ পর্যন্ত) আইএর ওয়েব সংগ্রহের সাথে সংযুক্ত করা হবে। এটি অবশ্য একটি প্রদত্ত সাবস্ক্রিপশন পরিষেবা।


3
আইএর নিজস্ব ক্রলগুলি করা সম্পর্কে আপনার মন্তব্যটি ২০১১ সালে সত্য ছিল এবং এটি ২০১ in সালে আর সত্য নয়: আমরা এখন নিজেরাই প্রচুর ক্রলিং করি।
গ্রেগ লিন্ডাল

@ গ্রেগিলিন্ডহাল আপনাকে এই প্রশ্নের একটি আপডেট উত্তর যুক্ত করতে স্বাগত জানাই
স্টিফেন অসটারমিলার

2

বেশিরভাগ অনুসন্ধান ইঞ্জিনগুলি "ক্রল-বিলম্ব" নির্দেশকে সমর্থন করে তবে আমি জানি না আইএ কিনা তা করে। আপনি এটি চেষ্টা করতে পারেন যদিও:

User-agent: ia_archiver
Crawl-delay: 3600

এটি অনুরোধগুলির মধ্যে বিলম্বকে 3600 সেকেন্ডে (অর্থাত্ 1 ঘন্টা), বা মাসে মাসে ~ 700 অনুরোধের মধ্যে সীমাবদ্ধ করবে।

আমি মনে করি না # 2 সম্ভব - আইএ বট সম্পদগুলি যেমনটি যথাযথ দেখবে তখন ধরে ফেলবে। অতিরিক্ত সঞ্চয়স্থান ব্যবহার এড়াতে এতে ফাইলের আকারের সীমা থাকতে পারে।


@ ক্রিস: একটি ক্রল-বিলম্ব সেট করা প্রক্সি দ্বারা এটি করা উচিত। আপনার যদি 30 পৃষ্ঠাগুলি থাকে এবং আপনি ক্রোলারটিকে কেবল দিনে একবার হিট করতে বলেন, প্রতিটি পৃষ্ঠাটি প্রতি 30 দিন অন্তত রিফ্রেশ হতে পারে। (নিশ্চয়তার কোনও গ্যারান্টি নয়))
অসন্তুষ্টগোট

তত্ত্বের ক্ষেত্রে হ্যাঁ, তবে আপনি যদি সংরক্ষণাগার ক্রলিং করছেন তবে আপনি কখনই এই জাতীয় নিয়ম মানবেন না। প্রতিদিন কোনও দস্তাবেজ কোনও সাইট ক্রল করার অর্থ আপনি একটি নির্দিষ্ট মুহুর্তে সময় মতো সাইটের একটি ভাল ক্যাপচার পেতে পারবেন না। যদি এই বৈশিষ্ট্যটিকে সম্মান করা হয় তবে এটি কোনও আর্কাইভাল ক্রলটিতে 1-5 মিনিটের উপরের সীমাতে থাকবে ।
ক্রিস

আহ ঠিক আছে, আমি আপনার পয়েন্ট দেখুন।
অসন্তুষ্ট গোট

আমি সবেমাত্র প্রকাশিত হেরিট্রিক্স 3 এ দেখছি এবং আমি দেখতে পাচ্ছি যে তারা ক্রল-বিলম্বের দিকনির্দেশনাটি পরিচালনা করেছে, তবে এটি সর্বোচ্চ 300 সেকেন্ড (5 মিনিট) সম্মানের চেয়ে ডিফল্ট।
ক্রিস
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.