Robots.txt এর মাননা এছাড়া আনুগত্য কর nofollow
এবং noindex
এ <meta>
উপাদান এবং লিঙ্ক আছে:
অনেক লোক বিশ্বাস করেন যে রোবটস.টি.এস.টি.এক্স.কে ব্লক করার উপযুক্ত উপায় নয় এবং এই দৃষ্টিভঙ্গির কারণে, অনেক সাইট মালিকদের <meta name="robots" content="noindex">
ওয়েব ক্রলারদের কোনও পৃষ্ঠাতে সূচি না দেওয়ার জন্য ট্যাগের উপর নির্ভর করার নির্দেশ দিয়েছেন ।
আপনি যদি ওয়েবসাইটগুলির মধ্যে সংযোগগুলির একটি গ্রাফ তৈরি করার চেষ্টা করছেন (পেজর্যাঙ্কের অনুরূপ কিছু),
এবং (এবং <meta name="robots" content="nofollow">
) উত্সের সাইটটি এটির যথাযথ অনুমোদনের পক্ষে গন্তব্য সাইটকে যথেষ্ট বিশ্বাস করে না বলে মনে করে। সুতরাং আপনি যখন গন্তব্য সাইটটি সূচক করতে পারেন, তখন আপনার দুটি সাইটের মধ্যে সম্পর্ক সংরক্ষণ করা উচিত নয়।
এসইও হ'ল সত্যিকারের বিজ্ঞানের চেয়েও একটি শিল্প, এবং এটি প্রচুর লোক দ্বারা অনুশীলন করা হয় যারা জানেন তারা কী করছেন এবং অনেক লোক যারা নির্বাহী সংক্ষিপ্তসারগুলি পড়েন তারা জানেন যে তারা কী করছেন। আপনি এমন বিষয়গুলিতে চলে যেতে যাচ্ছেন যেগুলি এমন কিছু করার জন্য আপনি সাইটগুলি থেকে অবরুদ্ধ হয়ে যাবেন যা কিছু সাইট নিয়ম করে শুনে বা SEOoz এর ব্লগ পোস্টে পড়ার মতো অন্যান্য সাইটগুলি পুরোপুরি গ্রহণযোগ্য বলে মনে হয়েছে যা সঠিকভাবে ব্যাখ্যা করা হতে পারে বা নাও হতে পারে।
সেই মানব উপাদানটির কারণেই, আপনি গুগল, মাইক্রোসফ্ট বা ইয়াহু না হয়ে অন্যথায় প্রমাণিত না হলে আপনি দূষিত বলে বিবেচিত হন। আপনাকে কোনও ওয়েবসাইটের মালিকের জন্য কোনও হুমকী না হিসাবে কাজ করার জন্য আপনাকে অতিরিক্ত যত্ন নিতে হবে এবং আপনি কীভাবে কোনও সম্ভাব্য দূষিত (তবে আশাবাদী সৌম্য) ক্রলারটি অভিনয় করতে চান তা মেনে চলতে হবে:
- আপনাকে অবরুদ্ধ করা হচ্ছে তা শনাক্ত করার পরে কোনও সাইট ক্রলিং বন্ধ করুন: আপনার কাজ, থ্রোটলিং, টাইম আউট ইত্যাদি জানেন এমন পৃষ্ঠাগুলিতে 403/401 গুলি
- তুলনামূলকভাবে স্বল্প সময়ের মধ্যে নিখরচায় হামাগুড়ি এড়াতে: সাইটের একটি অংশ ক্রল করুন, এবং পরে আরও কিছু অংশ (কয়েক দিন পরে) ফিরে আসুন অন্য অংশটি ক্রল করার জন্য। সমান্তরাল অনুরোধ করবেন না।
- সম্ভাব্য সংবেদনশীল অঞ্চলগুলি ক্রলিং এড়ান:
/admin/
উদাহরণস্বরূপ ইউআরএল সহ ।
তারপরেও, আপনি ইউএ স্পুফিং বা উদ্দেশ্যমূলকভাবে আপনার ক্রলিংয়ের ধরণগুলি মাস্ক করার মতো কালো-টুপি কৌশল অবলম্বন না করলে এটি একটি উচ্চ-পাহাড়ী যুদ্ধ হতে চলেছে: উপরের একই কারণে অনেক সাইটের মালিক, অজানা ক্রলারকে দেখার পরিবর্তে চোখের সামনে অবরুদ্ধ করে দেবেন সুযোগ আছে যে কেউ "তাদের সাইট হ্যাক" করার চেষ্টা করছে না। অনেক ব্যর্থতার জন্য প্রস্তুত।
অজানা ক্রলার যে নেতিবাচক চিত্রটি মোকাবেলা করতে করতে আপনি যা করতে পারেন তা হ'ল এটি আপনি আপনার ব্যবহারকারী-এজেন্ট স্ট্রিংয়ে পরিষ্কার করে দিন:
Aarobot Crawler 0.9 created by John Doe. See http://example.com/aarobot.html for more information.
কোথায় http://example.com/aarobot.html
কি আপনি সাধন করার চেষ্টা করছি এবং কেন আপনি একটি হুমকি না হন ব্যাখ্যা করে। এই পৃষ্ঠায় কয়েকটি জিনিস থাকতে হবে:
- সরাসরি আপনার সাথে কীভাবে যোগাযোগ করবেন সে সম্পর্কে তথ্য
- ক্রলার কী সংগ্রহ করে এবং কেন এটি সংগ্রহ করছে সে সম্পর্কে তথ্য
- কীভাবে অপ্ট-আউট করবেন এবং যে কোনও ডেটা সংগ্রহ করা হয়েছে তার তথ্য
এটি শেষটি কী: একটি ভাল অপ্ট-আউট হ'ল মানি ব্যাক গ্যারান্টির মতো ™ এবং অযৌক্তিক পরিমাণ শুভেচ্ছাকে স্কোর করে। এটি মানবিক হওয়া উচিত: একটি সাধারণ পদক্ষেপ (হয় কোনও ইমেল ঠিকানা বা, আদর্শভাবে একটি ফর্ম) এবং বিস্তৃত (কোনও "গোটচস" হওয়া উচিত নয়: অপ্ট-আউট মানে আপনি ব্যতিক্রম ছাড়াই হামাগুড়ি থামিয়ে দেবেন)।