কেবল গুগল এবং বিং বটগুলিকেই কোনও সাইট ক্রল করার অনুমতি দিন


10

আমি কোনও সাইটের জন্য নিম্নলিখিত রোবটস.টি.এস.টি. ফাইলটি ব্যবহার করছি: টার্গেট হ'ল পেজ ব্যতীত গুগলবট এবং বিংবোটকে সাইটে অ্যাক্সেসের অনুমতি দেওয়া /bedven/bedrijf/*এবং অন্য সমস্ত বটকে সাইটটি ক্রলিং থেকে আটকাতে হবে।

User-agent: googlebot
Disallow: /bedven/bedrijf/*
Crawl-delay: 10

User-agent: google
Disallow: /bedven/bedrijf/*
Crawl-delay: 10

User-agent: bingbot
Disallow: /bedven/bedrijf/*
Crawl-delay: 10

User-agent: bing
Disallow: /bedven/bedrijf/*
Crawl-delay: 10

User-agent: *
Disallow: /

শেষ বিধিটি কি User-agent: * Disallow: /সমস্ত বটগুলিকে সাইটের প্রতিটি পৃষ্ঠা ক্রল করা থেকে নিষেধ করে?


11
এই পুরো কাজটি আমাকে উদ্বেগিত করে। অন্যান্য অনুসন্ধান ইঞ্জিন রয়েছে, এবং যে কেউ সেগুলি ব্যবহার করে সে আপনার সাইটটি দেখতে পাবে না। thyword.co.uk/info/search_engine_market বলে যে ইন্টারনেটের ৪.৯৯% আপনার সার্চ ইঞ্জিনগুলিতে নেই। এটা অনেক লোক। আপনার ট্র্যাফিক নিরীক্ষণ করা এবং কোনও বট আসলে সমস্যা সৃষ্টি করে কিনা তা দেখার জন্য আরও ভাল পদ্ধতি হ'ল বিশেষত সেগুলি ব্লক করুন।
GKFX

8
একটি দুর্ব্যবহারকারী বট কেবল আপনার robots.txtযাহাই হউক না কেন
নিক টি

8
সত্যিই খারাপ বটগুলি
ওসভালদো

4
@ নিকট, বাস্তব বিশ্বে, খারাপ আচরণ করা বটগুলির কোনও ঘাটতি নেই যা অনুসরণ করে robots.txtবা কমপক্ষে Disallow: /নিয়ম করে। যদি আপনার ব্যক্তিগত ওয়েবসাইটটি মাটিতে আছড়ে পড়েছে কারণ কোনও বট প্রোগ্রামার কখনও বিবেচনা করেনি যে 256 কেবিট সংযোগের ভুল প্রান্তে সার্ভারটি রাস্পবেরি পাই হতে পারে, এর মতো একটি কম্বল বর্জনযোগ্য।
চিহ্নিত করুন

2
@ কনসোল কেন?
o0 '

উত্তর:


24

শেষ রেকর্ডটি (দিয়ে শুরু করা হয়েছে User-agent: *) এমন সমস্ত ভদ্র বট অনুসরণ করবে যা নিজেকে "গুগলবট", "গুগল", "বিংবোট" বা "বিং" হিসাবে পরিচয় দেয় না।
এবং হ্যাঁ, এর অর্থ হল যে তাদের কোনও কিছু ক্রল করার অনুমতি নেই।

আপনি বাদ করতে চাইতে পারেন *মধ্যে /bedven/bedrijf/*
মূল রোবটস.এসটিএসটি স্পেসিফিকেশনে *এর কোনও বিশেষ অর্থ নেই, এটি অন্যর মতো একটি চরিত্র মাত্র। সুতরাং এটি কেবল এমন পৃষ্ঠাগুলির ক্রলিংকে অস্বীকার করবে যেগুলিতে আক্ষরিক অর্থে *তাদের ইউআরএলটিতে অক্ষর রয়েছে।
গুগল যদিও এই বিষয়ে রোবটস.টেক্সট স্পেসিফিকেশন অনুসরণ করে না, কারণ তারা *"চরিত্রের কোনও ক্রম" এর জন্য ওয়াইল্ডকার্ড হিসাবে ব্যবহার করে, তবে তাদের ক্ষেত্রে এগুলির দরকার নেই : /bedven/bedrijf/*এবং এর /bedven/bedrijf/অর্থ হ'ল: সমস্ত ইউআরএলকে অবরুদ্ধ করুন যার পথ শুরু সঙ্গে /bedven/bedrijf/

এবং অবশেষে, আপনি আপনার রোবটস.টেক্সটকে দুটি রেকর্ডে হ্রাস করতে পারেন, কারণ একটি রেকর্ডে একাধিক User-agentলাইন থাকতে পারে :

User-agent: googlebot
User-agent: google
User-agent: bingbot
User-agent: bing
Disallow: /bedven/bedrijf/
Crawl-delay: 10

User-agent: *
Disallow: /

5
মনে রাখবেন যে, গুগল ক্রল বিলম্ব নির্দেশ উপেক্ষা করে robots.txt এ। পরিবর্তে আপনাকে এটি গুগল ওয়েবমাস্টার সরঞ্জামগুলিতে সেট করতে হবে।
অসন্তুষ্ট গোট

-2

বটস, বিশেষত খারাপগুলি, রোবটস.টি.এস.টি. ফাইলটি উপেক্ষা করতে পারে। সুতরাং সেখানে যা লেখা আছে তা বিবেচনাধীন কিছু বট আপনার সাইটের ক্রল করতে পারে।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.