কীভাবে বাইডু মাকড়সা ব্লক করবেন


15

আমার বেশিরভাগ পরিদর্শন বৈদু মাকড়সা থেকে। আমি মনে করি না এটি অনুসন্ধান ইঞ্জিনগুলিকে একেবারে সহায়তা করে তাই আমি কীভাবে সেগুলি ব্লক করব সে সম্পর্কে আমি ভাবছি। এটি iptables মাধ্যমে করা যেতে পারে? আমি এনগিনেক্সকে আমার ওয়েবসভার হিসাবে ব্যবহার করছি।


2
আমি কেন করব না? আমি চাইনিজ ট্র্যাফিক চাই না।
Zhianc

6
আমি বলছি না যে আপনার উচিত হবে না, আমি কেন জিজ্ঞাসা করছি কেন মোটে বিরক্ত করবেন। তারা কি কোনওভাবে আপনাকে কষ্ট দিচ্ছে? শুধু উপেক্ষা করা কি সহজ নয়? "চাইনিজ ট্র্যাফিক না চাওয়া" আসলে এখানে উত্তর নয়, কেবল সীমান্তের জেনোফোবিয়া। এবং একটি সার্চ ইঞ্জিন ব্লক করা চীনাদের ব্লক করা প্রায় একই জিনিস নয়, তাই আপনি সত্যিকার অর্থেও বোধ করছেন না। আমার কাছে মনে হয়েছিল যে আপনি সম্ভবত কোনও ত্রুটিযুক্ত সমস্যার ভিত্তিতে সমাধান খুঁজছেন। তবে আপাতদৃষ্টিতে আপনি কেবল নির্বিচারে কিছু মাকড়সা ব্লক করতে চান, তাই এগিয়ে যান, আমার ধারণা।
সু '

7
@ সু 'আমি দেখতে পেলাম যে বৈদু মাকড়সা আমার সাইটে চরম আক্রমণাত্মকভাবে হামাগুড়ি দিয়েছিল, যার ফলে বৈধ ট্র্যাফিক ধরেছিল। তদুপরি, আমি আরও দেখতে পেলাম যে বাইডু মাকড়সা robots.txtনিয়ম মানছে না ।
স্টারবিয়াম্রেনবোলাবস

2
আমি অনুমিত বাইদু মাকড়সা থেকে প্রতি সেকেন্ডে প্রায় 1-2 হিট পাই। প্রতিটি হিট আমার সার্ভারে একটি নতুন সেশন ফাইল উত্পন্ন করে। সেই সেশন ফাইলগুলি সরানোর জন্য আমার কাছে একটি স্ক্রিপ্ট রয়েছে তবে সেই মাকড়সাগুলি আমার মাইএসকিউএল সার্ভারটিও ওভারলোড করে। আমি অবশ্যই তাদের ব্লক করতে চাই।
বাটাল বাটকস

2
বৈদুস্পাইডার বা বৈদুস্পাইডার হিসাবে পোজ করা কিছু অনৈতিকভাবে সাইটগুলি ক্রল করে এবং রোবটস.টেক্সট নির্দেশনা উপেক্ষা করে তা নিশ্চিত করতে পারে।
জেএমসি

উত্তর:


8

আপনার robots.txt এ যুক্ত করুন

#Baiduspider
User-agent: Baiduspider
Disallow: /

#Yandex
User-agent: Yandex
Disallow: /

5
তারা যদি রোবটস.টেক্সটকে সম্মান না করে?
Zhianc

5
আমি জানতে পেরেছি যে চাইনিজ আইপি অ্যাড্রেসগুলি থেকে "বাইডস্পাইডার / ২.০" অ্যাক্সেসগুলি আমার সাইটে রোবটস.টেক্সট মানেনা। এছাড়াও, তারা প্রায়শই একই আইপি ঠিকানা ব্লক থেকে সমন্বিত অ্যাক্সেসগুলি (কয়েক মিনিট দূরে) ব্যবহার করে যা "বাইডস্পাইডার" ব্যবহারকারী এজেন্ট আইডি ব্যবহার করে না।
এমজিক্রেবস

ইয়ানডেক্স রোবট মান্য করে দেয়।আমরা রাশিয়া থেকে আমাদের ব্যবসায়ের একটি ভাল অংশ না আসা পর্যন্ত এবং এটিকে ব্লকটি সরিয়ে ফেলতে পারা পর্যন্ত আমি সেগুলি লক করে দিয়েছিলাম। বৈদু, আপনাকে নেটব্লকগুলি পরীক্ষা করতে হবে। সমস্ত বাইদু ইউএ ঘোষিত সত্যই বাইদু নয় তাই আপনাকে বৈধ বাইদু ট্র্যাফিকের জন্য একটি রোবটস.টেক্সট ব্লক করা দরকার এবং তারপরে আপনার .htaccess এ ইউএ স্ট্রিং ব্লক করা উচিত এবং তারপরে ব্লক সনাক্তকরণ এবং অস্বীকার করে আপনার জীবনকে ব্লক করে ফেলুন বাকি যা ইউএ স্ট্রিং ব্লকের চারপাশে আসে। ট্র্যাফিক নিতে আপনার সার্ভারকে আরও সুন্দর করে তোলা ঠিক ততটাই কাজ।
ফায়াসকো ল্যাবগুলি

2
আমার কাছে User-agent: *এবং বায়ডস্পাইডারের অ্যাক্সেসগুলি করা অবিরত রয়েছে।
রিইনারপোস্ট

3
ইয়াণ্ডেক্স রাশিয়ান বাজারের জন্য আলাদা সার্চ ইঞ্জিন তাই ঠিক এখানে এটি অন্তর্ভুক্ত করে যখন প্রশ্ন একেবারেই জিজ্ঞাসা করে না এবং এ সম্পর্কে কিছু না লিখে কিছুটা দায়িত্বজ্ঞানহীন।
কালেক্টর

7

আমি সবেমাত্র Baiduspiderআমার সাইটের কোনও সামগ্রী অ্যাক্সেস করা থেকে চীনা অনুসন্ধানবোটকে সফলভাবে অবরুদ্ধ করেছি। নিম্নলিখিত কারণে আমি তা করার সিদ্ধান্ত নিয়েছি।

অবরুদ্ধ করার সিদ্ধান্ত নেওয়ার কারণ

  1. আমার সার্ভারে প্রায় প্রতি 20 তম অনুরোধটি বৈদু বট থেকে ছিল। এটি অপ-আচরণীয় আচরণ is আমার সাইটের ব্যান্ডউইথ ব্যবহারের 5% বায়ডবোটের রয়েছে।
  2. গতি এবং ব্যান্ডউইদথের ছোট জয় করার জন্য আমি ব্রাউজারের ক্যাচিংয়ের মতো সংস্থানগুলি ছোট এবং লিভারেজ প্রযুক্তির উপর রাখার জন্য প্রচুর চেষ্টা করি। বৈদুবোটকে অবরুদ্ধ করে 5% মুক্ত করার বিষয়টি বিবেচনা করা যৌক্তিক।
  3. সাইটের কিছু সামগ্রী ভৌগলিকভাবে যুক্তরাজ্যের জন্য নির্দিষ্ট, তাই চীনা ভাষার কোনও সংস্করণ নেই এবং যুক্তরাজ্যের বাজারে লক্ষ্যবস্তু বিজ্ঞাপন থেকে আয় করা হয় বলে কিছু চীনা ট্র্যাফিক হারাতে পারে এমন ব্যবসায়ের পক্ষে গ্রহণযোগ্য ঝুঁকি।

সুতরাং আমি আশা করি সু 'এবং জেনোফোবিয়ার বিষয়ে উদ্বিগ্ন অন্যরা এই সিদ্ধান্তটি বুঝতে পারবেন না, এই সিদ্ধান্তটি একটি অবিস্মরণীয় সংখ্যার অনুরোধের একটি শীতল-প্রতিক্রিয়া।

পদ্ধতি

বাইডস্পাইডার অনেকগুলি বিভিন্ন আইপি ঠিকানা ব্যবহার করে আমার সার্ভারটি অ্যাক্সেস করে তবে এই ঠিকানাগুলি নির্দিষ্ট রেঞ্জের মধ্যে পড়ে। সুতরাং আমার .htaccess ফাইলটিতে এখন নিম্নলিখিত লাইন রয়েছে:

order allow,deny 
allow from all
# Block access to Baiduspider 
deny from 180.76.5.0/24 180.76.6.0/24 123.125.71.0/24 220.181.108.0/24 

নীচের লাইনটি মূলত 4 টি আইপির ব্যাপ্তি বর্ণনা করে যার মধ্যে আমি জানি বৈডস্পাইডার এবং কেবলমাত্র বৈদুস্পাইডারই আমার সার্ভারটি অ্যাক্সেস করে। 4 টি রেঞ্জের প্রতিটি 256 টানা ঠিকানা (মোট 1024)। দয়া করে মনে রাখবেন, আইপি রেঞ্জের জন্য সিনট্যাক্সটি deny from...বিভ্রান্তিকর হতে পারে যদি আপনি সিআইডিআর রেঞ্জগুলিতে পড়েন না। কেবল বুঝতে 0/24পারুন যে এর অর্থ 0 থেকে শুরু হওয়া 256 আকারের পরিসীমা তাই 180.76.5.0/24প্রকৃতপক্ষে প্রতিটি আইপি ঠিকানাটি 180.76.5.0এবং এর মধ্যে অর্থ হয় 180.76.5.255। হ্যাঁ, বিশেষভাবে সুস্পষ্ট নয়! তবে আপনি যদি শিখতে চান বা কেন আপনি কেবল বিভ্রান্তি বোধ করছেন http://www.mediawiki.org/wiki/Help: রেঞ্জ_ব্লকস এ যান

সারসংক্ষেপ

ইন্টারনেট বিনামূল্যে, উন্মুক্ত এবং সুষ্ঠু হওয়া উচিত। তবে এর অর্থ হল বাইদুর মতো সংস্থাগুলি রোবটস.টেক্সটকে মানতে শিখেছে এবং ক্রলগুলির নিয়মিততার সাথে কম লোভী হচ্ছে। আমার সমাধানটি খুব শক্তিশালী সেটিংসের সাথে টিঙ্কারিংয়ের সাথে জড়িত তাই আপনি .htaccess ফাইলটি নিয়ে গণ্ডগোলের আগে আপনার আসলটিকে ব্যাক আপ করার বিষয়ে নিশ্চিত হন, আপনি যদি নিজের সার্ভারকে গৌরবতে নেমে যান তবে রোলব্যাকের জন্য প্রস্তুত। আপনার নিজের ঝুঁকিতে এগিয়ে চলুন।


তাদের আইপি অ্যাড্রেস ব্লকগুলি পরিবর্তিত হতে পারে, তাই এটি সময়ে সময়ে রক্ষণাবেক্ষণের প্রয়োজন হয়
জিজ্ঞাসা করুন

5

robots.txtআপনার সাইটের ক্রলিংটিকে অস্বীকার করতে আপনি নীচের নির্দেশিকাটি ব্যবহার করতে পারেন ।

# robots.txt
User-agent: Baiduspider
Disallow: /

তবে, ক্রলার পারে আপনার robots.txt বিষয়বস্তু উপেক্ষা করার সিদ্ধান্ত নেন। তদুপরি, ফাইলটি অনুসন্ধান ইঞ্জিন দ্বারা ক্যাশে করা যায় এবং পরিবর্তনগুলি প্রতিফলিত হওয়ার আগে এটি সময় নেয়।

আপনার সার্ভারের ক্ষমতা ব্যবহার করা সবচেয়ে কার্যকর পন্থা। nginx.confসার্ভার স্তরে বাইদুকে ব্লক করতে আপনার ফাইলটিতে নিম্নলিখিত বিধি যুক্ত করুন ।

if ($http_user_agent ~* ^Baiduspider) {
  return 403;
}

পরিবর্তনগুলি প্রয়োগ করতে Nginx পুনরায় চালু বা পুনরায় লোড করতে ভুলবেন না।


3

কেবল বৈদুকে ব্লক করার সিদ্ধান্ত নিয়েছে কারণ এটি আমাদের যে পরিমাণ ট্র্যাফিক দিচ্ছে তা তাদের আক্রমণাত্মক স্ক্যানিংয়ের জন্য খুব নগন্য। তদতিরিক্ত, তারা এখন এমন একটি এজেন্ট চালায় যা কোনও ব্রাউজারের ছদ্মবেশ তৈরি করে এবং জাভাস্ক্রিপ্ট কোড (যেমন গুগল অ্যানালিটিক্স) আরম্ভ করে এবং আমাদের পরিসংখ্যানকে বিশৃঙ্খল করে।

সুন্দর সংস্করণটি নিম্নলিখিত সহ আপনার রোবটস.টেক্সটকে আপডেট করছে

User-agent: Baiduspider
Disallow: /
User-agent: Baiduspider-video
Disallow: /
User-agent: Baiduspider-image
Disallow: /

তবে অন্যেরা এখানে কী লিখেছেন এবং তাদের ব্যবহারকারীর এজেন্ট ব্যবহার করে যা তাদের উপস্থিতি লুকিয়ে রাখে তা বিবেচনা করে আমি তাদের আইপি ঠিকানাগুলি পুরোপুরি ব্লক করে দেব। এটি কীভাবে এনজিএনএক্সে সম্পন্ন হয়েছে তা নীচে

# Baidu crawlers
deny 123.125.71.0/24;
deny 180.76.5.0/24;
deny 180.76.15.0/24;
deny 220.181.108.0/24;

2

ওয়ার্ডপ্রেস সমাধান (সেরা নয় তবে সাহায্য করে)

বিয়াদু মাকড়সার একই সমস্যা, যে আক্রমণাত্মক যে আমার বাক্সটি উপরে ব্যবহার করে আমার কনসোলটিতে 35-র উপরে। স্পষ্টতই যে একটি দ্রুত কম্পিউটারও 35-র দিকে চলমান অনুরোধগুলির বাইরে কার্যকরভাবে পরিচালনা করতে পারে না ...

আমি আইপি'র সংখ্যাটি জানতে পেরেছি (সেই বিশ্ববিদ্যালয় ভবন থেকে ????) বেশ কয়েক শ হতে, মূলত দুটি ইউজ্রেজেন্ট সহ)

প্রত্যক্ষ পরিণতি? আমার যেমন ক্লাউড সার্ভার রয়েছে তেমন একটি ডিসেন্ড সাড়া দেওয়ার জন্য আমাকে একই উচ্চতর স্মৃতিতে আপগ্রেড করতে হয়েছিল।

পূর্ববর্তী উত্তর:

#Baiduspider
User-agent: Baiduspider
Disallow: /

বাইডু রোবট.এসটি ইঙ্গিতটিকে সম্মান করতে পুরোপুরি অক্ষম বলে মনে হচ্ছে।

আমি কি করেছিলাম:

আমি ওয়ার্ডপ্রেস (ফ্রি) এর জন্য ডাব্লুপি-ব্যান প্লাগইন ইনস্টল করেছি এবং নিম্নলিখিতগুলি নিষিদ্ধ করেছি:

ব্যবহারকারী এজেন্টস:

  • Baiduspider+(+http://www.baidu.com/search/spider.htm)

  • Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)

তবুও ডাব্লুপি সুপার ক্যাশে ব্যবহার করে আমি সম্পর্কিত ত্রুটি পৃষ্ঠাটিকে একটি স্থিতিশীল পৃষ্ঠায় পুনরায় সম্বোধন করি, সুতরাং পুরো ওয়ার্ডপ্রেস ইনস্টলেশনটি / বা কমপক্ষে কেবল নিষিদ্ধ ইউজারেজদের জন্য মাইএসকিএল ডেটাটেবল পরীক্ষা করে না।

(এটি স্ট্যান্ডার্ড ওয়ার্ডপ্রেস ব্লেবলা

আমি সবার সাথে একমত: ইন্টারনেট নিখরচায়, যে কাউকে বা যা কিছু করা উচিত তা সম্পূর্ণ নিষিদ্ধ, তবে বাইদু আজ আমাকে পর্তুগিজে লেখা একটি ওয়েবসাইড মাকড়সা করার জন্য আরও 40 মাস / ডলার ব্যয় করে, এবং সেখানে থাকলে আমার কিছু সন্দেহ আছে প্রচুর চাইনিজ এবং দর্শক এই ভাষাটি পড়তে এবং বুঝতে সক্ষম।


1

আপনি ngx_http_access_moduleএনজিএনএক্স ব্যবহার করে আইপি ঠিকানা দ্বারা ব্লক করতে পারেন । একটি একক আইপি ব্লক করার জন্য আপনি কনফ ফাইলের মতো একটি লাইন যুক্ত করতে পারেন

deny 12.34.567.1;

একটি পরিসীমা অবরুদ্ধ করতে, 24-বিট সাবনেট ব্লকের (256 আইপি অ্যাড্রেসগুলির) জন্য সিআইডিআর স্বরলিপি ব্যবহার করুন 12.34.567.1/24যার মধ্যে 12.34.567.1 আইপি ঠিকানা রয়েছে। আরও বিশদের জন্য উদাহরণস্বরূপ দেখুন এই পৃষ্ঠাটি


1

সাথে .htaccess ব্যবহার করুন

RewriteEngine On
RewriteCond %{HTTP_USER_AGENT} ^.*MJ12bot [NC,OR]
RewriteCond %{HTTP_USER_AGENT} ^.*Baidu [NC]
RewriteRule .*  - [L,F]

"রিরাইটইঙ্গাইন অন" আপনাকে নীচের লাইনগুলি সঠিকভাবে পার্স করার অনুমতি দেয়। HTTP_USER_AGENT হ'ল লাইন যেখানে মাকড়সাগুলি তাদের সনাক্ত করছে। শর্তটি সত্য যদি লাইনে "MJ12bot" বা "বাইদু" থাকে। এনসি মানে "কেস-সংবেদনশীল নয়" এবং আপনি ওআর দিয়ে শর্তগুলি শৃঙ্খলাবদ্ধ করতে পারেন। শেষ লাইনে অবশ্যই "OR" থাকা উচিত নয় বা নিয়মটি কাজ করে না।

বাইদু বিশেষত বাজে কারণ এটি ওয়ার্ডপ্রেস এন্ট্রি ("fckeditor", "wp-content") পড়ার চেষ্টা করে যার জন্য একেবারে কোনও কারণ নেই। এমজে 12বোটও খারাপ সমালোচকদের একজন।

পুনর্লিখনের নিয়ম বলতে বোঝায় যে সমস্ত ফাইল অ্যাক্সেস করতে 403 নিষিদ্ধ ([এফ]) দিয়ে মাকড়সাটিকে ব্লক করুন (। * যে কোনও ফাইলের জন্য নিয়মিত প্রকাশ) এবং এইচটিসেসির আরও মূল্যায়ন ([এল]) বন্ধ করুন।


1
Fপতাকা বোঝা L, তাই আপনাকে স্পষ্টভাবে অন্তর্ভুক্ত প্রয়োজন হবে না Lএখানে পতাকা। এছাড়াও, মত একটি প্যাটার্ন সরল ^.*Baiduহিসাবে একই Baidu
মিঃ হোয়েট
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.