'স্টিলথ' ওয়েব-ক্রলারগুলি সনাক্ত করা হচ্ছে


107

ওয়েব-ক্রলারগুলি সনাক্ত করতে চান না এমন কী কী বিকল্প রয়েছে?

(আমি জানি যে তালিকা সনাক্তকরণ কৌশলগুলি স্মার্ট স্টিলথ-ক্রলার প্রোগ্রামারকে আরও ভাল মাকড়সা তৈরি করার অনুমতি দেবে, তবে আমি মনে করি না যে আমরা যে কোনও উপায়ে স্মার্ট স্টিলথ-ক্রলারগুলিকে অবরুদ্ধ করতে সক্ষম হব, কেবল যেগুলি ভুল করে।)

আমি গুগলবোট এবং ইয়াহু এর মতো সুন্দর ক্রলারের কথা বলছি না! গবগব করে খাওয়া। আমি যদি বটকে সুন্দর মনে করি তবে:

  1. ব্যবহারকারী এজেন্ট স্ট্রিংয়ে নিজেকে বট হিসাবে চিহ্নিত করে
  2. robots.txt পড়ে (এবং এটি মান্য করে)

আমি খারাপ সম্পর্কে কথা বলছি ক্রলারগুলির , সাধারণ ব্যবহারকারী এজেন্টদের পিছনে লুকিয়ে , আমার ব্যান্ডউইথ ব্যবহার করছি এবং এর বিনিময়ে আমাকে কখনই কিছু দিচ্ছি না।

কিছু ট্র্যাপডোর রয়েছে যা আপডেট তালিকা তৈরি করতে পারে (ধন্যবাদ ক্রিস, জিএস) :

  1. রোবট.টিএসটিএস্টে কেবল তালিকাভুক্ত (অনুমোদিত নয় হিসাবে চিহ্নিত) ডিরেক্টরি যুক্ত করা,
  2. অদৃশ্য লিঙ্কগুলি যুক্ত করা (সম্ভবত rel = "নফলো" হিসাবে চিহ্নিত?),
    • শৈলী = "প্রদর্শন: কিছুই নয়;" লিঙ্ক বা মূল পাত্রে
    • উচ্চতর জেড-ইনডেক্স সহ অন্য একটি উপাদানের নীচে স্থাপন করা হয়েছে
  3. কে মূলধন বুঝতে পারে না তা সনাক্ত করুন,
  4. উত্তরগুলি পোস্ট করার চেষ্টা করে তবে সর্বদা ক্যাপচাকে ব্যর্থ করে।
  5. পোষ্ট-কেবলমাত্র সংস্থানগুলিতে জিইটি অনুরোধগুলি সনাক্ত করুন
  6. অনুরোধের মধ্যে অন্তর সনাক্ত করুন
  7. অনুরোধ করা পৃষ্ঠাগুলির ক্রম সনাক্ত করুন
  8. কারা (ধারাবাহিকভাবে) HTTP- র উপর https সংস্থানগুলির জন্য অনুরোধ করে তা সনাক্ত করুন
  9. কে চিত্রের ফাইলের জন্য অনুরোধ করে না তা সনাক্ত করুন (এটি পরিচিত চিত্র সক্ষম ব্রাউজারগুলির ব্যবহারকারী-এজেন্টগুলির তালিকার সাথে মিলিয়ে আশ্চর্যজনকভাবে দুর্দান্ত কাজ করে)

কিছু ফাঁদ দুটি 'ভাল' এবং 'খারাপ' বট দ্বারা ট্রিগার করা হবে। একটি হোয়াইটলিস্টের সাথে আপনি তাদের একত্রিত করতে পারেন:

  1. এটি একটি ফাঁদ ট্রিগার
  2. এটা অনুরোধ robots.txt?
  3. এটি অন্য জালটিকে ট্রিগার করে না কারণ এটি মেনে চলে robots.txt

এখানে অন্য একটি গুরুত্বপূর্ণ বিষয় হ'ল
দয়া করে পর্দার পাঠক ব্যবহার করে অন্ধ লোকদের বিবেচনা করুন : ব্রাউজিং চালিয়ে যাওয়ার জন্য লোকেদের আপনার সাথে যোগাযোগ করার উপায় দিন বা একটি (অ-চিত্র) ক্যাপচাকে সমাধান করুন।

ওয়েব ক্রলারগুলি স্বয়ংক্রিয়ভাবে নিজেকে সাধারণ মানব দর্শকের মুখোশ দেওয়ার চেষ্টা করার জন্য কী কী পদ্ধতি রয়েছে।

আপডেট
প্রশ্নটি নয়: আমি প্রতিটি ক্রলারকে কীভাবে ধরব। প্রশ্নটি হল: আমি ক্রলার সনাক্তকরণের সুযোগটি কীভাবে সর্বাধিক করতে পারি।

কিছু মাকড়সা সত্যই ভাল, এবং প্রকৃতভাবে পার্স এবং এইচটিএমএল, এক্সএইচটিএমএল, সিএসএস জাভাস্ক্রিপ্ট, ভিবি স্ক্রিপ্ট ইত্যাদি বুঝতে পারে ...
আমার কোনও বিভ্রান্তি নেই: আমি তাদের পরাতে পারব না।

তবে আপনি অবাক হবেন যে কিছু ক্রলাররা কতটা বোকা। বোকামির সর্বোত্তম উদাহরণ সহ (আমার মতে) হচ্ছে: সমস্ত ইউআরএলগুলি অনুরোধ করার আগে লোয়ার কেসে কাস্ট করুন।

এবং তারপরে একটি পুরো গুচ্ছ ক্রোলার রয়েছে যা বিভিন্ন ট্র্যাপডোরগুলি এড়াতে কেবল 'যথেষ্ট ভাল না'।

উত্তর:


15

কিছুক্ষণ আগে, আমি একটি ক্ষুদ্র হোস্টিং সংস্থার সাথে কাজ করেছিলাম যাতে তারা এর সমাধান কার্যকর করতে সহায়তা করে। যে সিস্টেমটি আমি প্রদত্ত আইপি ঠিকানা থেকে অতিরিক্ত ক্রিয়াকলাপের জন্য ওয়েব সার্ভার লগগুলি পরীক্ষিত করেছি এবং অপরাধীদের ব্লক করার জন্য ফায়ারওয়াল বিধি জারি করেছে। এটিতে http://www.iplists.com/ এর উপর ভিত্তি করে আইপি ঠিকানা / রেঞ্জের শ্বেত তালিকা অন্তর্ভুক্ত রয়েছে , যা দাবিযুক্ত ব্যবহারকারী-এজেন্ট স্ট্রিংগুলি পরীক্ষা করে প্রয়োজনীয়তার পরে স্বয়ংক্রিয়ভাবে আপডেট হয়েছিল এবং যদি ক্লায়েন্টটি বৈধ মাকড়সা বলে দাবি করেছে তবে তার উপর নয় শ্বেতলিস্ট, উত্সের আইপি ঠিকানা বটের দাবিদার মালিকের সাথে মিল রয়েছে কিনা তা যাচাই করতে এটি ডিএনএস / বিপরীত-ডিএনএস লকআপস সম্পাদন করে। একটি ব্যর্থ সাফ হিসাবে, এই ক্রিয়াকলাপগুলি কোনও ভুল মূল্যায়নের ক্ষেত্রে ঠিকানাটিকে কালো / শ্বেত তালিকাতে লিঙ্ক সহ ইমেলের মাধ্যমে প্রশাসকের কাছে জানানো হয়েছিল।

আমি 6 মাস বা তার বেশি সময় ধরে এই ক্লায়েন্টের সাথে কথা বলিনি, তবে শেষ পর্যন্ত শুনেছি, সিস্টেমটি বেশ কার্যকরভাবে সম্পাদন করছে।

পার্শ্ব বিন্দু: আপনি যদি হিট-রেট-সীমাবদ্ধতার ভিত্তিতে অনুরূপ সনাক্তকরণ ব্যবস্থা করার কথা ভাবছেন তবে কমপক্ষে এক মিনিটের (এবং কমপক্ষে কমপক্ষে পাঁচ মিনিটের) মোট ব্যবহারের বিষয়ে নিশ্চিত হন। আমি কে ব্লক যারা এক সেকেন্ডের মধ্যে 5-10 হিট সমাজের সারাংশ, যা ইমেজ ভারী পাতায় মিথ্যা positives জেনারেট করতে পারেন (যদি না ইমেজ ট্যালি থেকে বাদ দেওয়া হয়) এবং করতে চান স্কিম এই ধরনের বিষয়ে কথা মানুষ অনেক দেখতে হবে মিথ্যা উৎপন্ন ইতিবাচক যখন আমার মতো কেউ এমন একটি আকর্ষণীয় সাইট খুঁজে পায় যা সে সমস্ত পড়তে চায়, তাই তিনি প্রথমটি পড়ার সময় পটভূমিতে লোড করার জন্য ট্যাবগুলিতে সমস্ত লিঙ্ক খুলে ফেলেন।


5
ওয়েব ক্রোলারকে অবরুদ্ধ করার ফলে মিথ্যা ইতিবাচকটি একেবারে ওয়েব ট্র্যাফিককে হত্যা করে। আপনি মূলত আপনার ব্যবহারকারীর 99.8% কে ক্রোলারদের বাধা দেওয়ার ক্ষীণ প্রয়াসে ছাড়িয়ে যাচ্ছেন যা বর্ণিত এই নিষ্পাপ পদ্ধতিটি সহজেই বাইপাস করতে পারে। ব্যবহারকারীর অ্যাক্সেস অস্বীকার করা বা এটিকে বাধা দেওয়া কখনই ভাল ধারণা নয় কারণ এটি আপনার সাইটের ব্যবহারকারীর অভিজ্ঞতা নষ্ট করে দেয়।
কেজেডাব্লু

14

প্রজেক্ট হানিপট দেখুন - তারা বড় আকারে বট ফাঁদ স্থাপন করছে (এবং তাদের আইপি সহ ডিএনএসআরবিএল আছে)।

ছদ্মবেশী ইউআরএল এবং এইচটিএমএল ব্যবহার করুন:

<a href="https://stackoverflow.com//example.com/"> = http://example.com/ on http pages.
<a href="page&amp;&#x23;hash"> = page& + #hash

এইচটিএমএলে আপনি মন্তব্য, সিডিএটিএ উপাদান, সত্ত্বা, ইত্যাদি সহ প্রচুর কৌশল ব্যবহার করতে পারেন:

<a href="foo<!--bar-->"> (comment should not be removed)
<script>var haha = '<a href="bot">'</script>
<script>// <!-- </script> <!--><a href="bot"> <!-->

9

একটি সহজ সমাধান হ'ল একটি লিঙ্ক তৈরি করা এবং এটি অদৃশ্য করা

<a href="iamabot.script" style="display:none;">Don't click me!</a>

অবশ্যই আপনার আশা করা উচিত যে কিছু লোক যারা সোর্স কোডটি দেখেন তারা সেই লিঙ্কটি অনুসরণ করে কেবল এটি কোথায় নিয়ে যায় তা দেখতে। তবে আপনি সেই ব্যবহারকারীদের একটি ক্যাপচা দিয়ে উপস্থাপন করতে পারেন ...

বৈধ ক্রলারগুলি অবশ্যই লিঙ্কটি অনুসরণ করবে। তবে আপনার একটি rel = nofollow বাস্তবায়ন করা উচিত নয়, তবে একটি বৈধ ক্রলারের সাইন সন্ধান করা উচিত। (ব্যবহারকারী এজেন্টের মতো)


1
যদি না বট লিঙ্কটির সিএসএস বৈশিষ্ট্যগুলি পরীক্ষা করে এবং লিঙ্কটি অনুসরণ করে না কারণ এটি কোনও মানব ব্যবহারকারীর কাছে দৃশ্যমান নয় ...
বব সোমারস

1
"আমাকে ক্লিক করবেন না" লিঙ্কটি লেবেল করা একটি ভাল ধারণা হবে .. যদি কারও সিএসএস অক্ষম থাকে (বা কোনও সিএসএস সমর্থন নেই), লিঙ্কটি দৃশ্যমান হবে ..
ডিবিআর

ভাল ধারণা. সম্ভবত পাঠ্যটি "এ" পরিবর্তন করুন। এবং সিএসএস শৈলীটি পটভূমির সাথে মেলে - এটি বেশিরভাগ ব্যবহারকারীর কাছে অদৃশ্য করে তোলে? অথবা, 1 সেকেন্ডের পরে এটি লুকানোর জন্য কোনও স্ক্রিপ্ট চালান যা কেবল এমন বটকে দৃশ্যমান রেখে দেয় যা জাভাস্ক্রিপ্টের আড়াল কমান্ডটিকে লিঙ্কটিতে লিঙ্ক করতে পারে না?
আন্ডারভারেজ

1
এসইও দৃষ্টিকোণ থেকে ব্ল্যাক হ্যাট পেনাল্টি থেকে সাবধান থাকুন।
আলফ্রেড ওয়ালেস

6

একটি জিনিস আপনি তালিকাবদ্ধ করেননি, যা সাধারণত খারাপ ক্রলারগুলি সনাক্ত করতে ব্যবহৃত হয়।

গতি হিট করুন, ভাল ওয়েব ক্রলারগুলি তাদের হিটগুলি ভেঙে দেবে যাতে তারা অনুরোধের সাথে কোনও সাইটকে প্রলয়ঙ্কিত করে না। খারাপ লোকেরা তিনটি কাজের মধ্যে একটি করবে:

  1. একের পর এক ধারাবাহিক লিঙ্কগুলি হিট করুন
  2. কিছু প্যারালেল সিকোয়েন্সে ক্রমযুক্ত লিঙ্কগুলি হিট করুন (একসাথে 2 বা তার বেশি)
  3. একটি নির্দিষ্ট বিরতিতে অনুক্রমিক লিঙ্কগুলি হিট করুন

এছাড়াও, কিছু অফলাইন ব্রাউজিং প্রোগ্রামগুলি বেশ কয়েকটি পৃষ্ঠাগুলি স্খলিত করবে, আমি নিশ্চিত নই যে আপনি আইপি ঠিকানার মাধ্যমে ব্লক করা শুরু করতে কোন ধরণের প্রান্তিকতা ব্যবহার করতে চান।

এই পদ্ধতিটি ফিরির বা উইজেটের মতো মিররিং প্রোগ্রামগুলিও ধরবে।

বট যদি সময়ের ব্যবধানটিকে এলোমেলো করে তোলে, আপনি লিঙ্কগুলি অনুক্রমিক বা গভীরতার-প্রথম পদ্ধতিতে অনুসরণ করেছেন কিনা তা পরীক্ষা করে দেখতে পারেন বা বটটি একটি বড় আকারের পাঠ্যকে (যেমন পড়ার মতো শব্দে) ট্র্যাভার করছে কিনা তা দেখতে পারেন a খুব স্বল্প সময়ের। কিছু সাইট প্রতি ঘন্টা অনুরোধের সংখ্যাও সীমাবদ্ধ করে।

প্রকৃতপক্ষে, আমি কোথাও একটি ধারণা শুনেছি, আমি মনে করি না কোথায়, কোনও ব্যবহারকারী যদি কিলোবাইটের দিক থেকে খুব বেশি ডেটা পান তবে তারা কোনও বট নয় প্রমাণ করার জন্য তাদের একটি ক্যাপচা উপস্থাপন করা যেতে পারে। যদিও আমি এটি বাস্তবায়িত কখনও দেখিনি।

লিঙ্ক গোপনে আপডেট করুন Update

লিংকগুলি যতক্ষণ না লুকানো যায় ততক্ষণে আপনি সিএসএস (ড্রয়ের ক্রমে এটি প্রথমে রেখে) এবং সম্ভবত জেড-অর্ডারটি সেট করে অন্যের অধীনে একটি ডিভ স্থাপন করতে পারেন। কোনও বট এটিকে উপেক্ষা করতে পারে না, আপনার সমস্ত জাভাস্ক্রিপ্টকে পার্স না করে এটি মেনু কিনা তা দেখার জন্য। কিছু পরিমাণে, অদৃশ্য ডিআইভি উপাদানগুলির মধ্যে থাকা লিঙ্কগুলিও বট সমস্ত জাভাস্ক্রিপ্টকে পার্সিং ব্যতীত উপেক্ষা করা যায় না।

এই ধারণাটি সমাপ্তির দিকে নিয়ে যাওয়া, অনাবৃত জাভাস্ক্রিপ্ট যা সম্ভবত লুকানো উপাদানগুলি প্রদর্শন করতে পারে তা জাভাস্ক্রিপ্ট পার্সিং বটগুলির একটি উপসেটকে বোকা বানিয়ে ফেলবে। এবং, এটি বাস্তবায়নের জন্য খুব বেশি কাজ নয়।


16
"জাভাস্ক্রিপ্ট উপেক্ষা করার অর্থ হ'ল প্রধান ত্রুটি" পদ্ধতিগুলি: আমাদের মধ্যে কেউ নোস্ক্রিপ্ট প্লাগইন ব্যবহার করে। আমি কোনও সাইটটি শ্বেত তালিকাভুক্ত না করলে কোনও সাইটই আমার উপর জাভাস্ক্রিপ্ট চালায় না এবং আমি নিশ্চিত যে আমি বট নই।
ডেভ শেরোহমান

2
বটস এখন জাভাস্ক্রিপ্ট কার্যকর করতে পারে ... খ্রিস্টের জন্য এটি 2013। সুতরাং পুরো যুক্তি সেখানে যায়। কে বলে যে ওয়েব ক্রলাররা অনুক্রমিক নির্বাচনের ক্ষেত্রে সাইটগুলি পরিদর্শন করে? অন্য একটি বিশাল অনুমান।
কেজেডাব্লু

1
জাভাস্ক্রিপ্টটি কেবল হানিপোট লিঙ্ক প্রদর্শনের জন্য ছিল। ধারণা যে বট হয় হবে জাভাস্ক্রিপ্ট করে একটি হানিপট লিংক দৃশ্যমান করতে হবে, তাদেরকে আরো লিঙ্কটি অনুসরণ করুন সম্ভাবনা উপার্জন পার্স। তবে প্রকৃত ব্যবহারকারীর জন্য, লিঙ্কটি দৃশ্যমান করে এমন কোডটি কখনই কার্যকর করা হবে না। সুতরাং নোস্ক্রিপ্ট ব্যবহারকারীরা, যে কেউ এলোমেলোভাবে ফাংশনগুলি সম্পাদন করে না সেগুলি ভাল হবে। এটি বলেছিল, আমি নিশ্চিত নই / কেন কোনও বট এলোমেলোভাবে কোড চালাচ্ছে কোড, এবং যদি কোনও উপাদান দৃশ্যমান হতে পারে কিনা তা নির্ধারণের জন্য এটি যদি স্থির বিশ্লেষণ করে যাচ্ছিল, তবে এটি এক অভিনব বট হবে।
রিক

4

ফর্মগুলির জন্য একটি সহজ বট সনাক্তকরণ পদ্ধতি শুনেছি হ'ল লুকানো ইনপুট কৌশল। আপনি যদি কোনও ফর্ম সুরক্ষিত করার চেষ্টা করছেন তবে কোনও আইডি দিয়ে ফর্মটিতে একটি ইনপুট দিন যা সম্পূর্ণরূপে আইনী দেখায়। তারপরে এটি আড়াল করার জন্য কোনও বাহ্যিক ফাইলে সিএসএস ব্যবহার করুন। অথবা আপনি যদি সত্যিই ভৌতিক হয়ে থাকেন তবে পৃষ্ঠা লোডে ইনপুট বাক্সটি আড়াল করতে jquery এর মতো কিছু সেটআপ করুন। আপনি যদি এটি সঠিকভাবে করেন তবে আমি কল্পনা করি যে এটির জন্য একটি বট বের করা খুব কঠিন। আপনি জানেন যে সেই সমস্ত বটগুলি সেখানে কোনও পৃষ্ঠাতে সমস্ত কিছু পূরণ করা প্রকৃতিতে রয়েছে বিশেষত যদি আপনি নিজের লুকানো ইনপুটটিকে id = "fname" ইত্যাদির মতো কোনও আইডি দেন etc.


2
যদি নিয়মিত ব্রাউজারের মতো বটগুলি jquery শেষ হওয়ার জন্য অপেক্ষা করতে সক্ষম হয় তবে তা নয়। এটি 00 এর দশকের গোড়ার দিকে ভালভাবে কাজ করতে পারে
কেজেডাব্লু

3

ভাল ব্যবহারকারী এজেন্ট স্ট্রিংগুলির সাথে তাল মিলিয়ে রাখা ঠিক তেমন সহজ নয়। ব্রাউজার সংস্করণগুলি আসে এবং যায়। বিভিন্ন আচরণের মাধ্যমে ব্যবহারকারী এজেন্ট স্ট্রিং সম্পর্কে একটি পরিসংখ্যান তৈরি করা আকর্ষণীয় বিষয় প্রকাশ করতে পারে।

আমি জানি না এটি কতদূর স্বয়ংক্রিয়ভাবে চালিত হতে পারে তবে কমপক্ষে এটি একটি পৃথক জিনিস।


3

নিরীক্ষিত, তবে আপনি ব্যবহারকারীর এজেন্টগুলির একটি দুর্দান্ত তালিকা যা আপনি নিয়মিত প্রকাশ করতে পারেন। আপনাকে সেখানে বেশিরভাগ পথ পেতে পারে:

ADSARobot|ah-ha|almaden|aktuelles|Anarchie|amzn_assoc|ASPSeek|ASSORT|ATHENS|Atomz|attach|attache|autoemailspider|BackWeb|Bandit|BatchFTP|bdfetch|big.brother|BlackWidow|bmclient|Boston\ Project|BravoBrian\ SpiderEngine\ MarcoPolo|Bot\ mailto:craftbot@yahoo.com|Buddy|Bullseye|bumblebee|capture|CherryPicker|ChinaClaw|CICC|clipping|Collector|Copier|Crescent|Crescent\ Internet\ ToolPak|Custo|cyberalert|DA$|Deweb|diagem|Digger|Digimarc|DIIbot|DISCo|DISCo\ Pump|DISCoFinder|Download\ Demon|Download\ Wonder|Downloader|Drip|DSurf15a|DTS.Agent|EasyDL|eCatch|ecollector|efp@gmx\.net|Email\ Extractor|EirGrabber|email|EmailCollector|EmailSiphon|EmailWolf|Express\ WebPictures|ExtractorPro|EyeNetIE|FavOrg|fastlwspider|Favorites\ Sweeper|Fetch|FEZhead|FileHound|FlashGet\ WebWasher|FlickBot|fluffy|FrontPage|GalaxyBot|Generic|Getleft|GetRight|GetSmart|GetWeb!|GetWebPage|gigabaz|Girafabot|Go\!Zilla|Go!Zilla|Go-Ahead-Got-It|GornKer|gotit|Grabber|GrabNet|Grafula|Green\ Research|grub-client|Harvest|hhjhj@yahoo|hloader|HMView|HomePageSearch|http\ generic|HTTrack|httpdown|httrack|ia_archiver|IBM_Planetwide|Image\ Stripper|Image\ Sucker|imagefetch|IncyWincy|Indy*Library|Indy\ Library|informant|Ingelin|InterGET|Internet\ Ninja|InternetLinkagent|Internet\ Ninja|InternetSeer\.com|Iria|Irvine|JBH*agent|JetCar|JOC|JOC\ Web\ Spider|JustView|KWebGet|Lachesis|larbin|LeechFTP|LexiBot|lftp|libwww|likse|Link|Link*Sleuth|LINKS\ ARoMATIZED|LinkWalker|LWP|lwp-trivial|Mag-Net|Magnet|Mac\ Finder|Mag-Net|Mass\ Downloader|MCspider|Memo|Microsoft.URL|MIDown\ tool|Mirror|Missigua\ Locator|Mister\ PiX|MMMtoCrawl\/UrlDispatcherLLL|^Mozilla$|Mozilla.*Indy|Mozilla.*NEWT|Mozilla*MSIECrawler|MS\ FrontPage*|MSFrontPage|MSIECrawler|MSProxy|multithreaddb|nationaldirectory|Navroad|NearSite|NetAnts|NetCarta|NetMechanic|netprospector|NetResearchServer|NetSpider|Net\ Vampire|NetZIP|NetZip\ Downloader|NetZippy|NEWT|NICErsPRO|Ninja|NPBot|Octopus|Offline\ Explorer|Offline\ Navigator|OpaL|Openfind|OpenTextSiteCrawler|OrangeBot|PageGrabber|Papa\ Foto|PackRat|pavuk|pcBrowser|PersonaPilot|Ping|PingALink|Pockey|Proxy|psbot|PSurf|puf|Pump|PushSite|QRVA|RealDownload|Reaper|Recorder|ReGet|replacer|RepoMonkey|Robozilla|Rover|RPT-HTTPClient|Rsync|Scooter|SearchExpress|searchhippo|searchterms\.it|Second\ Street\ Research|Seeker|Shai|Siphon|sitecheck|sitecheck.internetseer.com|SiteSnagger|SlySearch|SmartDownload|snagger|Snake|SpaceBison|Spegla|SpiderBot|sproose|SqWorm|Stripper|Sucker|SuperBot|SuperHTTP|Surfbot|SurfWalker|Szukacz|tAkeOut|tarspider|Teleport\ Pro|Templeton|TrueRobot|TV33_Mercator|UIowaCrawler|UtilMind|URLSpiderPro|URL_Spider_Pro|Vacuum|vagabondo|vayala|visibilitygap|VoidEYE|vspider|Web\ Downloader|w3mir|Web\ Data\ Extractor|Web\ Image\ Collector|Web\ Sucker|Wweb|WebAuto|WebBandit|web\.by\.mail|Webclipping|webcollage|webcollector|WebCopier|webcraft@bea|webdevil|webdownloader|Webdup|WebEMailExtrac|WebFetch|WebGo\ IS|WebHook|Webinator|WebLeacher|WEBMASTERS|WebMiner|WebMirror|webmole|WebReaper|WebSauger|Website|Website\ eXtractor|Website\ Quester|WebSnake|Webster|WebStripper|websucker|webvac|webwalk|webweasel|WebWhacker|WebZIP|Wget|Whacker|whizbang|WhosTalking|Widow|WISEbot|WWWOFFLE|x-Tractor|^Xaldon\ WebSpider|WUMPUS|Xenu|XGET|Zeus.*Webster|Zeus [NC]

থেকে নেওয়া: http://perishablepress.com/press/2007/10/15/ultimate-htaccess-blacklist-2-compressed-version/


1

আপনি রেফারেল চেক করতে পারেন। কোনও রেফারাল বট সাসপেনশন বাড়াতে পারেনি। খারাপ রেফারেল মানে অবশ্যই এটি ব্রাউজার নয়।

অদৃশ্য লিঙ্কগুলি যুক্ত করা (সম্ভবত rel = "নফলো" হিসাবে চিহ্নিত?),

* style="display: none;" on link or parent container
* placed underneath another element with higher z-index

আমি এটা করতে চাই না। আপনি ব্ল্যাক হ্যাট এসইও এর জন্য গুগল দ্বারা কালো তালিকাভুক্ত করতে পারেন :)


1
ঠিক কী এবং কেন এটি আপনাকে কালো তালিকাভুক্ত করবে?
বিতর্ক

1

আমি বর্তমানে এমন একটি সংস্থার জন্য কাজ করছি যা ওয়েব সাইটগুলিকে শ্রেণিবদ্ধ করার জন্য স্ক্যান করে। আমরা ম্যালওয়ারের জন্য সাইটগুলিও পরীক্ষা করি।

আমার অভিজ্ঞতায় আমাদের ওয়েব ক্রলারের এক নম্বর ব্লকার (যা অবশ্যই কোনও আইই বা ফায়ারফক্স ইউএ ব্যবহার করে এবং রোবটস টেক্সট মানায় না। ডু।) ইচ্ছাকৃতভাবে ম্যালওয়ার হোস্ট করছে এমন সাইটগুলি। এটি একটি ব্যথা কারণ সাইটটি এমন কোনও মানুষের কাছে ফিরে আসে যিনি ম্যানুয়ালি সাইটটি লোড করতে হয়, এটি শ্রেণিবদ্ধ করে এবং ম্যালওয়ারের জন্য এটি পরীক্ষা করে।

আমি কেবল বলছি, ওয়েব ক্রলারগুলি ব্লক করে আপনি নিজেকে কোনও খারাপ সংস্থায় রাখছেন।

অবশ্যই, যদি তারা মারাত্মক অভদ্র হয় এবং আপনার ব্যান্ডউইথের প্রচুর পরিমাণ চুষে নেয় তবে এটি একটি আলাদা গল্প কারণ আপনি ভাল কারণ পেয়েছেন।


15
আমি দুঃখিত, তবে আপনি যদি এমন ক্রলার চালান যা রোবটস.টেক্সটকে মানায় না, আপনি বিধি মানছেন না। নিয়ম না মেনে আপনি নিজেই নিজেকে কিছুটা খারাপ কোম্পানির মধ্যে রাখছেন। ওয়েবসাইটের মালিক দ্বারা নির্ধারিত নিয়মগুলি প্রয়োগ করা (রোবটস.টেক্সট এ) খারাপ অভ্যাস বলে প্রস্তাব দিয়ে আপনি ভুলভাবে সমস্যাটিকে উল্টে ফেলছেন। আপনি মূলত বলে রাখুন যে আপনি বুঝতে পারবেন না যে কন্টেন্টের ডান দিকের মালিক কে।
জ্যাকো

11
@ জ্যাকো: ম্যালওয়ারের সন্ধানকারী কোনও ক্রলার যদি নিয়ম মানেন তবে এটি কখনই খুঁজে পেত না। ম্যালওয়ার লেখকদের সাথে কথা বলুন।
ঝ্যান লিংস

5
@ জ্যাকো: বৈধ সাইটের শতকরা হারগুলি যা অনুপযোগী ক্রোলারদের ব্লক করার চেষ্টা করে? 1% এর নিচে ম্যালওয়্যার সাইটগুলি চেষ্টা করে? 60% এরও বেশি। হ্যাঁ, এটি সন্দেহজনক।
ঝান লিংস

4
@ জ্যাকো আসলে না, ওয়েবে কোনও সামগ্রীর মালিকানা পাবলিক হলে তা নেই। যে কেউ ম্যানুয়ালি অনুলিপি করা ও কপি করা ব্যতিরেকে এটি করছে তাকে শাস্তি না দিয়ে পুরষ্কার দেওয়া উচিত। এই সম্পূর্ণ কপিরাইট ধারণাটি ইন্টারনেটে বাতিল করা দরকার। কেবল সৃজনশীল উদ্ভাবন এবং বিশ্বাসই মূল্যবান এবং জনগণের দৃষ্টি আকর্ষণীয় হয়ে উঠতে পারে, অস্বচ্ছ আইনী পর্দার কোনও হুমকির দ্বারা নয়।
কেজেডাব্লু

এই সমস্ত বাহক ইঙ্গিত দেয় যে সাইট চালাচ্ছিল ব্যক্তি সেই সাইটে প্রচুর সময় এবং চিন্তাভাবনা রেখেছিল এবং তাদের কিছুটা প্রযুক্তিগত দক্ষতা রয়েছে। সুতরাং অবশ্যই ঘণ্টা বক্ররেখা অধিকাংশ আউট বিধি জারি করে যে।
পার্থিয়ান শট

1

লোকেরা আপনার ওয়েবসাইটের জন্য বিশেষায়িত ক্রলারগুলিকে নয় তবে ব্রড ক্রোলারগুলিকে সম্বোধন করে চলে।

আমি স্টিলথ ক্রলারগুলি লিখি এবং যদি তারা স্বতন্ত্রভাবে মধুর হাঁড়ি বা গোপন লিঙ্কগুলির পরিমাণ নির্মান না করে তবে তার কোনও প্রভাব পড়বে - বিশেষায়িত ক্রলারগুলি সনাক্ত করার একমাত্র আসল উপায় সংযোগের নিদর্শনগুলি পরীক্ষা করে।

এর সমাধানের জন্য সেরা সিস্টেমগুলি এআই (যেমন লিংকডিন) ব্যবহার করে AI
সবচেয়ে সহজ সমাধান হ'ল লগ পার্সারগুলি লিখুন যা আইপি সংযোগগুলি বিশ্লেষণ করে এবং কেবলমাত্র সেই আইপিগুলিকে কালো তালিকাভুক্ত করে বা কমপক্ষে অস্থায়ীভাবে ক্যাপচাকে পরিবেশন করে।

উদাহরণস্বরূপ,
যদি আইপি এক্স প্রতি 2 সেকেন্ডের সাথে সংযোগ স্থাপন করতে দেখা যায়foo.com/cars/*.html অন্য কোনও পৃষ্ঠাগুলির - তবে সম্ভবত এটি কোনও বট বা ক্ষুধার্ত শক্তি ব্যবহারকারী।

বিকল্পভাবে বিভিন্ন জাভাস্ক্রিপ্ট চ্যালেঞ্জগুলি রয়েছে যা সুরক্ষা হিসাবে কাজ করে (যেমন ক্লাউডফ্লেয়ারের অ্যান্টি-বট সিস্টেম), তবে সেগুলি সহজেই সমাধানযোগ্য হয়, আপনি কাস্টম কিছু লিখতে পারেন এবং এটি ক্রলারের জন্য প্রচেষ্টাটির পক্ষে মূল্যহীন না হওয়ার পক্ষে যথেষ্ট প্রতিবন্ধক হতে পারে।

তবে আপনাকে অবশ্যই একটি প্রশ্ন জিজ্ঞাসা করতে হবে আপনি কী মিথ্যা-পজিটিভ বৈধ ব্যবহারকারীদের প্রতি ইচ্ছুক এবং বটের ট্র্যাফিক প্রতিরোধে তাদের অসুবিধার পরিচয় দিন? জনসাধারণের ডেটা রক্ষা করা একটি অসম্ভব প্রতিক্রিয়া।


-1

সংক্ষিপ্ত উত্তর: যদি কোনও মধ্য স্তরের প্রোগ্রামার যদি জানে যে তিনি কী করছেন আপনি প্রকৃত ব্যবহারকারীকে প্রভাবিত না করে কোনও ক্রলার সনাক্ত করতে সক্ষম হবেন না। আপনার তথ্য সর্বজনীনভাবে রাখলে আপনি এটিকে কোনও ক্রলারের বিরুদ্ধে রক্ষা করতে পারবেন না ... এটি 1 ম সংশোধনীর মতোই :)

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.