ওয়েব-ক্রলারগুলি সনাক্ত করতে চান না এমন কী কী বিকল্প রয়েছে?
(আমি জানি যে তালিকা সনাক্তকরণ কৌশলগুলি স্মার্ট স্টিলথ-ক্রলার প্রোগ্রামারকে আরও ভাল মাকড়সা তৈরি করার অনুমতি দেবে, তবে আমি মনে করি না যে আমরা যে কোনও উপায়ে স্মার্ট স্টিলথ-ক্রলারগুলিকে অবরুদ্ধ করতে সক্ষম হব, কেবল যেগুলি ভুল করে।)
আমি গুগলবোট এবং ইয়াহু এর মতো সুন্দর ক্রলারের কথা বলছি না! গবগব করে খাওয়া। আমি যদি বটকে সুন্দর মনে করি তবে:
- ব্যবহারকারী এজেন্ট স্ট্রিংয়ে নিজেকে বট হিসাবে চিহ্নিত করে
- robots.txt পড়ে (এবং এটি মান্য করে)
আমি খারাপ সম্পর্কে কথা বলছি ক্রলারগুলির , সাধারণ ব্যবহারকারী এজেন্টদের পিছনে লুকিয়ে , আমার ব্যান্ডউইথ ব্যবহার করছি এবং এর বিনিময়ে আমাকে কখনই কিছু দিচ্ছি না।
কিছু ট্র্যাপডোর রয়েছে যা আপডেট তালিকা তৈরি করতে পারে (ধন্যবাদ ক্রিস, জিএস) :
- রোবট.টিএসটিএস্টে কেবল তালিকাভুক্ত (অনুমোদিত নয় হিসাবে চিহ্নিত) ডিরেক্টরি যুক্ত করা,
- অদৃশ্য লিঙ্কগুলি যুক্ত করা (সম্ভবত rel = "নফলো" হিসাবে চিহ্নিত?),
- শৈলী = "প্রদর্শন: কিছুই নয়;" লিঙ্ক বা মূল পাত্রে
- উচ্চতর জেড-ইনডেক্স সহ অন্য একটি উপাদানের নীচে স্থাপন করা হয়েছে
- কে মূলধন বুঝতে পারে না তা সনাক্ত করুন,
- উত্তরগুলি পোস্ট করার চেষ্টা করে তবে সর্বদা ক্যাপচাকে ব্যর্থ করে।
- পোষ্ট-কেবলমাত্র সংস্থানগুলিতে জিইটি অনুরোধগুলি সনাক্ত করুন
- অনুরোধের মধ্যে অন্তর সনাক্ত করুন
- অনুরোধ করা পৃষ্ঠাগুলির ক্রম সনাক্ত করুন
- কারা (ধারাবাহিকভাবে) HTTP- র উপর https সংস্থানগুলির জন্য অনুরোধ করে তা সনাক্ত করুন
- কে চিত্রের ফাইলের জন্য অনুরোধ করে না তা সনাক্ত করুন (এটি পরিচিত চিত্র সক্ষম ব্রাউজারগুলির ব্যবহারকারী-এজেন্টগুলির তালিকার সাথে মিলিয়ে আশ্চর্যজনকভাবে দুর্দান্ত কাজ করে)
কিছু ফাঁদ দুটি 'ভাল' এবং 'খারাপ' বট দ্বারা ট্রিগার করা হবে। একটি হোয়াইটলিস্টের সাথে আপনি তাদের একত্রিত করতে পারেন:
- এটি একটি ফাঁদ ট্রিগার
- এটা অনুরোধ
robots.txt
? - এটি অন্য জালটিকে ট্রিগার করে না কারণ এটি মেনে চলে
robots.txt
এখানে অন্য একটি গুরুত্বপূর্ণ বিষয় হ'ল
দয়া করে পর্দার পাঠক ব্যবহার করে অন্ধ লোকদের বিবেচনা করুন : ব্রাউজিং চালিয়ে যাওয়ার জন্য লোকেদের আপনার সাথে যোগাযোগ করার উপায় দিন বা একটি (অ-চিত্র) ক্যাপচাকে সমাধান করুন।
ওয়েব ক্রলারগুলি স্বয়ংক্রিয়ভাবে নিজেকে সাধারণ মানব দর্শকের মুখোশ দেওয়ার চেষ্টা করার জন্য কী কী পদ্ধতি রয়েছে।
আপডেট
প্রশ্নটি নয়: আমি প্রতিটি ক্রলারকে কীভাবে ধরব। প্রশ্নটি হল: আমি ক্রলার সনাক্তকরণের সুযোগটি কীভাবে সর্বাধিক করতে পারি।
কিছু মাকড়সা সত্যই ভাল, এবং প্রকৃতভাবে পার্স এবং এইচটিএমএল, এক্সএইচটিএমএল, সিএসএস জাভাস্ক্রিপ্ট, ভিবি স্ক্রিপ্ট ইত্যাদি বুঝতে পারে ...
আমার কোনও বিভ্রান্তি নেই: আমি তাদের পরাতে পারব না।
তবে আপনি অবাক হবেন যে কিছু ক্রলাররা কতটা বোকা। বোকামির সর্বোত্তম উদাহরণ সহ (আমার মতে) হচ্ছে: সমস্ত ইউআরএলগুলি অনুরোধ করার আগে লোয়ার কেসে কাস্ট করুন।
এবং তারপরে একটি পুরো গুচ্ছ ক্রোলার রয়েছে যা বিভিন্ন ট্র্যাপডোরগুলি এড়াতে কেবল 'যথেষ্ট ভাল না'।