ওয়েব সাইটগুলি ক্রল করার সময় কীভাবে একজন ভাল নাগরিক হবেন?

83

আমি এমন কিছু কার্যকারিতা বিকাশ করতে যাচ্ছি যা বিভিন্ন পাবলিক ওয়েব সাইটগুলিকে ক্রল করবে এবং সেগুলিতে ডেটা প্রক্রিয়া করবে / একত্রিত করবে। ই-মেইল ঠিকানাগুলির সন্ধানের মতো দুষ্টু কিছুই নয় - আসলে এটি এমন কিছু যা আসলে তাদের সাইটে অতিরিক্ত ট্র্যাফিক চালাতে পারে। কিন্তু আমার দ্বিমত আছে.

সম্মান দেওয়া ব্যতীত robots.txt, এমন কোনও নিয়ম বা নির্দেশিকা রয়েছে, যা লিখিত বা অলিখিত, আমার অনুসরণ করা উচিত, যাতে (ক) দূষিত এবং সম্ভাব্যভাবে নিষিদ্ধ হওয়ার বিষয়টি এড়ানো উচিত, এবং (খ) সাইটের মালিক / ওয়েবমাস্টারদের কোনও সমস্যা না ঘটায়?

আমি বিবেচনা করতে পারি এমন কয়েকটি উদাহরণ যা বিবেচনা করতে পারে বা না পারে:

সমান্তরাল অনুরোধের সংখ্যা
অনুরোধের মধ্যে সময়
পুরো ক্রলগুলির মধ্যে সময়
সম্ভাব্য ধ্বংসাত্মক লিঙ্কগুলি এড়ানো ( ডুমের স্পাইডার হতে চাই না - তবে এটি এমনকি ব্যবহারিক কিনা কে জানে)

যদিও এটি কেবল থুতু-বলিং, যদিও; মাকড়সা লেখার বা ব্যবহার করতে ইচ্ছুক এমন ব্যক্তির পক্ষে কি বিস্তৃতভাবে প্রযোজ্য এমন কোনও পরীক্ষিত ও পরীক্ষিত বুদ্ধি রয়েছে?

web-scraping web-crawler

— Aaronaught
সূত্র

1

নীচের প্রতিক্রিয়াগুলি কীভাবে সম্মানজনকভাবে কন্টেন্ট ক্রল করবেন সে সম্পর্কে দুর্দান্ত উত্তর সরবরাহ করার সময়, দয়া করে আপনি যখন বলেছেন এটির সামগ্রীটি ক্রল হয়ে যায় তখন গ্রহণযোগ্য ব্যবহারটি মনে রাখবেন। এটি পুরো বা আংশিকভাবে এটিকে পুনরায় প্রকাশ করা মালিকদের কপিরাইটের লঙ্ঘন হতে পারে।

— গ্যাভিন কোটস

85

Robots.txt এর মাননা এছাড়া আনুগত্য কর nofollowএবং noindexএ <meta>উপাদান এবং লিঙ্ক আছে:

অনেক লোক বিশ্বাস করেন যে রোবটস.টি.এস.টি.এক্স.কে ব্লক করার উপযুক্ত উপায় নয় এবং এই দৃষ্টিভঙ্গির কারণে, অনেক সাইট মালিকদের <meta name="robots" content="noindex">ওয়েব ক্রলারদের কোনও পৃষ্ঠাতে সূচি না দেওয়ার জন্য ট্যাগের উপর নির্ভর করার নির্দেশ দিয়েছেন ।
আপনি যদি ওয়েবসাইটগুলির মধ্যে সংযোগগুলির একটি গ্রাফ তৈরি করার চেষ্টা করছেন (পেজর্যাঙ্কের অনুরূপ কিছু), এবং (এবং <meta name="robots" content="nofollow">) উত্সের সাইটটি এটির যথাযথ অনুমোদনের পক্ষে গন্তব্য সাইটকে যথেষ্ট বিশ্বাস করে না বলে মনে করে। সুতরাং আপনি যখন গন্তব্য সাইটটি সূচক করতে পারেন, তখন আপনার দুটি সাইটের মধ্যে সম্পর্ক সংরক্ষণ করা উচিত নয়।

এসইও হ'ল সত্যিকারের বিজ্ঞানের চেয়েও একটি শিল্প, এবং এটি প্রচুর লোক দ্বারা অনুশীলন করা হয় যারা জানেন তারা কী করছেন এবং অনেক লোক যারা নির্বাহী সংক্ষিপ্তসারগুলি পড়েন তারা জানেন যে তারা কী করছেন। আপনি এমন বিষয়গুলিতে চলে যেতে যাচ্ছেন যেগুলি এমন কিছু করার জন্য আপনি সাইটগুলি থেকে অবরুদ্ধ হয়ে যাবেন যা কিছু সাইট নিয়ম করে শুনে বা SEOoz এর ব্লগ পোস্টে পড়ার মতো অন্যান্য সাইটগুলি পুরোপুরি গ্রহণযোগ্য বলে মনে হয়েছে যা সঠিকভাবে ব্যাখ্যা করা হতে পারে বা নাও হতে পারে।

সেই মানব উপাদানটির কারণেই, আপনি গুগল, মাইক্রোসফ্ট বা ইয়াহু না হয়ে অন্যথায় প্রমাণিত না হলে আপনি দূষিত বলে বিবেচিত হন। আপনাকে কোনও ওয়েবসাইটের মালিকের জন্য কোনও হুমকী না হিসাবে কাজ করার জন্য আপনাকে অতিরিক্ত যত্ন নিতে হবে এবং আপনি কীভাবে কোনও সম্ভাব্য দূষিত (তবে আশাবাদী সৌম্য) ক্রলারটি অভিনয় করতে চান তা মেনে চলতে হবে:

আপনাকে অবরুদ্ধ করা হচ্ছে তা শনাক্ত করার পরে কোনও সাইট ক্রলিং বন্ধ করুন: আপনার কাজ, থ্রোটলিং, টাইম আউট ইত্যাদি জানেন এমন পৃষ্ঠাগুলিতে 403/401 গুলি
তুলনামূলকভাবে স্বল্প সময়ের মধ্যে নিখরচায় হামাগুড়ি এড়াতে: সাইটের একটি অংশ ক্রল করুন, এবং পরে আরও কিছু অংশ (কয়েক দিন পরে) ফিরে আসুন অন্য অংশটি ক্রল করার জন্য। সমান্তরাল অনুরোধ করবেন না।
সম্ভাব্য সংবেদনশীল অঞ্চলগুলি ক্রলিং এড়ান: /admin/উদাহরণস্বরূপ ইউআরএল সহ ।

তারপরেও, আপনি ইউএ স্পুফিং বা উদ্দেশ্যমূলকভাবে আপনার ক্রলিংয়ের ধরণগুলি মাস্ক করার মতো কালো-টুপি কৌশল অবলম্বন না করলে এটি একটি উচ্চ-পাহাড়ী যুদ্ধ হতে চলেছে: উপরের একই কারণে অনেক সাইটের মালিক, অজানা ক্রলারকে দেখার পরিবর্তে চোখের সামনে অবরুদ্ধ করে দেবেন সুযোগ আছে যে কেউ "তাদের সাইট হ্যাক" করার চেষ্টা করছে না। অনেক ব্যর্থতার জন্য প্রস্তুত।

অজানা ক্রলার যে নেতিবাচক চিত্রটি মোকাবেলা করতে করতে আপনি যা করতে পারেন তা হ'ল এটি আপনি আপনার ব্যবহারকারী-এজেন্ট স্ট্রিংয়ে পরিষ্কার করে দিন:

Aarobot Crawler 0.9 created by John Doe. See http://example.com/aarobot.html for more information.

কোথায় http://example.com/aarobot.htmlকি আপনি সাধন করার চেষ্টা করছি এবং কেন আপনি একটি হুমকি না হন ব্যাখ্যা করে। এই পৃষ্ঠায় কয়েকটি জিনিস থাকতে হবে:

সরাসরি আপনার সাথে কীভাবে যোগাযোগ করবেন সে সম্পর্কে তথ্য
ক্রলার কী সংগ্রহ করে এবং কেন এটি সংগ্রহ করছে সে সম্পর্কে তথ্য
কীভাবে অপ্ট-আউট করবেন এবং যে কোনও ডেটা সংগ্রহ করা হয়েছে তার তথ্য

এটি শেষটি কী: একটি ভাল অপ্ট-আউট হ'ল মানি ব্যাক গ্যারান্টির মতো ™ এবং অযৌক্তিক পরিমাণ শুভেচ্ছাকে স্কোর করে। এটি মানবিক হওয়া উচিত: একটি সাধারণ পদক্ষেপ (হয় কোনও ইমেল ঠিকানা বা, আদর্শভাবে একটি ফর্ম) এবং বিস্তৃত (কোনও "গোটচস" হওয়া উচিত নয়: অপ্ট-আউট মানে আপনি ব্যতিক্রম ছাড়াই হামাগুড়ি থামিয়ে দেবেন)।

18

ব্যবহারকারী-এজেন্টে পরিষ্কার তথ্য রাখার পরামর্শের জন্য বিশাল +1। কে একটি বড় সাইট স্পাইডারিং করছে তা নির্ধারণ করার জন্য আমার ওয়েবসভার লগগুলি ছিটিয়ে দেওয়ার কাজটি হয়েছিল এবং সমস্ত অস্পষ্ট মাকড়সা কে চালাচ্ছে তা সনাক্ত করার চেষ্টা করা কোনও মজাদার নয়।

— কারসন 63000

4

ইউআরএল ফর্মটিতে রাখা বেশ সাধারণ (+http://example.com/aarobot.html)। আমি জানি না যে এখানে সাইনটির উদ্দেশ্য কী +, তবে আমি এটি প্রায়শই দেখেছি। ওয়েব-স্নিফার এটি করে এবং আরও অনেকগুলি এটি করে।

— ট্রিগ

এটি দুর্দান্ত তথ্য, তবে আমি একটি বিষয়ে বিভ্রান্ত হয়েছি: আপনি উল্লেখ rel="noindex"করেছেন যেন এটি কোনও <a>বৈশিষ্ট্য, তবে আপনি যে পৃষ্ঠায় লিঙ্ক করেছেন এটি <meta>ট্যাগটির contentবৈশিষ্ট্যের অংশ হিসাবে বর্ণনা করে । এটি উভয়ই, না এটি উত্তরের একটি টাইপো ছিল?

— অ্যারোনআউট

1

"সত্যিকারের বিজ্ঞানের চেয়ে এসইও হ'ল একটি শিল্প" - সত্য নয়। আপনি যদি একটি পরিসংখ্যান প্রোগ্রামার হন তবে এসইও কম শিল্প এবং আরও একটি গাণিতিক স্বীকৃতি দক্ষতা। যারা গণিতগুলিতে প্রোগ্রামিং বা প্রোগ্রামার দক্ষ, গণিত গ্রেডগুলির ওয়েব ডেটা প্রোফাইলিং শিল্পে তাদের যথেষ্ট চাহিদা রয়েছে।

— 3

4

@ টিআরআইজি: ব্যবহারকারী এজেন্টগুলিতে ইউআরএলগুলির সামনে প্লাস সাইন ইন করুন ।

— outis

32

যদিও এটি আপনার সমস্ত প্রশ্নের উত্তর দেয় না, আমি বিশ্বাস করি এটি আপনার এবং আপনি যে সাইটগুলিতে ক্রল করেন সেগুলির জন্য সহায়ক হবে।

দৃষ্টি আকর্ষণ না করে ওয়েবসাইটগুলি জোর করে দেওয়ার জন্য ব্যবহৃত কৌশলটির অনুরূপ, আপনার যদি একটি বিশাল পরিমাণ সাইটের পুল ক্রল করতে হয় তবে অন্য সাইটগুলির পরবর্তী পৃষ্ঠায় ক্রল না করা পর্যন্ত সাইটের পরবর্তী পৃষ্ঠাটি ক্রল করবেন না until । ঠিক আছে, আধুনিক সার্ভারগুলি HTTP সংযোগটি পুনরায় ব্যবহারের অনুমতি দেবে , সুতরাং আপনি ওভারহেড কমানোর জন্য একাধিক কিছু করতে চাইতে পারেন, তবে ধারণাটি এখনও স্থির। আপনি পরের স্থানে না যাওয়া অবসন্ন হওয়ার জন্য কোনও সাইট ক্রল করবেন না । ভালোবাসা ভাগ করে নাও.

দিনের শেষে আপনার জন্য, আপনি এখনও ঠিক অনেক পৃষ্ঠাতে ক্রল করতে পারেন, তবে একক সাইটে গড় ব্যান্ডউইথের ব্যবহার অনেক কম হবে।

আপনি যদি ক্বিয়ামতের মাকড়সা হওয়া এড়াতে চান তবে আগুনের কোনও নিশ্চিত পদ্ধতি নেই। যদি কেউ তাদের নাকের উপরে মটরশুটি আটকে রাখতে চায় তবে তারা এমন আচরণ ও আচরণ করবে যা আপনি কখনই অনুমান করতে পারেন না । এই কথাটি বলার পরেও, যদি আপনি মাঝে মাঝে বৈধ পৃষ্ঠাটি মিস করতে আপত্তি করেন না তবে কোনও লিঙ্কের জন্য শব্দের একটি কালো তালিকা রয়েছে যা আপনাকে এটি অনুসরণ করতে বাধা দেবে। উদাহরণ স্বরূপ:

মুছে ফেলা
অপসারণ
হালনাগাদ
সম্পাদন করা
পরিবর্তন করুন

মূর্খ-প্রমাণ নয়, তবে কখনও কখনও আপনি লোকদের কঠিন উপায়ে শেখা থেকে বিরত রাখতে পারবেন না;)

— ড্যান ম্যাকগ্রা
সূত্র

3

"ভালবাসা ভাগ করে নেওয়ার" সম্পর্কে ভাল পরামর্শ - এটি মোটেও বিবেচনা করেনি, যদিও অবশ্যই এটি পূর্ববর্তী ক্ষেত্রে স্পষ্ট বলে মনে হয়।

— অ্যারোনআউট

যদি আপনি

— রোবটস.টেক্সট

7

@ ডিডালনিক্স, তবে robots.txtইতিমধ্যে প্রশ্নটিতে উল্লেখ করা হয়েছে, এবং ধরে নেওয়া যেতে পারে।

— ট্রিগ

20

আমার এক পরামর্শ হ'ল আপনি যে ওয়েবসাইটটি ক্রল করছেন তা শোনার জন্য এবং এটির প্রতিক্রিয়া হিসাবে আপনার ক্রলকে পরিবর্তনশীল পরিবর্তন করতে হবে।

সাইটটি কি ধীর? ধীরে ধীরে ক্রল করুন যাতে আপনি এটি ডিডস করেন না। এটা কি দ্রুত? আরও কিছুক্ষণ হামাগুড়ি দিন!
সাইটটি কি ভুল হচ্ছে? কম ক্রল করুন যাতে আপনি ইতিমধ্যে দৃure়তার অধীনে কোনও সাইটকে চাপ দিচ্ছেন না। পুনরায় চেষ্টা করার সময় তাত্পর্যপূর্ণভাবে ব্যবহার করুন, যাতে সাইটটি তত বেশি সময় ত্রুটিযুক্ত হওয়ার কারণে আপনি আরও কম চেষ্টা করেন। তবে পরে আবার চেষ্টা করার কথা মনে রাখবেন, শেষ পর্যন্ত, যাতে নির্দিষ্ট URL এর পথে এক সপ্তাহ দীর্ঘ ত্রুটির কারণে আপনি যে কোনও কিছু হারিয়ে যাচ্ছেন তা দেখতে পান।
প্রচুর 404 পেয়েছেন? (মনে রাখবেন, আমাদের অভিনব 404 পৃষ্ঠাগুলি সার্ভারের সময়ও নেয়!) আপাতত সম্ভবত সমস্ত কিছু অনুপস্থিত রয়েছে এমন পথের সাথে আরও URL গুলি ক্রল করা এড়ান; যদি file001.html- file005.htmlনা হয়, আমি আপনাকে ডোনট ডলার file999.htmlহয় না হয়! অথবা আপনি সেই পথে যে কোনও কিছুই পুনরুদ্ধার করতে পারেন এমন শতকরা সময়টিকে ঘুরিয়ে ফেলুন।

আমি মনে করি এটিই যেখানে প্রচুর নিরীহ ক্রলারগুলি গভীরভাবে ভুল হয়ে যায়, একটি রোবোটিক কৌশল রেখে তারা লক্ষ্য সাইট থেকে ফিরে আসার সংকেত নির্বিশেষে একই উত্সাহ দেয়।

একটি স্মার্ট ক্রোলার এটি স্পর্শ করছে এমন টার্গেট সাইটগুলিতে প্রতিক্রিয়াশীল ।

— জেফ আতউড
সূত্র

19

অন্যরা কিছু মন্ত্রের উল্লেখ করেছেন তবে আমাকে কিছু যোগ করতে দিন।

ফাইলের ধরণ এবং আকারের দিকে মনোযোগ দিন। এই বিশাল বাইনারিগুলি টানবেন না।

কিছু সাধারণ ওয়েবসারভার "ডিরেক্টরি তালিকা" পৃষ্ঠাগুলির জন্য অনুকূলিতকরণ। বিশেষত, তারা আকার, তারিখ, নাম, অনুমতি এবং আরও কিছু জন্য বাছাই করতে অনুমতি দেয়। ক্রলিংয়ের জন্য প্রতিটি সাজানোর পদ্ধতিটিকে পৃথক মূল হিসাবে বিবেচনা করবেন না।

যখনই পাওয়া যায় জিজিপ (ফ্লাইতে সংক্ষেপণ) জিজ্ঞাসা করুন।

গভীরতা সীমাবদ্ধ করুন বা পুনরাবৃত্তি সনাক্ত করুন (বা উভয়)।

পৃষ্ঠার আকার সীমাবদ্ধ করুন। কিছু পৃষ্ঠাগুলি ইমেল-স্ক্র্যাপিং বটগুলিকে ব্যর্থ করতে তারপিকে প্রয়োগ করে। এটি এমন একটি পৃষ্ঠা যা শামুক গতিতে লোড হয় এবং এটি দীর্ঘ টেরাবাইট।

404 পৃষ্ঠাগুলি সূচী করবেন না। যে ইঞ্জিনগুলি বৃহত্তম সূচকগুলিতে গর্ব করে সেগুলি এটি করে এবং বিনিময়ে ভাল প্রাপ্য ঘৃণা অর্জন করে।

এটি জটিল হতে পারে তবে লোড-ব্যালেন্সিং ফার্মগুলি সনাক্ত করার চেষ্টা করুন। যদি v329.host.com/pages/article.php?99999 v132.host.com/pages/article.php?99999 হিসাবে একইটি ফেরত দেয় v001.host.com থেকে v999 পর্যন্ত সার্ভারের সম্পূর্ণ তালিকাটি স্ক্র্যাপ করবেন না। host.com

— সান ফ্রান্সিসকো।
সূত্র

গুরুত্বপূর্ণ কর্নার কেস!

— এম ডুডলি

আজকাল, আপনি প্রায়শই ক্যানোনিকাল ট্যাগগুলির জন্য পরীক্ষা করে ইচ্ছাকৃতভাবে কন্টেন্টগুলি (যেমন লোড-ব্যালেন্সিং ফার্মগুলি) সনাক্ত করতে পারেন।

— ব্রায়ান

4

আমি শুধু একটি ছোট জিনিস যোগ করব।

কপিরাইট এবং অন্যান্য আইনী সমস্যা: আমি জানি আপনি লিখেন সেগুলি পাবলিক ওয়েবসাইট, সুতরাং কোনও কপিরাইট নাও থাকতে পারে, তবে ডেটা সংরক্ষণ করার জন্য অন্যান্য আইনী সমস্যা থাকতে পারে।

এটি অবশ্যই কোন দেশের ডেটা আপনি সংরক্ষণ করছেন (এবং আপনি কোথায় সেগুলি সংরক্ষণ করছেন) তার উপর নির্ভর করবে। মার্কিন প্যাট্রিয়ট অ্যাক্ট বনাম ইইউর ডেটা সুরক্ষা নির্দেশিকা নিয়ে সমস্যাগুলির ক্ষেত্রে। সমস্যার একটি নির্বাহী সংক্ষিপ্তসার হ'ল মার্কিন সংস্থাগুলিকে তাদের ডেটা উদাহরণস্বরূপ দিতে হয়। এফবিআইকে যদি ব্যবহারকারীদের সে সম্পর্কে অবহিত না করে জিজ্ঞাসা করা হয়, যেখানে ডেটা প্রোটেকশন ডাইরেক্টিভ জানিয়েছে যে ব্যবহারকারীদের এটি সম্পর্কে অবহিত করতে হবে। Http://www.itworld.com/go સરકાર / 179977 / eu- upset- mic Microsoft- warning- about- us- access- eu- cloud

— হোলগার
সূত্র

2

"আমি জানি আপনি লিখেন সেগুলি পাবলিক ওয়েবসাইট, সুতরাং কোনও কপিরাইট নাও থাকতে পারে"। ইন্টারনেটে প্রতিটি ওয়েবসাইট পাবলিক এবং প্রতিটি ওয়েবসাইট কপিরাইটযুক্ত, যদি না তা অন্যথায় স্পষ্টভাবে বলে states

— গ্যাভিন কোটস

3

আপনার নামের সাথে যুক্ত আপনার ওয়েবক্রোলারটিকে সে বা মাকড়সা কল করুন। এটা গুরুত্বপূর্ণ. অ্যানালিটিক্স ইঞ্জিনগুলি এবং আপনাকে ... মাকড়সা হিসাবে সংযুক্ত করার মতো সন্ধান করুন। ;)

আমি যেভাবে দেখেছি তা হ'ল অনুরোধ শিরোনাম ব্যবহারকারী-এজেন্টের মাধ্যমে

— jcolebrand
সূত্র

আমি ভেবেছিলাম এটি সাধারণত একটি "বট" বা "রোবট" - আমি জানি যে গুগল হ'ল গুগলবোট।

— অ্যারোনআউট

ভাল যুক্তি. এতক্ষণ পার্থক্য করা যায়। সেগুলি পোস্ট করার জন্য সম্ভবত একটি পোস্ট রয়েছে।

— jcolebrand

2

ওয়েব সাইটকে অপ্রয়োজনীয় সেশন তৈরি করা থেকে বিরত রাখতে কুকিজ সংরক্ষণ করুন।
ব্রাউজারের সবচেয়ে কাছের লিঙ্ক পার্সিং আচরণ বাস্তবায়ন করুন। অনুপস্থিত ফাইলগুলির জন্য বট অনুরোধের কারণে আমাদের লাইভ সাইটটি প্রচুর '404s' প্রতিবেদন করে।

— ভ্যালেরা কলুপাইভ
সূত্র