বাইদুস্পাইডার ক্রলের ফ্রিকোয়েন্সি ধীর করা কি সম্ভব?


18

বাইদু মাকড়সার ক্রল ফ্রিকোয়েন্সি থেকে অনেক কিছু তৈরি করা হয়েছে। এটি সত্য: "বাইদস্পাইডার পাগলের মতো হামাগুড়ি দেয়।"

আমি যে সাইটগুলির সাথে কাজ করি সেগুলিতে আমি এই ঘটনাটি অনুভব করেছি। কমপক্ষে একটি উদাহরণে, আমি খুঁজে পেয়েছি যে বাইডুস্পাইডার গুগলবটের মতো প্রায় একই ফ্রিকোয়েন্সি নিয়ে হামাগুড়ি দিয়েছিল, যদিও বাইদু গুগলের মতো প্রায় 1% ট্র্যাফিক সরবরাহ করে।

আমি আমার সাইটগুলিতে এই ভিজিটগুলি খুব কমই রাখতে চাই (সম্ভবত একদিন তারা বাড়বে?) তবে আমি আমার সার্ভারে এ জাতীয় ভারী বোঝাটিকে সমর্থন করতে পারি না।

উপরে লিঙ্কিত প্রশ্নের স্বীকৃত উত্তর থেকে জানা যায় যে বাইদু ওয়েবমাস্টার সরঞ্জামগুলি ক্রল হারকে সীমাবদ্ধ করার সুযোগ দেয় তবে আমি (কেবলমাত্র চীনা) কৃমিগুলিকে খুলতে দ্বিধা বোধ করি।

বিডব্লিউটি-র সাথে বাইডস্পাইডার ক্রল রেট সীমাবদ্ধ করার কি কারও অভিজ্ঞতা আছে? এই বোঝা সীমাবদ্ধ করার অন্য কোনও উপায় আছে?

উত্তর:


11

দুর্দান্ত প্রশ্ন এবং একাধিক ওয়েবমাস্টার আগ্রহী হতে পারে যেহেতু বাইদু মাকড়সা কুখ্যাতভাবে আক্রমণাত্মক এবং সার্ভারগুলি থেকে সংস্থানগুলি জ্যাপ করতে পারে ...

বাইদুর ওয়েব অনুসন্ধান খবরে বর্ণিত হিসাবে, বাইদু মাকড়সা ক্রল-বিলম্বিত বিজ্ঞপ্তি সেটিং সমর্থন করে না এবং এর পরিবর্তে আপনার সাইটটিকে এখানে বাইডু ওয়েবমাস্টার সরঞ্জাম প্ল্যাটফর্মের সাথে নিবন্ধিত এবং যাচাই করা প্রয়োজন । এটি সরাসরি বাইদুর সাথে ক্রলিং ফ্রিকোয়েন্সি নিয়ন্ত্রণ করার একমাত্র বিকল্প বলে মনে হয়।

সমস্যা হল অন্য স্প্যাম বট বাইডু এর ব্যবহারকারী-এজেন্ট (তালিকাভুক্ত ব্যবহার এখানে , সংখ্যা 2 অধীন) আপনার সাইটে মাকড়শা কিভাবে তাদের প্রায়শই জিজ্ঞাসিত প্রশ্নাবলী নির্দেশিত হিসাবে এখানে সংখ্যা 4. অধীনে তাই বাইডু সঙ্গে ধীর ক্রল রেট অনুরোধ সবকিছু সমাধান নাও হতে পারে।

অতএব, আপনি যদি বাইদুর ওয়েবমাস্টার সরঞ্জামগুলি ব্যবহার করার সিদ্ধান্ত নেন, তবে বটস বনাম ব্রাউজার্স ডেটাবেস এর মতো কোনও সংস্থান ব্যবহার করে বা বিপরীত ডিএনএস লুকআপ ব্যবহার করে আইপি-র সাথে পরিচিত বলে চিহ্নিতকারী এর সাথে তার ব্যবহারকারী-এজেন্টদের তুলনা করাও বুদ্ধিমানের কাজ হতে পারে

কেবলমাত্র অন্য বিকল্পগুলি হ'ল হয় সমস্ত বাইদু ব্যবহারকারী-এজেন্টকে অবরুদ্ধ করা, এবং এইভাবে বাইদু থেকে সম্ভাব্য ট্র্যাফিকের ত্যাগ করা, বা অ্যাপাচের জন্য মোড_কোসের মতো কিছু ব্যবহার করে অতিরিক্ত অনুরোধ সীমাবদ্ধ করার চেষ্টা করা হয়েছে , যা পরিচালনার দাবি করেছে:

  • কোনও অবস্থান / সংস্থান (ইউআরএল) বা ভার্চুয়াল হোস্টের একযোগে অনুরোধের সর্বাধিক সংখ্যা।
  • ব্যান্ডউইথের সীমাবদ্ধতা যেমন কোনও ইউআরএল প্রতি সেকেন্ডে সর্বাধিক অনুমোদিত সংখ্যার অনুরোধ বা সেকেন্ডে সর্বাধিক / সর্বনিম্ন ডাউনলোড কেবিটস।
  • প্রতি সেকেন্ডে অনুরোধ ইভেন্টের সংখ্যা সীমাবদ্ধ করে (বিশেষ অনুরোধ শর্তাদি)।
  • এটি খুব গুরুত্বপূর্ণ ব্যক্তিদের (ভিআইপি) "সনাক্ত" করতে পারে যা কম বাধা ছাড়াই বা ওয়েব সার্ভার অ্যাক্সেস করতে পারে।
  • অননুমোদিত ক্রিয়াকলাপগুলি অস্বীকার করতে জেনেরিক অনুরোধ লাইন এবং শিরোনাম ফিল্টার। বডি ডেটা সীমাবদ্ধতা এবং ফিল্টারিংয়ের জন্য অনুরোধ করুন (Mod_parp প্রয়োজন)।
  • টিসিপি সংযোগ স্তরের সীমাবদ্ধতা, উদাহরণস্বরূপ, একক আইপি উত্স ঠিকানা বা গতিশীল রাখুন-জীবিত নিয়ন্ত্রণ থেকে অনুমোদিত সংযোগগুলির সর্বাধিক সংখ্যক।
  • সার্ভারটি বিনামূল্যে টিসিপি সংযোগের বাইরে চলে গেলে পরিচিত আইপি ঠিকানাগুলি পছন্দ করে।

আমি বাইদু ওয়েবমাস্টার সরঞ্জামগুলির সাথে প্রতিবেদনিত অভিজ্ঞতা পাই নি, যা লোড করা ধীর এবং অনুবাদ সংক্রান্ত সমস্যা রয়েছে (কোনও ইংরেজী সংস্করণ নেই)। এটি সহায়ক হতে পারে, তবে অবশ্যই মতামত ভিত্তিক।


1
এটি ডানকে সত্যই সহায়ক। এই সমাধানগুলির কয়েকটি চেষ্টা করে দেখানো (বাইদু ওয়েবমাস্টার সরঞ্জামগুলি আসল ব্যথা)) আবার রিপোর্ট করবে।
সামথিব্র্যান্ড

1
ধন্যবাদ! দুর্দান্ত - আমি যদি অন্য কোনও বিকল্প খুঁজে পাই তবে আমি এটি আপডেট করব। এই প্রশ্নটি আক্রমণাত্মক বটগুলির সাথে প্রচুর ওয়েবমাস্টারদের হতাশাগুলি এবং তাদের সাথে আলাপচারিতা নিয়ে উদ্বেগকে প্রতিফলিত করে (যেমন, বাইদু ওয়েবমাস্টার সরঞ্জাম)। আশা করি বৈধ বটগুলি এটিকে বিবেচনা করবে এবং আরও ভাল সরঞ্জাম / বিকল্প উপলব্ধ হবে options
ডান

@ সামথেব্র্যান্ড এবং ড্যান - দয়া করে ফিরে রিপোর্ট করুন! আপনি সুপারিশ করতে পারেন এমন কোনও সমাধান খুঁজে পেয়েছেন?
lazysounds systemm

5

এটি নিয়ে অনেক গবেষণা এবং পরীক্ষা-নিরীক্ষার পরে অবশেষে আমি বুলেটটি বিট করলাম এবং একটি বাইদু ওয়েবমাস্টার সরঞ্জাম অ্যাকাউন্ট সেট আপ করব। এটি অন্যরকম একটি উইন্ডোতে গুগল অনুবাদ সহ সজ্জিত যখন ব্যবহার করা একেবারে সোজা ward আপনি সাধারণ ব্রাউজার মোড থেকে ক্যাপচার করতে পারবেন না এমন বোতামগুলি থেকে চীনা পাঠ্য অনুলিপি করতে পারাতে আপনার ফায়ারব্যাগ সক্রিয় করতে হতে পারে।

আপনার সেটআপ করার পরে, ক্রলিং ডেটা প্রদর্শিত হওয়ার জন্য আপনাকে কয়েক দিন অপেক্ষা করতে হবে এবং তারপরে আপনি ক্রল রেটটি কাস্টমাইজ করতে পারবেন। এটি "চাপ" নামে একটি বিভাগে উপস্থিত হয় যা আপনাকে এই URL টি দিয়ে জানাতে সক্ষম হওয়া উচিত:
http://zhanzhang.baidu.com/pressure/adjust?site=http%3A%2F%2Fwww.your URL.com%2F
নোট করুন যে আপনি যদি কেবলমাত্র কোনও বাইদু ওয়েবমাস্টার সরঞ্জাম অ্যাকাউন্ট সেটআপ করেন এবং প্রশ্নবিদ্ধ ওয়েবসাইটের জন্য আপনার ওয়েবসাইটের URL টি আপনার অ্যাকাউন্টের সাথে যুক্ত করেছেন তবেই আপনি এই URL টি ব্যবহার করতে পারবেন। এখানে আপনি কেন্দ্রে আপনার বর্তমান ক্রল রেট সহ একটি স্লাইডার দেখতে পাবেন (আমার ক্ষেত্রে প্রতিদিন 12676 টি অনুরোধ। ক্রল রেট কমাতে বাম দিকে স্লাইড করুন।

এটি আসলে আপনার অনুরোধটিকে সম্মান জানায় তবে এখনও আমার কোনও ধারণা নেই। এটি আপনাকে একটি সতর্কতা দেয় যা এরকম কিছু বলে। "আমরা আপনাকে সুপারিশ করি যে আপনি ডিফল্ট সাইট বাইদু ক্রল রেট ব্যবহার করুন Only কেবলমাত্র যদি আপনার ওয়েবসাইটটি আমাদের ক্রলিংয়ের ক্ষেত্রে সমস্যা হয় তবে এটি সামঞ্জস্য করার জন্য এই সরঞ্জামটি ব্যবহার করুন your আপনার সাইটের স্বাভাবিক ক্রলিং বজায় রাখতে, বাইদু আপনার ক্রল রেটের সামঞ্জস্যকে আসল সাথে বিবেচনা করবে সাইটের শর্তাদি এবং তাই আপনার অনুরোধ অনুযায়ী সামঞ্জস্য করার গ্যারান্টি দিতে পারে না। "


1
আমি নিশ্চিত যে আমিই একা নন যিনি এই বিষয়ে একটি আপডেটের প্রশংসা করবেন - এটি কি অনুরোধটিকে সম্মান করে? আপনি কি একটি অ্যাকাউন্ট তৈরি করার পরামর্শ দিবেন?
23:37

ক্রল ফ্রিকোয়েন্সি সামঞ্জস্য পৃষ্ঠায় সরাসরি ইউআরএল আপডেট করেছে, কারণ এটি এখন ওয়েবমাস্টার সরঞ্জামগুলিতে আরও গভীরভাবে সমাহিত করা হয়েছে (মেনুতে আর নেই)। গুগল অনুবাদ তোলে কারণে অনুবাদের ;-) বিভ্রান্তিকর করতে এটা খুব কঠিন এটি
odony

-1

হ্যাঁ, আপনি একই সার্ভারে একের পর এক অনুরোধের মধ্যে অপেক্ষা করতে কয়েক সেকেন্ডের জন্য সেট করতে রোবটস.টেক্সটেCrawl-delay প্যারামিটারটি ব্যবহার করতে পারেন ।

User-agent: Baiduspider
Crawl-delay: 100

প্রথম লাইনটি কেবলমাত্র বাইদু ওয়েব ক্রলারকে আদেশটি সম্মান করার জন্য বলে। ২ য় লাইনটি সার্ভারের অনুরোধগুলির মধ্যে সেকেন্ডে অপেক্ষা করার সময়। আপনার প্রয়োজনের জন্য আপনি যে কোনও সময় বিলম্ব করতে চান তা যুক্ত করতে পারেন।

তুমি তোমার exsisting মধ্যে নিম্নলিখিত কমান্ডগুলি যোগ করতে হবে robots.txt এর ফাইল। যদি আপনার কাছে ইতিমধ্যে একটি রোবটসটিটিএসটি ফাইল না থাকে তবে উপরের কোডটি কোনও পাঠ্য ফাইলে যুক্ত করুন, ফাইলটি রোবটস.টেক্সট হিসাবে সংরক্ষণ করুন এবং এটি আপনার ওয়েবসাইটের মূল ফোল্ডারটি আপলোড করুন, সুতরাং এটি নীচের ঠিকানায় প্রদর্শিত হবে:

www.examplesite.com/robots.txt

2
বাইডস্পাইডার ক্রল-বিলম্ব সমর্থন করে না। এখানে দেখুন ।
সামথিব্র্যান্ড

উফফ, এটি কয়েকটি সাইটে দেখেছিল রোবটস.টি.এস.টি ফাইলে তাই ধরে নিয়েছে! এই উক্তিটি কীভাবে যায় ?!
সর্বোচ্চ
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.