গুগল কেন আমার ওয়েবসাইট থেকে বাইনারি ডাউনলোড করছে এবং ব্যান্ডউইথ ব্যবহার করছে?


9

আগস্টের মাঝামাঝি থেকে, বেশ কয়েকটি গুগল সার্ভার আমার ওয়েবসাইটটিতে (খুব) বড় বাইনারি ফাইলগুলি সপ্তাহে একবারে ডাউনলোড করছে। আইপিগুলি সমস্ত গুগলের মালিকানাধীন হিসাবে প্রদর্শিত হয় এবং এটি দেখতে: google-proxy-66-249-88-199.google.com। এগুলি জিইটি অনুরোধ, এবং তারা আমার সার্ভার ট্র্যাফিককে ব্যাপকভাবে প্রভাবিত করছে।

এর আগে, আমি এই গুগল প্রক্সি আইপিগুলি থেকে কোনও ট্র্যাফিক দেখিনি, সুতরাং এটি তুলনামূলকভাবে নতুন বলে মনে হচ্ছে। আমি অন্যান্য গুগল আইপি থেকে সমস্ত ধরণের ট্র্যাফিক দেখতে পাচ্ছি, সেগুলির মধ্যে কেবল গুগলবোট এবং হেড অনুরোধ রয়েছে।

আমি এই সম্পর্কে উদ্বিগ্ন হব না এই ব্যতীত এই ফাইলগুলি সমস্ত গুগল দ্বারা প্রতি সপ্তাহে বা আরও প্রায় ডাউনলোড করা হচ্ছে। ব্যবহৃত ব্যান্ডউইথ অতিরিক্ত পাওয়া শুরু করছে।

আমি অনুমান করেছি যেহেতু এই ফাইলগুলির অনেকগুলি উইন্ডোজ এক্সিকিউটেবল, সম্ভবত গুগল ম্যালওয়্যার স্ক্যানগুলি সম্পাদন করতে সেগুলি ডাউনলোড করছে। এমনকি যদি এটি সত্য হয়, তবে কি প্রতি সপ্তাহে সত্যই এটি হওয়া দরকার?

গুগল প্রক্সি আইপি থেকে নভেম্বর পর্যন্ত ট্র্যাফিকের উদাহরণ দিন:

google-proxy-64-233-172-95.google.com: 8.09 GB
google-proxy-66-102-6-104.google.com: 7.50 GB
google-proxy-66-249-83-245.google.com: 3.35 GB
google-proxy-66-249-84-131.google.com: 1.54 GB
google-proxy-66-249-83-131.google.com: 4.98 GB
google-proxy-66-249-83-239.google.com: 2.48 GB
google-proxy-66-249-88-203.google.com: 2.94 GB
google-proxy-66-249-88-201.google.com: 2.58 GB
google-proxy-66-249-88-199.google.com: 4.89 GB

আপডেট # 1: আমি উল্লেখ করতে ভুলে গেছি যে প্রশ্নে থাকা ফাইলগুলি ইতিমধ্যে সাইটের রোবট.টিএসটিএসটি ফাইলে রয়েছে। রোবটস.টিএসটি কনফিগারেশনটি সঠিকভাবে কাজ করছে বলে মামলা করার জন্য, আমি গুগল ওয়েবমাস্টার সরঞ্জামগুলিতে রোবটস.টি.এস.টি.এস.টি পরীক্ষকও ব্যবহার করেছি, যা দেখায় যে ফাইলগুলি অবশ্যই একটি ব্যতিক্রম সহ সমস্ত গুগল বটের জন্য অবরুদ্ধ করা আছে: অ্যাডসবট-গুগল। আমি নিশ্চিত যে এটি সম্পর্কে কি হয়। এবং আমি গুগল কিছু ফাইলের জন্য অনুসন্ধান করেছি এবং সেগুলি অনুসন্ধানের ফলাফলগুলিতে উপস্থিত হয় না।

আপডেট # 2: উদাহরণ: 17 নভেম্বর পিএসটি সকাল 5:12 থেকে 5:18 এর মধ্যে, প্রায় আধা ডজন আইপি (সমস্ত গুগল-প্রক্সি) মোট বাইনারি সংক্রান্ত সমস্ত ফাইলের জিইটি করেছে, 27 টি? ৪ নভেম্বর দুপুর ২:০৯ পিএম পিএসটি-র মধ্যে, সেই একই আইপিগুলি মূলত একই কাজ করেছিল।

আপডেট # 3: এই মুহুর্তে এটি পরিষ্কার হয়ে গেছে যে এগুলি বৈধ গুগল আইপি হলেও এটি গুগলের প্রক্সি পরিষেবার অংশ এবং গুগলের ওয়েব ক্রলিং সিস্টেমের অংশ নয়। এগুলি প্রক্সি ঠিকানা হিসাবে, জিইটি অনুরোধগুলি প্রকৃতপক্ষে কোথা থেকে উদ্ভূত হয়েছে বা সেগুলি এক জায়গা থেকে এসেছে বা অনেকগুলি এসেছে কিনা তা নির্ধারণের কোনও উপায় নেই। জিইটিগুলির ছড়িয়ে ছিটিয়ে থাকা প্রকৃতির উপর ভিত্তি করে, মনে হচ্ছে না যে এখানে নিকৃষ্ট কিছু চলছে; গুগলের প্রক্সি পরিষেবা ব্যবহার করার সময় এটি সম্ভবত কেউই সমস্ত বাইনারি ডাউনলোড করার সিদ্ধান্ত নিয়েছে। দুর্ভাগ্যক্রমে, পরিষেবাটি সম্পূর্ণরূপে অনিবন্ধিত বলে মনে হচ্ছে, যা সাহায্য করে না। কোনও সাইটের প্রশাসকের দৃষ্টিকোণ থেকে প্রক্সিগুলি বরং বিরক্তিকর। আমি তাদের ব্লক করতে চাই না, কারণ তাদের বৈধ ব্যবহার রয়েছে। তবে সেগুলির অপব্যবহারও করা যেতে পারে।


ভাল প্রশ্ন. আমি এটিকে ভোট দিয়েছি! আপনি অবশ্যই এটির জন্য robots.txt ব্যবহার করে ব্লক করতে চাইবেন। গুগল কেন এক্সিকিউটেবল ডাউনলোড করছে তা আমার বাইরে। আপনার তত্ত্বটি ভাল বলে মনে হচ্ছে তবে কোনওভাবেই ফ্রিকোয়েন্সিটির কারণে আমি নিশ্চিত নই। এটা বরং অদ্ভুত বলে মনে হচ্ছে। এগুলি বৈধ Googlebot আইপি অ্যাড্রেস হিসাবে উপস্থিত বলে মনে হচ্ছে, যদিও আমার তালিকায় আমার কাছে গুগল-প্রক্সি-66-102-6-104.google.com নেই।
ক্লোজটনোক

আমি উল্লেখ করতে ভুলে গেছি যে প্রশ্নে থাকা ফাইলগুলি ইতিমধ্যে সাইটের রোবটস.টি.এস.টি. ফাইলে রয়েছে। উপরে # 1 আপডেট দেখুন।
বুট 13

তুমি আমাকে বিভ্রান্ত করেছ আমার এখন ঠিকাদারের কোনও মিনিট প্রত্যাশা রয়েছে তাই আমাকে এই সম্পর্কে ভাবতে হবে। গুগল তাদের ডোমেন নাম এবং আইপি ঠিকানা বরাদ্দ দিয়ে মজার জিনিসগুলি করেছে এবং হোস্টিং এবং অন্যান্য সহ গুগল পরিষেবাগুলির সাথে কিছুটা ওভারল্যাপ হয়েছে যেখানে লোকের বটগুলি গুগল আইপি অ্যাড্রেস স্পেসে উপস্থিত হতে পারে, তবে আমি তাদের Googlebot আইপি ঠিকানা ব্যবহার করে দেখিনি have স্থান। আমি আশা করি গুগল বিভিন্ন অনুসন্ধান প্রসেসের জন্য কোনও বা সামান্য ওভারল্যাপ সহ পরিষ্কার জায়গা বরাদ্দ করবে যাতে সুরক্ষা সিস্টেমগুলি এই আইপি ঠিকানাগুলি যথাযথভাবে বিশ্বাস করতে পারে।
ক্লোজটনোক

উত্তর:


3

আমি এই প্রশ্নের জন্য কিছু গবেষণা করেছি এবং কিছু আকর্ষণীয় পাতাগুলি পেয়েছি, যেমন:

1. এটি কি একটি নকল ক্রলার? -> /programming/15840440/google-proxy-is-a-fake-crawler-for-example-google-proxy-66-249-81-131-google-c

ব্যবহারকারীর কাছ থেকে উপসংহার:

এই 'ক্রোলারগুলি' ক্রল নয়, গুগল সার্চ ইঞ্জিনে ব্যবহৃত লাইভ ওয়েবসাইট প্রিভিউয়ের অংশ।

আমি এটি চেষ্টা করেছি, আমার কোনও ওয়েবসাইটকে পূর্বরূপে দেখানোর জন্য এবং হ্যাঁ, এটি আছে, একটি ব্লকআইপি বার্তা পেয়েছে।

আপনি যদি চান যে ব্যবহারকারীরা আপনার ওয়েবসাইটের একটি পূর্বরূপ দেখতে সক্ষম হন, আপনাকে এই 'ক্রলারগুলি' গ্রহণ করতে হবে।

অন্যদের মতো বলেছেন: "সেই URL এর মূল ডোমেনটি google.com এবং এটি সহজেই ছদ্মবেশী হতে পারে না"।

উপসংহার: আপনি এই বট বা ক্রলারগুলিকে বিশ্বাস করতে পারেন এবং এটি গুগল অনুসন্ধানে একটি পূর্বরূপ দেখানোর জন্য ব্যবহৃত হয়।

আমরা জানি যে লাইভ পূর্বরূপ আপনার ফাইলগুলি ডাউনলোড করছে না, সুতরাং আসুন প্রশ্ন 2 এ চলে আসুন।

২. এটি কি গুগল পরিষেবার অংশ? -> এই গুগল প্রক্সিটি কি ভুয়া ক্রলার: google-proxy-66-249-81-131.google.com?

উপসংহার:

আমি মনে করি, কিছু লোক গুগল পরিষেবাগুলি (যেমন গুগল অনুবাদ, গুগল মোবাইল ইত্যাদি) ওয়েবসাইটগুলিতে অ্যাক্সেস (স্কুলগুলিতে) ব্যবহার করছে তবে ডস আক্রমণ এবং অনুরূপ ক্রিয়াকলাপের জন্যও।

এ সম্পর্কে আমার অনুমান উপরের মতই। কেউ আপনার ফাইলগুলি যেমন অনুবাদককে অ্যাক্সেস করতে গুগল পরিষেবা ব্যবহার করার চেষ্টা করছেন।

যদি আপনি যেমনটি বলেন, ফাইলগুলি ইতিমধ্যে রোবটসটিটিএসটি দ্বারা অবরুদ্ধ করা হয়ে থাকে তবে এটি কেবল ম্যানুয়াল অনুরোধ হতে পারে।

সম্পাদনা: ওপি মন্তব্যকে ব্যাপকভাবে সম্বোধন করতে:

ক্রোলাররা কি রোবট.টেক্সটকে উপেক্ষা করতে পারে? হ্যাঁ. এখানে একটি তালিকা যা আমি মনে করি না গুগল এটি করে, যার অর্থ এটি গুগল প্রক্সি ব্যবহার করে অন্যান্য বট হতে পারে।

এটি একটি খারাপ বট হতে পারে? হ্যাঁ, এবং এর জন্য আমি সুপারিশ করছি:

.htaccess নিষিদ্ধ:

 RewriteCond %{REMOTE_HOST} ^209.133.111..* [OR]
 RewriteCond %{HTTP_USER_AGENT} Spider [OR]
 RewriteCond %{HTTP_USER_AGENT} Slurp
 RewriteRule ^.*$ X.html [L]

এই কোডটি আইপি বা ব্যবহারকারী এজেন্টদের নিষিদ্ধ করতে পারে।

অথবা এখানে বৈশিষ্ট্যযুক্ত একটি স্পাইডার ট্র্যাপ ব্যবহার করুন

আমি আমার মতামত রাখি যে এটি একটি ম্যানুয়াল অনুরোধ।


আমি সেই উত্তরগুলিও দেখেছি, তবে তারা আমার নির্দিষ্ট সমস্যাটির সমাধান করবে বলে মনে হয় না। আপনি সঠিক হতে পারেন যে গুগল প্রক্সিটি কোনওভাবেই অপব্যবহার হচ্ছে, এমন ক্ষেত্রে আমি সম্ভবত এটি সম্পূর্ণরূপে অবরুদ্ধ করব, যা এক ধরণের খোঁড়া। আমার robots.txt সম্পর্কে বুঝতে পারছে যে ক্রলার সফ্টওয়্যার এটিকে উপেক্ষা করতে বেছে নিতে পারে। বন্ধুত্বপূর্ণ বটগুলি এটি সম্মান করার কথা বলেছিল এবং বেশিরভাগই করেছে তবে প্রক্সিগুলি (আমার ধারণা) আলাদা different
বুট 13

1
@ বুট 13 তবে সাবধান হন। এগুলি বৈধ গুগলবোট আইপি ঠিকানা। সুতরাং আপনি যদি এটি অবরুদ্ধ করেন তবে কেবলমাত্র এই ফাইলগুলির জন্য এটি ব্লক করুন। ধরে নিলাম যে আপনি অ্যাপাচি ব্যবহার করেছেন, আপনি .htaccess দিয়ে এটি করতে সক্ষম হবেন। তবে এটি অন্যান্য সমস্যার কারণ হতে পারে তাই বার্তাগুলির জন্য আপনি গুগল ওয়েবমাস্টার সরঞ্জামগুলিতে মনোযোগ দিয়েছেন তা নিশ্চিত করুন।
ক্লোজটোক

@ বুট 13 আমি আমার উত্তর আপডেট করেছি। অ্যাক্সেসগুলি একই দিন / ঘন্টা করা হয়েছে বা এলোমেলো কিনা তা আপনি পরীক্ষা করতে পারেন?
নুনোরবটিস্তা

@ নুনোরবাটিস্তা: এগুলি এলোমেলো মনে হচ্ছে। আমি আমার প্রশ্নটি কিছু সময়ের সাথে আপডেট করেছি।
বুট 13

@ নুনোরবাটিস্তা: উপরে # 3 আপডেট দেখুন। এটি গুগলবোট বা অন্য কোনও ক্রলার নয়, এটি গুগলের প্রক্সি পরিষেবা। এটি গুগলের লাইভ সাইটের পূর্বরূপের সাথে সম্পর্কিত নয়। দেখে মনে হচ্ছে এক বা একাধিক লোক গুগল প্রক্সির মাধ্যমে বাইনারিগুলি ডাউনলোড করেছেন সম্ভবত কোনও স্থানীয় ব্লক বা সীমাবদ্ধতা পেতে। স্পাইডার ট্র্যাপ পরামর্শটি ট্র্যাফিক দৃশ্যত বট নয় বলে সাহায্য করার সম্ভাবনা নেই। আমি গুগল প্রক্সি আইপিগুলিকে বাইনারিগুলি সহ ফোল্ডারে অ্যাক্সেস করা থেকে ব্লক করতে চাই; আমি htaccess কোড ব্যবহার করার চেষ্টা করব, তবে অবশ্যই ডাউনলোডার সর্বদা অন্য প্রক্সিটিতে স্যুইচ করতে পারে তাই এটি অর্থহীন হতে পারে।
বুট 13
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.