গুগল সিডিএন ফাইল ক্রল করে না


11

আমি লক্ষ্য করেছি যে গুগল ওয়েবমাস্টার সরঞ্জামগুলি আমার ওয়েবসাইটে প্রচুর অবরুদ্ধ সংস্থার প্রতিবেদন করছে। এই মুহূর্তে সমস্ত "অবরুদ্ধ সংস্থানগুলি" .css, .js এবং চিত্রগুলি (.jpg, .png) যা আমি ক্লাউডফ্রন্ট সিডিএন থেকে পরিবেশন করি।

গুগল কেন এই ফাইলগুলিকে ক্রল করে না এবং একটি "রিসোর্স ব্লক" স্থিতির প্রতিবেদন করে তা দেখার জন্য আমি অনেক সময় ব্যয় করেছি।

বর্তমানে আমি বেশ কয়েকটি হোস্টনাম থেকে এই ফাইলগুলি পরিবেশন করি: cdn1.example.com, cdn2.example.com,…

সিডিএন 1, সিডিএন 2 এবং অন্যান্যগুলি ক্লাউডফ্রন্টের বিতরণের নামে সিএনএম।

পরীক্ষা: আমি সরাসরি ক্লাউডফ্রন্ট বিতরণ ব্যবহার করার চেষ্টা করেছি (কোনও সিএনএম নেই) তবে সমস্যাটি অব্যাহত রয়েছে।

বর্তমানে আমার রোবটস টেক্সট এর মতো দেখাচ্ছে:

# Google AdSense
User-agent: Mediapartners-Google
Disallow:

#Google images
User-agent: Googlebot-Image
Disallow: /

User-agent: *
Disallow: /homepage
Disallow: /index.php*
Disallow: /uncategorized*
Disallow: /tag/*
Disallow: *feed
Disallow: */page/*
Disallow: *author*
Disallow: *archive*
Disallow: */category*
Disallow: *tag=*
Disallow: /test*
Allow: /

এবং ফাইলগুলির উদাহরণগুলির একটি উদাহরণ পৃষ্ঠাতে অবরুদ্ধ:

  • cdn1.example.com/wp-content/plugins/wp-forecast/wp-forecast-default.css

  • cdn9.example.com/wp-content/plugins/bwp-minify/min/?f=wp-content/themes/magazine/css/font-awesome.min.css,wp-content/themes/magazine/css/responsive সিএসএস

  • cdn5.example.com/wp-content/themes/magazine/images/nobg.png

  • cdn6.example.com/wp-content/plugins/floating-social-bar/images/fsb-sprite.png

  • cdn5.example.com/wp-content/uploads/2013/11/Design-Hotel-3-80x80.jpg

  • cdn5.example.com/wp-content/uploads/2013/11/Marta-Hotel-7-270x225.jpg

এমনকি আমি রোবটস.টি.এস.টি. তে সব করার অনুমতি দেওয়ার চেষ্টা করেছি কিন্তু আমার সর্বদা একই ফলাফল হয়।

আমি অ্যামাজনের ক্লাউডফ্রন্ট সেটিংসেও যত্ন সহকারে নজর রেখেছি এবং এর সাথে সম্পর্কিত হতে পারে এমন কিছুই দেখিনি (আমি ব্যবহার করি না এবং বিকল্পটি কখনই ব্যবহার করি না: "দর্শকের অ্যাক্সেসকে সীমাবদ্ধ করুন (স্বাক্ষরিত ইউআরএল বা স্বাক্ষরিত কুকিজ ব্যবহার করুন"))।

এই মুহুর্তে আমি এটি অনুসন্ধান করার জন্য অনেক সময় ব্যয় করেছি এবং কোনও ধারণা নেই।

গুগলবোট যে কারণে অ্যামাজন ক্লাউডফ্রন্টে হোস্ট করা ফাইলগুলি ক্রলিং থেকে আটকাবে তার কারণ চিন্তা করতে পারে?


আপনি এই "অবরুদ্ধ সংস্থানসমূহ" এর এইচটিটিপি প্রতিক্রিয়া শিরোনাম পরীক্ষা করেছেন? GWT কোন সঠিক ত্রুটি রিপোর্ট করে? যদি এগুলি রোবট.টিএসটি দ্বারা অবরুদ্ধ করা হয় তবে এটির প্রতিবেদন করা উচিত।
মিঃ হোয়েট

আপনার রোবটস.টি.এস.টি. ফাইল সম্পর্কে ছোটখাটো মন্তব্য ... ইউআরএলগুলি পূর্বনির্ধারিতভাবে উপসর্গের সাথে মিল রয়েছে, তাই *ইউআরএল "উপসর্গ" এর শেষে কখনই দরকার নেই । /test*হিসাবে একই /test
মিঃ হোয়েট

হাই, আমি শিরোনামগুলি পরীক্ষা করতে পারছি না, কারণ গুগলবোট কী পাচ্ছে তা আমি জানি না। আমি কেবল এই বার্তাটি পেয়েছি: "গুগলবোট এই পৃষ্ঠার জন্য সমস্ত সংস্থান পেতে পারেনি Here এখানে একটি তালিকা রয়েছে:" এবং তারপরে সমস্ত কারণ সিডিএন "হোস্ট": "ব্লকড" সহ হোস্ট করা ফাইল (জেএসএস, সিএসএস এবং চিত্রসমূহ) এর তালিকা দেয়।
টোনলোট

যেহেতু আমি "আনতে এবং রেন্ডার" করতে বলছি আমি আরও দেখতে পাচ্ছি যে রেন্ডারিংয়ের শৈলী এবং চিত্রগুলির অভাব রয়েছে ....
টোনলোট ২

এছাড়াও, robots.txt সিনট্যাক্সের নোটের জন্য ধন্যবাদ।
টোনলোট

উত্তর:


7

সুতরাং, সমাধানটি মনে হয় যে অ্যামাজন ক্লাউডফ্রন্টটিও আমার মূল্যায়ন করে robots.txtএবং কোনওভাবে গুগল থেকে বিভিন্ন সিনট্যাক্স নিয়ম ব্যবহার করে।

আমার কাজের সংস্করণটি robots.txtনিম্নলিখিত:

User-agent: Googlebot-Image
Disallow: /
User-agent: *
Disallow: /homepage
Disallow: /uncategorized
Disallow: /page
Disallow: /category
Disallow: /author
Disallow: /feed
Disallow: /tags
Disallow: /test

এটি পূর্বের মতো ঠিক একই কার্য সম্পাদন করছে না তা বলার জন্য একটি খুব গুরুত্বপূর্ণ নোট note আসলে, আমি সমস্ত ফাঁকা লাইন, ওয়াইল্ডকার্ড এবং "অনুমতি" নির্দেশিকা বের করেছিলাম। মানে শেষ ফলাফলটি এক নয় ... তবে আমার কাছে মনে হয় যথেষ্ট আমার কাছে রয়েছে। উদাহরণস্বরূপ, ক্যোরি স্ট্রিংয়ে পাস করার সময় এটি ট্যাগ পৃষ্ঠাগুলি বাদ দেয় না ...

তিনটি গুরুত্বপূর্ণ নোট:

  1. আপনি যদি এটি দিয়ে পরীক্ষা করছেন তবে robots.txtপ্রতিটি পুনরাবৃত্তির জন্য ক্লাউডফ্রন্ট বিতরণে অবৈধ করতে ভুলবেন না । আপনাকে শেষ সংস্করণে পরিবেশন করা হচ্ছে তা যাচাই করা যথেষ্ট নয়।

  2. robot.txtঅ্যামাজন ক্লাউডফ্রন্ট দ্বারা বোঝা সিনট্যাক্সের কোনও সংজ্ঞা আমি কোথাও পাই না। সুতরাং, এটি ছিল পরীক্ষা এবং ত্রুটি।

  3. ফলাফল পরীক্ষার জন্য গুগল ওয়েবমাস্টার এবং তাদের মোবাইল বান্ধব পরীক্ষক ( https://www.google.com/webmasters/tools/mobile-friendly/ ) এর "আনুন এবং উপস্থাপন করুন" সরঞ্জামটি ব্যবহার করুন

আমি বুঝতে পারছি না যে ক্লাউডফ্রন্ট আমার মূল্যায়ন করছে এবং মূল্যায়ন করছে robots.txt। এই ফাইলটি আমার এবং ক্রলারের সাথে আমার সাইটে আসা একটি "চুক্তি"। মাঝখানে অ্যামাজনের কোনও ব্যবসা নেই। আমার সাথে জগাখিচুড়ি robots.txtকরা কেবল সাধারণ বোকা।

এটা কখনই আমার মনে আসে নি যে ক্লাউডফ্রন্টটি আমার robots.txtসিনট্যাক্স অনুমান করার পরে দ্বিতীয় হতে পারে ।


2

একটি বালতিতে একটি robots.txt তৈরি করুন।

আপনার ক্লাউডফ্রন্ট বিতরণের জন্য অন্য উত্স তৈরি করুন।

আপনার বালতির অগ্রাধিকারটি আপনার ওয়েবসাইটের পরে সেট করুন।

ক্লাউডফ্রন্টে আপনার সাইটের রোবটস.টেক্সটকে অবৈধ করুন।

উপরের কাজটি করার পরে, গুগল আপনার সাইট ক্রল করার সময় সাইটগুলি রোবট.টিএসটিএসটি পড়বে এবং আপনার সিডিএন থেকে লিঙ্কগুলি অনুসরণ করার সময় বিভিন্ন রোবট.এসটিএসটি দেখতে পাবে।


1

গুগল মূল সাইটের মূলটিতে একটি রোবটস.টেক্সট ব্যবহারের মাধ্যমে বহিরাগত সংস্থানগুলি সূচিকৃত হতে বাধা দেয় না। উপ-ডোমেন ব্যবহার করে, সিডিএন বা অন্যটি একটি বাহ্যিক ডোমেন হিসাবে শ্রেণিবদ্ধ করা হয়েছে যার ফলে বিষয়বস্তুটি ব্লক করার একমাত্র উপায় হ'ল সিডিএন নিজেই পরিবেশন করা ফাইলটিতে শিরোনামের প্রতিক্রিয়া ব্যবহার করে বা সিডিএন বা সাব ডোমেনে একটি রোবটস.টেক্সট ব্যবহার করে ।

ব্যবহার:

#Google images
User-agent: Googlebot-Image
Disallow: /

কেবল স্থানীয় যে চিত্রগুলি ব্লক করা উচিত, তা আপনাকে সিডিএন-তেও করতে হবে।

সম্ভাবনাগুলি এটির শিরোনামের প্রতিক্রিয়া সমস্যা এবং সিডিএন-এর যে কোনও একটি ফাইলের জন্য আপনার 'সিআরএল' করা উচিত। এর মতো কিছু দেখতে পাওয়া উচিত:

HTTP/1.0 200 OK
Cache-Control: max-age=86400, public
Date: Thu, 10 May 2012 07:43:51 GMT
ETag: b784a8d162cd0b45fcb6d8933e8640b457392b46
Last-Modified: Tue, 08 May 2012 16:46:33 GMT
X-Powered-By: Express
Age: 7
Content-Length: 0
X-Cache: Hit from cloudfront
X-Amz-Cf-Id: V_da8LHRj269JyqkEO143FLpm8kS7xRh4Wa5acB6xa0Qz3rW3P7-Uw==,iFg6qa2KnhUTQ_xRjuhgUIhj8ubAiBrCs6TXJ_L66YJR583xXWAy-Q==
Via: 1.0 d2625240b33e8b85b3cbea9bb40abb10.cloudfront.net (CloudFront)
Connection: close

যে বিষয়গুলি সন্ধান করতে হবে তা হ'ল:

HTTP/1.1 200 OK
Date: Tue, 25 May 2010 21:42:43 GMT
X-Robots-Tag: googlebot: noindex

হাই, আপনার উত্তরের জন্য ধন্যবাদ. তবে আমার সমস্যাটি কীভাবে চিত্রগুলি সূচিবদ্ধ হতে প্রতিরোধ করবেন তা নয়। বিভ্রান্তি এড়াতে আমি এটি রোবটস টেক্সট থেকে বের করেছিলাম এবং ফলাফলগুলি একই। আমি ক্লাউডফ্রন্টে হোস্ট করা ফাইলগুলিতে এটি ব্লক করা Googlebot অভিযোগ করে চলেছে এবং কেন তা আমি জানি না। আর কোন ধারণা? ইওরুর মনোযোগের জন্য ধন্যবাদ,
মাইগুয়েল

আপনি বুঝতে পেরেছেন, আমি জানি আপনি এটি ব্লক করতে চান না ... তাই আপনার শিরোনামের প্রতিক্রিয়াটি কোনও এক্স-রোবট-ট্যাগ করছে না তা নিশ্চিত করার জন্য আমি নীচে কেন বলেছি, check the robots.txt on your CloudFront distributionআপনিও বলেছিলেন যে আমি এটিও বলেছি! সিডিএন-তে ইন্ডেক্স করা ইমেজগুলিকে ব্লক করার একমাত্র উপায় হ'ল সিডিএন-এ নিজেই এক্স-রোবটস-ট্যাগ এবং একটি রোবটস টেক্সট, আবার উল্লেখ করা হয়েছে।
সাইমন হাইটার

1

সমস্যাটি খুঁজে পেয়েছিল: ক্লাউডফ্রন্ট রোবটস টেক্সট পড়ে এবং বিষয়বস্তু পরিবেশন করা প্রতিরোধ করে, তবে এটি রোবটদের কী হওয়া উচিত তার থেকে কিছুটা পৃথক করে বলে আমার ধারণা।

উদাহরণস্বরূপ, robots.txt এ নিম্নলিখিত সামগ্রী:

Disallow: */wp-contents/ Allow: */wp-contents/themes/

গুগলবট যখন এটি নিজেই পায়, এটি এটিকে সূচক করে; ক্লাউডফ্রন্ট যখন এটি পড়ে, তখন এটি 'মঞ্জুরি' নির্দেশকে বিবেচনা করে না এবং ভিতরে কোনও কিছু পরিবেশন করতে নিষেধ করে */wp-contents/themes/

সংক্ষিপ্ত উত্তর: আপনার ক্লাউডফ্রন্ট বিতরণে robots.txt পরীক্ষা করুন, এটি সমস্যা হতে পারে। একটি সংশোধিত সংস্করণ সহ এটি বাতিল করুন এবং আপডেট করুন এবং এটি কাজ করা উচিত!


ক্লাউডফ্রন্ট রোবট.টেক্সটকে "পড়া" করে না বা এর বিষয়বস্তুগুলির কোনও "বিবেচনা" করে না, বা কোনও কিছুর "প্রতিরোধ" করে না। মনে রাখবেন যে আপনি যখন কোনও বস্তু আনবেন তখন আপনি ক্লাউডফ্রন্ট থেকে যা পেয়েছেন তা অন্য প্রান্তের স্থান থেকে কেউ কী পরিবেশন করেছে সে সম্পর্কে আপনাকে কিছুই জানায় না, যদি তাদের প্রান্তটি আপনার কাজগুলির চেয়ে আগের বা পরে কোনওটি ক্যাশে করে। এছাড়াও, শীর্ষস্থানীয় ওয়াইল্ডকার্ড সম্ভবত অপ্রত্যাশিত আচরণের একটি রেসিপি, যেহেতু রোবটদের বর্জন "স্ট্যান্ডার্ড" ভাল-মানসম্পন্ন নয়।
মাইকেল - স্কেলবট

"ক্লাউডফ্রন্ট রোবটস টেক্সট পড়ে" - এটি কি ক্লাউডফ্রন্টে নিজেই হোস্ট করা একটি রোবটস.টেক্সট ফাইল? "লিডিং ওয়াইল্ডকার্ড" এছাড়াও অপ্রয়োজনীয় বলে মনে হবে, যদি URL গুলিতে এমন কিছু থাকে যা প্রশ্নের মধ্যে বর্ণিত থাকে।
মিঃ হোয়াইট

ওহে. অবশ্যই ক্লাউডফ্রন্ট আমার রোবটস টেক্সট পড়ছে। এবং এছাড়াও স্পষ্টভাবে গুগলের মতো একই বাক্য গঠন গ্রহণ করছে না। আমি ইতিমধ্যে রোবটগুলি বের করে পরীক্ষা করেছি t টেক্সট এবং ক্লাউডফ্রন্টে আমি অনুরোধ করিনি এবং অবৈধকরণের জন্য কোনও ফলাফল দেখেনি। ধরে নেওয়া দরকার ছিল না কারণ আমাকে সর্বশেষ সংস্করণ দেওয়া হয়েছিল। পরীক্ষার জন্য প্রতিটি সময় পরিবর্তনের জন্য একটি অবৈধ অনুরোধ প্রয়োজন যা সম্পূর্ণরূপে শেষ হতে পারে be আমি একটি কার্যকারী সংস্করণ নিয়ে কয়েক ঘন্টার মধ্যে ফিরে আসব। এই ধরণের "স্মার্টনেস" কেন দরকার তা আমি জানি না ... তবে এটি সেখানে রয়েছে এবং আমি মনে করি এটি করা উচিত নয়। মিগুয়েল
tonelot

আমার অ্যাপাচে একই রোবটস টেক্সট হ'ল এক ক্লাউডফ্রন্ট got আমি এটিকে অভিজ্ঞতার সাথে নির্ধারণ করেছি।
স্নাগ্নিভার
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.