গুগল অনুসন্ধানের ফলাফলগুলিতে রোবটস.টি.এস.টি. তে নিষিদ্ধ পৃষ্ঠাগুলি কেন অন্তর্ভুক্ত রয়েছে?

18

আমার সাইটে আমার কয়েকটি পৃষ্ঠাগুলি রয়েছে যা আমি অনুসন্ধান ইঞ্জিনগুলি দূরে রাখতে চাই, তাই আমি তাদের আমার robots.txtফাইলে এইভাবে বারণ করলাম :

User-Agent: *
Disallow: /email

তবুও আমি সম্প্রতি লক্ষ্য করেছি যে গুগল এখনও কখনও কখনও তাদের অনুসন্ধানের ফলাফলগুলিতে pages পৃষ্ঠাগুলির লিঙ্কগুলি ফেরত দেয়। কেন এটি ঘটে এবং আমি কীভাবে এটি বন্ধ করতে পারি?

পটভূমি:

বেশ কয়েক বছর আগে আমি একটি ক্লাবের জন্য একটি সাধারণ ওয়েব সাইট তৈরি করেছিলাম যার সাথে আমার কোনও আত্মীয় জড়িত ছিল pages তারা তাদের পৃষ্ঠায় ইমেল লিঙ্কগুলি রাখতে চেয়েছিল, তাই সেই ই-মেইল ঠিকানাগুলিকে খুব বেশি পরিমাণে শেষ না করে চেষ্টা করার চেষ্টা চালিয়ে যেতে হয়েছিল স্প্যাম তালিকাগুলি, সরাসরি mailto:লিঙ্কগুলি ব্যবহার না করে আমি সেই লিঙ্কগুলিকে আমার নিজের সাইটে চলমান একটি সাধারণ রিডাইরেক্টর / ঠিকানার ফসল কাটা স্ক্রিপ্টের দিকে নির্দেশ করি। এই স্ক্রিপ্টটি আসল mailto:ইউআরএল 301 পুনর্নির্দেশে ফিরে আসবে , বা যদি এটি সন্দেহজনক অ্যাক্সেস প্যাটার্ন সনাক্ত করে, প্রচুর এলোমেলো নকল ই-মেইল ঠিকানা এবং এই জাতীয় আরও পৃষ্ঠাগুলির লিঙ্কযুক্ত একটি পৃষ্ঠা। বৈধ অনুসন্ধানের বটগুলি ফাঁদ থেকে দূরে রাখতে, আমি robots.txtলিখিত পুনর্নির্দেশকারীর লিঙ্ক এবং ফাঁদ পৃষ্ঠাগুলির উভয়ই পুরো জায়গাটিকে অস্বীকার করে উপরে বর্ণিত নিয়মটি সেট আপ করেছি ।

ঠিক সম্প্রতি, তবে ক্লাবের একজন লোক গুগলে নিজের নামের জন্য অনুসন্ধান করেছিল এবং যখন প্রথম পৃষ্ঠার ফলাফলগুলির মধ্যে একটির পুনঃনির্দেশক স্ক্রিপ্টের লিঙ্ক ছিল, তখন তাদের ইমেল ঠিকানা সম্বলিত একটি শিরোনাম ছিল দ্বারা আমার নাম। অবশ্যই তারা তাত্ক্ষণিকভাবে আমাকে ইমেল করেছিল এবং গুগলের সূচী থেকে তাদের ঠিকানা কীভাবে পাওয়া যায় তা জানতে চেয়েছিল। আমিও বেশ অবাক হয়েছিলাম, যেহেতু আমার ধারণা ছিল না যে গুগল এ জাতীয় ইউআরএলগুলি মোটেও সূচিবদ্ধ করবে, সম্ভবত আমার robots.txtনিয়ম লঙ্ঘন করে ।

আমি গুগলে একটি অপসারণের অনুরোধ জমা দেওয়ার ব্যবস্থা করেছিলাম, এবং মনে হয় এটি কার্যকর হয়েছে, তবে আমি কেন জানতে চাই এবং কেন গুগল আমার পছন্দটিকে ঘৃণা robots.txtকরছে এবং কীভাবে নিশ্চিত করা যায় যে অস্বীকৃত পৃষ্ঠাগুলির কোনওটি তার মধ্যে প্রকাশিত হবে না? অনুসন্ধান ফলাফল.

পুনশ্চ. আমি আসলে একটি সম্ভাব্য ব্যাখ্যা এবং সমাধান খুঁজে পেয়েছি, যা এই প্রশ্নটি প্রস্তুত করার সময় আমি নীচে পোস্ট করব, তবে আমি ভেবেছিলাম যে অন্য কারওর মতো সমস্যা হতে পারে তবে আমি এটিকে যাইহোক জিজ্ঞাসা করব । আপনার নিজের উত্তর পোস্ট করতে দ্বিধা বোধ করবেন না। অন্যান্য অনুসন্ধান ইঞ্জিনগুলিও এটি করে কিনা তা জানতে আগ্রহী হব এবং একই সমাধানগুলি সেগুলির জন্যও কার্যকর কিনা।

google-search robots.txt

— ইলমারি করোনেন
সূত্র

1

"এবং গুগল কীভাবে আমার রোবটগুলিকে ঘৃণা করছে।" আমি অনুমান করছি আপনি ইতিমধ্যে এটি জানেন (বা পৃথিবীতে কীভাবে আপনি প্রথম স্থানে একটি সাইট স্থাপন করতে সক্ষম হতেন) তবে কিছু অব্যর্থ বোকা যদি ভ্রমন করে ... robots.txtফাইল কেউ এর গাড়ীবারান্দা পাশে একটি ছোট "কোন অনধিকার প্রবেশকারী" চিহ্ন ভালো হয়। এটি যাদু নয় এবং (যদি না কোনও দর্শকের স্পষ্টভাবে এটি অনুসন্ধান না করা হয়) তবে তারা তার অস্তিত্বের সামান্য প্রভাবিত না হয়েও আপনার সম্পত্তিতে ঘুরে বেড়াতে পারে। ফ্লাডলাইট এবং রেজারওয়্যারের বেড়াগুলির ইন্টারনেট সমতুল্য রয়েছে, তবে এটি যদি আপনি চান robots.txtতবে তা নয়।

— পার্থিয়ান শট

25

দেখে মনে হচ্ছে গুগল ইচ্ছাকৃতভাবে robots.txtতাদের সূচকগুলিতে অনুমোদিত না হওয়া URL গুলি অন্তর্ভুক্ত করে যদি অন্য পৃষ্ঠাগুলির থেকে ক্রল করা সেই URL গুলির লিঙ্ক থাকে। তাদের ওয়েবমাস্টার সরঞ্জাম সহায়তা পৃষ্ঠা উদ্ধৃত করতে :

"গুগল রোবটস.টি.এস.টি.এস. দ্বারা ব্লক করা পৃষ্ঠাগুলির ক্রল বা সূচীকরণ করবে না, তবুও আমরা ইউআরএলগুলিকে ওয়েবে অন্য পৃষ্ঠাগুলিতে খুঁজে পেলে তা সূচী করতে পারি a ফলস্বরূপ, পৃষ্ঠার URL এবং, সম্ভবত, অন্যান্য সাইটের লিঙ্কগুলিতে অ্যাঙ্কর পাঠ্যের মতো প্রকাশ্যে উপলভ্য তথ্য বা ওপেন ডিরেক্টরি ডিরেক্টরি (www.dmoz.org) এর শিরোনাম গুগল অনুসন্ধানের ফলাফলগুলিতে উপস্থিত হতে পারে ""

স্পষ্টতই, গুগল কোনও পৃষ্ঠাকে ক্রলিংয়ের বিরুদ্ধে নিষেধ হিসাবে Disallowনির্দেশকে ব্যাখ্যা করে, এটি সূচীকরণের বিরুদ্ধে নয়। আমি মনে করি এটি প্রযুক্তিগতভাবে একটি বৈধ ব্যাখ্যা, এমনকি যদি এটি আমার কাছে আইনী বিধি বিধানের ক্ষতি করে।robots.txt

ইন এই সাক্ষাতকারের নিবন্ধ Google এর থেকে ম্যাট Cutts একটি বিট আরো পটভূমি দেয় এবং কেন তারা এই কাজ জন্য যুক্তিসঙ্গত-বাদন ব্যাখ্যা প্রদান না:

"প্রথম দিনগুলিতে, প্রচুর জনপ্রিয় ওয়েবসাইটগুলি কোনওভাবেই ক্রল হওয়া চাইত না example উদাহরণস্বরূপ, ইবে এবং নিউইয়র্ক টাইমস কোনও সার্চ ইঞ্জিনকে অনুমতি দেয় নি, বা কমপক্ষে গুগলও এর কোনও পৃষ্ঠা ক্রল করতে দেয়নি The কংগ্রেসের লাইব্রেরিতে বিভিন্ন বিভাগ রয়েছে যা বলেছিল যে আপনি কোনও অনুসন্ধান ইঞ্জিনের সাহায্যে হামাগুড়ি দেওয়ার অনুমতি পাচ্ছেন না And এবং তাই, যখন কেউ গুগলে আসে এবং তারা ইবে টাইপ করে, এবং আমরা ইবে ক্রল করি না, এবং আমরা ইবেটি ফিরতে পারি না, আমরা একধরনের সাবঅপটিমাল দেখতে। সুতরাং, আমরা যে সমঝোতাটি করার সিদ্ধান্ত নিয়েছিলাম তা হ'ল, আমরা আপনাকে রোবটস টেক্সট থেকে ক্রল করব না, তবে আমরা দেখেছি যে ইউআরএল রেফারেন্সটি আমরা ফিরিয়ে দিতে পারি। "

এই উভয় পৃষ্ঠায় প্রস্তাবিত সমাধানটি হ'ল যে পৃষ্ঠাগুলিকে আপনি সূচী করতে চান না তার মধ্যে একটি noindexমেটা ট্যাগ যুক্ত করা। ( X-Robots-Tagএইচটিটিপি শিরোনামটি অ-এইচটিএমএল পৃষ্ঠাগুলির জন্যও কাজ করা উচিত I'm যদিও এটি পুনঃনির্দেশে কাজ করে কিনা তা আমি নিশ্চিত নই)) বিপরীত দিক থেকে, এর অর্থ হ'ল আপনাকে গুগলবটকে সেই পৃষ্ঠাগুলি ক্রল করার অনুমতি দিতে হবে (হয় robots.txtপুরোপুরি থেকে সরিয়ে দিয়ে , বা গুগলবটের জন্য পৃথক, আরও অনুমতিমূলক বিধি যুক্ত করে), অন্যথায় এটি মেটা ট্যাগটি প্রথম স্থানে দেখতে পাবে না can't

আমি X-Robots-Tagমান সহ মেটা ট্যাগ এবং শিরোলেখ উভয়ই প্রেরণ করতে আমার পুনর্নির্দেশ / মাকড়সার ট্র্যাপ স্ক্রিপ্ট সম্পাদনা করেছি noindex,nofollowএবং Googlebot কে আমার মধ্যে স্ক্রিপ্টের URL ক্রল করার অনুমতি দিয়েছি robots.txt। গুগল আমার সাইটটিকে পুনরায় সূচিকায়িত করে একবার এটি কাজ করে কিনা তা আমরা দেখতে পাব।

— ইলমারি করোনেন
সূত্র

5

এটি সত্য যে যদিও এটি Google (এবং ভাল বটস) এই পৃষ্ঠাগুলি ক্রল করা এবং তাদের বিষয়বস্তু পড়তে বাধা দেওয়া উচিত, তারা এখনও ফর্মের সাথে লিঙ্কযুক্ত থাকলে কেবল এসআরপিগুলিতে কেবলমাত্র ইউআরএল-লিঙ্ক প্রদর্শন করতে পারে:

গুগল এসইআরপিগুলিতে কেবল ইউআরএল লিঙ্ক

আপনি দেখতে পাচ্ছেন যে কোনও শিরোনাম বা বিবরণ নেই, এটি আক্ষরিক অর্থে কেবল URL টি। স্বাভাবিকভাবেই এই ধরণের ফলাফলগুলি সাধারণত SERPs থেকে বাদ দেওয়া হয়, যদি না আপনি স্পষ্টভাবে তাদের জন্য অনুসন্ধান করেন।

এবং যেমনটি আপনি নিজের উত্তরে উল্লেখ করেছেন, আপনি যদি এসইআরপিগুলিতে URL টি মোটামুটি প্রদর্শিত না চান তবে আপনাকে রোবটগুলির অনুমতি দেওয়া দরকার, তবে একটি নয়েডেক্স মেটা ট্যাগ অন্তর্ভুক্ত করা উচিত।

— জনাব সাদা
সূত্র