সাইট হ্যাক হয়েছিল, গুগল থেকে + দিয়ে শুরু হওয়া সমস্ত ইউআরএল সরানো দরকার, robots.txt ব্যবহার করবেন?


15

আপনি কী দয়া করে আমাকে জানতে পারেন কীভাবে robots.txtগুগলবোট থেকে সূচি বন্ধ করতে এই জাতীয় URL গুলি ব্লক করবেন?

http://www.example.com/+rt6s4ayv1e/d112587/ia0g64491218q

আমার ওয়েবসাইটটি হ্যাক হয়েছিল যা এখন পুনরুদ্ধার করা হয়েছে তবে হ্যাকার গুগলে 5000 ইউআরএল সূচী করেছে এবং এখন /+উপরের লিঙ্কের সাথে শুরু করে এলোমেলোভাবে উত্পন্ন লিঙ্কগুলিতে আমি 404 ত্রুটি পেয়েছি ।

আমি ভাবছিলাম যে গুগল ওয়েবমাস্টার সরঞ্জামগুলি থেকে এই ইউআরএলগুলি ম্যানুয়ালি সরানো ছাড়া অন্য কোনও দ্রুত উপায় আছে?

আমরা কী সাইন robots.txtদিয়ে শুরু করা ইউআরএলগুলিতে এটি ব্লক করতে পারি +?


2
+ইউআরএল-পাথে (প্লাস) সম্পর্কে বিশেষ কিছু নেই , এটি অন্য যে কোনও একটি চরিত্র মাত্র।
মিঃ হোয়াইট

আপনি অ্যাপাচি কোনও ফাইল বা ডিরেক্টরিতে (.htaccess) পুনর্নির্দেশ করতে পারেন যা
রোবটস টেক্সট

@ মাউগ এটি করার কী লাভ?
মিঃ হোয়েট

ভাল আচরণ করা রোবটগুলি বাইরে রাখতে?
মাওগ

2
ইউআরএলগুলির সাথে ইস্যুটি স্বাধীন, আপনি পড়তে চাইতে পারেন আমি কোনও আপোষযুক্ত সার্ভারের সাথে কীভাবে আচরণ করব?
জোনাস শ্যাফার

উত্তর:


30

আমার ওয়েবসাইটটি হ্যাক হয়েছিল যা এখন পুনরুদ্ধার করা হয়েছে তবে হ্যাকার গুগলে 5000 ইউআরএলকে সূচি দিয়েছে এবং এখন আমি 404 ত্রুটি পেয়েছি

robots.txtআপনি যদি এই ইউআরএলগুলি অনুসন্ধান ইঞ্জিনগুলি (যেমন গুগল) থেকে বাদ দিতে চান তবে একটি 404 সম্ভবত ব্লক করা ভাল । যদি আপনি ক্রলিং অবরুদ্ধ করেন তবে ইউআরএল এখনও সূচিকৃত থাকতে পারে। (নোট করুন যে robots.txtপ্রাথমিকভাবে ক্রলিংকে ব্লক করে , ইনডেক্সিং নয় ))

আপনি যদি এই ইউআরএলগুলির ডি-ইনডেক্সিং "গতি বাড়িয়ে" তুলতে চান তবে আপনি সম্ভবত "404 পাওয়া যায়নি" এর পরিবর্তে সম্ভবত "410 গন" পরিবেশন করতে পারেন। আপনি আপনার মূল .htaccessফাইলে mod_rewrite (অ্যাপাচি) এর সাহায্যে নীচের মতো কিছু করতে পারেন :

RewriteEngine On
RewriteRule ^\+ - [G]

14

আমি দ্বিতীয় প্রশ্নের উত্তর দিতে যাচ্ছি।

আমি ভাবছিলাম যে গুগল ওয়েবমাস্টার সরঞ্জামগুলি থেকে এই ইউআরএলগুলি ম্যানুয়ালি সরানো ছাড়া অন্য কোনও দ্রুত উপায় আছে?

https://developers.google.com/webmasters/hacked/docs/clean_site

গুগল স্পষ্টভাবে বলেছে যে গুগল অনুসন্ধান কনসোলের মাধ্যমে অপসারণ (ওয়েবমাস্টার সরঞ্জামগুলির নতুন নাম) সবচেয়ে দ্রুত।

যদি হ্যাকার সম্পূর্ণ নতুন, ব্যবহারকারী-দৃশ্যমান ইউআরএল তৈরি করে, আপনি অনুসন্ধান পৃষ্ঠার ইউআরএলগুলি সরান কনসোলে ফিচারটি ব্যবহার করে গুগল অনুসন্ধান ফলাফল থেকে এই পৃষ্ঠাগুলি আরও দ্রুত সরিয়ে ফেলতে পারেন। এটি সম্পূর্ণ alচ্ছিক পদক্ষেপ। যদি আপনি কেবল পৃষ্ঠাগুলি মুছুন এবং তারপরে 404 স্থিতি কোডটি ফিরিয়ে আনতে আপনার সার্ভারটি কনফিগার করেন তবে পৃষ্ঠাগুলি স্বাভাবিকভাবেই সময়ের সাথে গুগলের সূচকের বাইরে চলে আসবে।

তবে তারা আরও বুঝতে পারে যে এটি কিছু ক্ষেত্রে সম্ভব নয়:

ইউআরএল অপসারণের সিদ্ধান্তটি সম্ভবত তৈরি হওয়া নতুন, অযাচিত পৃষ্ঠাগুলির সংখ্যার উপর নির্ভর করবে (অনেকগুলি পৃষ্ঠাগুলি সরান ইউআরএল অন্তর্ভুক্ত করা জটিল হতে পারে), এবং এই পৃষ্ঠাগুলি ব্যবহারকারীদের যে সম্ভাব্য ক্ষতির কারণ হতে পারে depend ইউআরএল অপসারণের মাধ্যমে জমা দেওয়া পৃষ্ঠাগুলি সন্ধানের ফলাফলগুলিতে প্রদর্শিত হতে বাধা রাখতে, পৃষ্ঠাগুলিও অযাচিত / সরানো URL গুলির জন্য 404 ফাইল পাওয়া যায়নি প্রতিক্রিয়া খুঁজে পাওয়ার জন্য কনফিগার করা আছে তা নিশ্চিত করুন।

সুতরাং আপনি যখন এই পৃষ্ঠাগুলি রোবটস.টেক্সটে ব্লক করতে পারবেন - আপনি গুগল দ্বারা বর্ণিত সংশোধনমূলক পদক্ষেপের কোনওটিই গ্রহণ করছেন না।


4
User-Agent: *  
Disallow: /+

আপনি যা চান তা করা উচিত এটি রোবটকে বলবে যে এটি দিয়ে শুরু করা সমস্ত ইউআরএলকে অনুরোধ না করে +


2

আপনি যদি সত্যিই রোবটস.টেক্সট ব্যবহার করতে চান তবে এটি আপনার প্রশ্নের সহজ উত্তর হবে। এছাড়াও আমি একটি লিঙ্ক অন্তর্ভুক্ত করেছি যেখানে আপনি রোবটস.টি.এস.টি.এস. এর স্পেসিফিকেশনগুলি পড়তে পারেন।

User-agent: *
Disallow: /+

Robots.txt চশমা সম্পর্কে পড়ুন

তবে অন্য একটি বিকল্প হতে পারে .htaccess ব্যবহার করে পুনর্লিখনের নিয়ম তৈরি করতে (আপনি যদি অ্যাপাচি ইত্যাদি ব্যবহার করেন) এবং সম্ভবত গুগলকে একটি ভাল রিটার্ন এইচটিটিপি কোড বলতে বা ট্র্যাফিককে অন্য কোনও পৃষ্ঠায় পুনর্নির্দেশ করতে।


2
*ইউআরএল-পাথের শেষে (নক্ষত্রের) প্রয়োজন নেই । এটি সর্বাধিক মাকড়সা-সামঞ্জস্যের জন্য অপসারণ করা উচিত। robots.txtইতিমধ্যে প্রিফিক্স ম্যাচিং, ওয়াইল্ডকার্ডগুলিকে সমর্থনকারী বটগুলির জন্য /+*একই রকম /+এবং বট কার্ডগুলি যে ওয়াইল্ডকার্ডকে সমর্থন করে /+*না তাদের ক্ষেত্রেও কোনও মিলবে না।
মিঃহাইট

আপনি ঠিক বলেছেন, আমি গুগলবোট সম্পর্কে তাঁর প্রশ্নের ভিত্তিতে এটি লিখেছিলাম। আমি একাধিক বটের বিরুদ্ধে আরও ভাল সামঞ্জস্য প্রতিফলিত করতে এটি সম্পাদনা করেছি।
ডেভিডব্লি
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.