গুগল এখনও আমার পুরানো, ডামি, পরীক্ষা পৃষ্ঠাগুলি ক্রল করছে এবং সূচক করছে যা এখন ৪০৪ টি পাওয়া যায় নি


19

আমি নমুনা পৃষ্ঠাগুলি এবং ডেটা (লোরেম আইপসাম ইত্যাদি।) সহ আমার সাইট সেট আপ করেছি এবং গুগল এই পৃষ্ঠাগুলি ক্রল করেছে। আমি এই সমস্ত পৃষ্ঠাগুলি মুছে ফেলেছি এবং প্রকৃত সামগ্রী যুক্ত করেছি তবে ওয়েবমাস্টার সরঞ্জামগুলিতে, গুগল এই পৃষ্ঠাগুলি ক্রল করার চেষ্টা করে আমি এখনও অনেক 404 ত্রুটি পেয়েছি। আমি তাদের "সমাধান হিসাবে চিহ্নিত" হিসাবে সেট করেছি তবে কিছু পৃষ্ঠা এখনও 404 হিসাবে ফিরে আসে।

তদ্ব্যতীত, আমি যখন গুগলে আমার সাইটের অনুসন্ধান করি তখন আমার কাছে প্রচুর নমুনা পৃষ্ঠাগুলি তালিকাভুক্ত থাকে। কীভাবে এগুলি সরিয়ে ফেলা যায়। আমি মনে করি এই অপ্রাসঙ্গিক পৃষ্ঠাগুলি আমার রেটিংটিতে আঘাত করছে।

আমি আসলে এই সমস্ত পৃষ্ঠাগুলি মুছে ফেলতে চেয়েছিলাম এবং আমার সাইটটিকে একটি নতুন হিসাবে সূচীকরণ করা শুরু করতে চেয়েছিলাম তবে আমি পড়ি এটি কি সম্ভব নয়? (আমি একটি সাইটম্যাপ জমা দিয়েছি এবং "গুগল হিসাবে আনুন" ব্যবহার করেছি)

উত্তর:


17

ঠিক আছে. আগেরটা আগে. আপনার 404 স্থির হওয়ার হিসাবে চিহ্নিত করবেন না । আপনি আসলে সমস্যাটি দীর্ঘায়িত করছেন। গুগল চেষ্টা করার চেষ্টা করবে এবং ছেড়ে দেওয়ার আগে 404 কয়েকবার ফিরে এমন একটি পৃষ্ঠা আনবে। এটি কারণ 404 ত্রুটিটি একটি অস্থায়ী পরিস্থিতি নির্দেশ করে যেখানে একটি 410 ত্রুটি বলে যে পৃষ্ঠাটি চলে গেছে । প্রত্যেক সময় আপনি একটি 404 হচ্ছে হিসেবে চিহ্নিত সংশোধন , আপনি আবার এইভাবে বর্জন প্রক্রিয়া সব আবার শুরু চেষ্টা করার জন্য Google কহন প্রভাব রয়েছে।

এই পৃষ্ঠাগুলিকে কিছুক্ষণের জন্য দিন এবং গুগল তাদের সন্ধান বন্ধ করবে এবং পৃষ্ঠাগুলি সূচী থেকে নামবে। এটি সময় লাগবে, তবে 410 ত্রুটির সংক্ষিপ্ততর, এটি সহজতম উপায়। একটি 410 ত্রুটি প্রক্রিয়াটি দ্রুততর করে তুলবে, তবে 410 ত্রুটি উপস্থাপন করা আরও কঠিন এবং 404 ডিফল্ট এটি সহজ এবং প্রাকৃতিক সমাধান তৈরি করে।

আপনার অপসারণ পৃষ্ঠাগুলি প্রায় 30-60 দিনের মধ্যে অদৃশ্য হয়ে যাবে যদি আপনি অপেক্ষা করতে পারেন। এটি কতক্ষণ Google আপনার পৃষ্ঠাগুলিতে পরিদর্শন করে তার উপর নির্ভর করে। এটি বেশি সময় নিতে পারে, তবে একবার 404 এর সন্ধান পেলে গুগল প্রথমে সাইটটি চেক করতে পছন্দ করে, তারপরে কত 404 রয়েছে তার উপর নির্ভর করে আপনার সাইটটি আরও আক্রমণাত্মকভাবে মাকড়সা করতে পারে।

কোনও সাইটম্যাপ ব্যবহার করা আসলে সূচকে কোনও সমস্যা সমাধান করে না। এটি কেবল অনুসন্ধান ইঞ্জিনগুলির জন্য জীবনকে সহজতর করে তোলে। কোনও সাইটের যে পৃষ্ঠাগুলির সর্বশেষ তালিকা হিসাবে এটি নেওয়া হয় না। যদি কোনও সার্চ ইঞ্জিন কোনও সাইটম্যাপ পড়ে এবং এখনও সাইটম্যাপে তালিকাভুক্ত পৃষ্ঠাগুলি খুঁজে পায় তবে এটি সেই পৃষ্ঠাগুলিকে সূচী করে চালিয়ে যাবে।

একটি বিকল্প যদি এটি করতে ইচ্ছুক হয় তবে তা হল এই পৃষ্ঠাগুলি আপনার রোবট.টিএসটিএস্ট ফাইলটিতে তালিকাভুক্ত করা। যদি খুব বেশি পরিমাণে না থাকে (অর্থাত্ আপনি করতে পারেন এমন কিছু এবং আপনার রোবট.টিএসটিএসটি ফাইলটি খুব বেশি দীর্ঘ না হয়) তবে এটি একটি দ্রুত সমাধান হবে। অন্যথায়, আমি কেবল অপেক্ষা করব এবং 404 ত্রুটিগুলি তাদের নিজস্বভাবে শেষ হতে দেওয়া হবে।

একটি শেষ শব্দ। আপনি ঠিক থাকবেন। সত্যিই। আপনি যদি ধৈর্য ধরেন তবে এটি আপনার পক্ষে খুব কার্যকর হবে।


1
404 পৃষ্ঠাগুলি রোবট.txt এ যুক্ত করা খারাপ অভ্যাসের মতো শোনাচ্ছে। এটি কেবল ক্রলারকে বিভ্রান্ত করবে এবং প্রচুর অপ্রয়োজনীয় গৃহস্থালি গ্রহণ করবে।
ডোরাস

@ ডরাস মোটেও নয় একজনের সাথে অন্যজনের কিছু করার নেই। রোবটসটিটিএসটিএস ফাইলে কোনও পৃষ্ঠা যুক্ত করা পৃষ্ঠাটি খুব দ্রুত সূচি থেকে সরিয়ে ফেলবে। পাশাপাশি, অনুসন্ধান ইঞ্জিনটি ফাইলটি অ্যাক্সেস এবং অ্যাক্সেস করবে না এবং তাই 404 হবে না
ক্লোজটনোক

1
যেমনটি আপনি বলেছেন, আপনি এটি রোবটগুলিতে যোগ করলে। txt অনুসন্ধান ইঞ্জিন পৃষ্ঠাটিতে অ্যাক্সেস করার চেষ্টা করবে না, তবে পৃষ্ঠাটি এখনও বিদ্যমান থাকবে। সুতরাং যদি কোনও দিন আপনি এটি রোবট থেকে সরিয়ে ফেলেন তবে ইনডেক্সিংটি ফিরে আসবে। 404 বা 410 কাজটি করা দেওয়া আরও ভাল অনুশীলন।

@closetnoc কি আপনার সাথে বোঝাতে চেয়েছেন it is harder to present a 410 error?
এভেজেনি

@ ইভজেনি একটি 404 ত্রুটিটি ডিফল্টরূপে দেওয়া হয় (অ্যাপাচি কমপক্ষে এবং পুরানো আইআইএস)। একটি 410 ত্রুটি উদ্দেশ্যমূলক হতে হবে এবং ঘটতে কিছু কাজ প্রয়োজন। প্রযুক্তিগতভাবে, এটি কোনও কঠিন কাজ নয়, তবে এটির জন্য খুব বেশি কিছু না হলেও কিছু দক্ষতার প্রয়োজন। চিয়ার্স !!
ক্লোজটোক

8

আপনি একবার পৃষ্ঠা প্রকাশ করলে গুগল কখনই এটির কথা ভুলে যাবে না। আমার কাছে এমন সাইট রয়েছে যা থেকে আমি 15 বছর আগে পৃষ্ঠা সরিয়েছি। গুগলবট এখনও ফিরে আসে এবং মাঝে মাঝে সেই পৃষ্ঠাগুলি পরীক্ষা করে।

পৃষ্ঠাগুলি সন্ধান ইঞ্জিনে প্রদর্শিত হতে আটকাতে আপনার 404 ত্রুটি কাজটি করবে। গুগলবট পরবর্তী ক্রল করার পরে পৃষ্ঠাটি সূচী থেকে সরাতে Google কে একদিন সময় লাগতে পারে। আপনি যদি এটি দ্রুত সরিয়ে নিতে চান তবে তার পরিবর্তে একটি "410 গন" স্থিতি ফিরিয়ে দিন। গুগল একদিন অপেক্ষা না করে ক্রল করার সাথে সাথে 410 পৃষ্ঠা মুছে ফেলে। ম্যাট কাটসের বর্ণনায় ওয়েব মাস্টারদের পায়ে গুলি করা থেকে বিরত রাখতে গুগল তাত্ক্ষণিক 404 পৃষ্ঠা সরিয়ে ফেলবে না :

404s এর পাশাপাশি আমি 401s এবং সম্ভবত 403s মনে করি, যদি আমরা কোনও পৃষ্ঠা দেখি এবং আমরা একটি 404 পাই, আমরা সেই পৃষ্ঠাটি ক্রলিং সিস্টেমে 24 ঘন্টা রক্ষা করব, সুতরাং আমরা কিছুটা অপেক্ষা করব এবং আমরা বলি যে এটি ছিল একটি ক্ষণস্থায়ী 404, সম্ভবত এটি সত্যিই কোনও পৃষ্ঠাগুলি খুঁজে পাওয়া যায়নি বলে লক্ষ্য করা যায়নি।

আপনি যে অন্য পদ্ধতিটি বিবেচনা করতে পারবেন তা হ'ল পুনঃনির্দেশ। 301 কোনও পুরানো পৃষ্ঠাটিকে প্রতিস্থাপনে পুনঃনির্দেশ করা Google গুগলমাস্টার সরঞ্জামগুলিতে ত্রুটি হিসাবে প্রদর্শিত হতে বাধা দেবে। পুরানো পৃষ্ঠাগুলির প্রত্যেকটির জন্য যদি কিছু নতুন পৃষ্ঠা থাকে তবে এটি কেবল সম্ভব। সমস্ত টেস্ট পৃষ্ঠাগুলিকে আপনার হোম পৃষ্ঠায় পুনঃনির্দেশ করা সাহায্য করবে না, কারণ গুগল হোম পেজে পুনঃনির্দেশগুলি "নরম 404" ত্রুটি হিসাবে বিবেচনা করে যা এখনও সেই প্রতিবেদনে প্রদর্শিত হবে।

ওয়েবমাস্টার সরঞ্জামগুলিতে 404 ত্রুটি থাকা আপনার ক্ষতি করবে না। আপনার সাইটে 404 টি ত্রুটি থাকা এমনকি আপনাকে সহায়তা করতে পারে কারণ এটি Googlebot দেখায় যে আপনার সাইটটি সঠিকভাবে কনফিগার করা হয়েছে। গুগলের জন মুইলারের (যিনি ওয়েবমাস্টার সরঞ্জাম এবং সাইটম্যাপে কাজ করেন) ওয়েবমাস্টার সরঞ্জামগুলিতে প্রদর্শিত প্রায় 404 ত্রুটি এখানে বলেছিলেন :

সাহায্য করুন! আমার সাইটটি 939 ক্রোল ত্রুটি রয়েছে! 1

এই ধরণের প্রশ্ন আমি সপ্তাহে কয়েকবার দেখি; আপনি একা নন - অনেক ওয়েবসাইটে ক্রল ত্রুটি রয়েছে।

  1. অবৈধ ইউআরএলগুলিতে 404 ত্রুটিগুলি কোনওভাবেই আপনার সাইটের সূচিকরণ বা র‌্যাঙ্কিংয়ের ক্ষতি করে না । 100 বা 10 মিলিয়ন আছে কিনা তা বিবেচ্য নয়, তারা আপনার সাইটের র‌্যাঙ্কিংয়ের ক্ষতি করবে না। http://googlewebmastercentral.blogspot.ch/2011/05/do-404s-hurt-my-site.html
  2. কিছু ক্ষেত্রে, ক্রল ত্রুটিগুলি আপনার ওয়েবসাইট বা সিএমএসের মধ্যে কোনও বৈধ কাঠামোগত সমস্যা থেকে আসতে পারে। কীভাবে বলো? ক্রল ত্রুটির উত্সটি ডাবল-চেক করুন। আপনার পৃষ্ঠার স্থির এইচটিএমএলটিতে যদি আপনার সাইটে কোনও ভাঙা লিঙ্ক রয়েছে, তবে এটি সর্বদা ঠিক করা উপযুক্ত। (ধন্যবাদ + মার্টিনো মোসনা )
  3. "স্পষ্টভাবে নষ্ট হয়ে গেছে" এমন ফঙ্কি ইউআরএলগুলি সম্পর্কে কী বলা যায়? যখন আমাদের সাইটের অ্যালগরিদমগুলি আপনার সাইটের পছন্দ করে তখন তারা এতে আরও দুর্দান্ত সামগ্রী খুঁজে পাওয়ার চেষ্টা করতে পারে, উদাহরণস্বরূপ জাভাস্ক্রিপ্টে নতুন ইউআরএলগুলি আবিষ্কার করার চেষ্টা করে। আমরা যদি এই "URL গুলি" চেষ্টা করে দেখি এবং একটি 404 খুঁজে পাই তবে তা দুর্দান্ত এবং প্রত্যাশিত। আমরা কেবল গুরুত্বপূর্ণ কিছু মিস করতে চাই না (অত্যধিক সংযুক্ত Googlebot মেম এখানে sertোকান)। http://support.google.com/webmasters/bin/answer.py?answer=1154698
  4. ওয়েবমাস্টার সরঞ্জামগুলিতে আপনার ক্রল ত্রুটিগুলি ঠিক করার দরকার নেই। "নির্দিষ্ট হিসাবে চিহ্নিত করুন" বৈশিষ্ট্যটি কেবল আপনাকে সহায়তা করার জন্য, যদি আপনি সেখানে নিজের অগ্রগতি ট্র্যাক রাখতে চান; এটি আমাদের ওয়েব-অনুসন্ধান পাইপলাইনে কোনও পরিবর্তন করে না, তাই আপনার যদি এটির প্রয়োজন না হয় তবে নির্দ্বিধায় তা বোধ করেন। http://support.google.com/webmasters/bin/answer.py?answer=2467403
  5. আমরা অগ্রাধিকার অনুসারে ওয়েবমাস্টার সরঞ্জামগুলিতে ক্রল ত্রুটিগুলি তালিকাবদ্ধ করি যা বিভিন্ন কারণের ভিত্তিতে তৈরি। যদি ক্রল ত্রুটির প্রথম পৃষ্ঠাটি পরিষ্কারভাবে অপ্রাসঙ্গিক হয় তবে আপনি সম্ভবত পরবর্তী পৃষ্ঠাগুলিতে গুরুত্বপূর্ণ ক্রল ত্রুটিগুলি খুঁজে পাবেন না। http://googlewebmastercentral.blogspot.ch/2012/03/crawl-errors-next-generation.html
  6. আপনার ওয়েবসাইটে ক্রল ত্রুটিগুলি "ঠিক করার" দরকার নেই। 404 এর সন্ধান করা স্বাভাবিক এবং একটি স্বাস্থ্যকর, সু-কনফিগার করা ওয়েবসাইটের প্রত্যাশা। আপনার যদি সমতুল্য নতুন ইউআরএল থাকে তবে এটিতে পুনর্নির্দেশ করা ভাল অনুশীলন। অন্যথায়, আপনি জাল সামগ্রী তৈরি করবেন না, আপনার হোমপৃষ্ঠায় আপনাকে পুনর্নির্দেশ করা উচিত নয়, আপনার রোবটস.টেক্সটগুলি সেই ইউআরএলগুলি অস্বীকার করা উচিত নয় - এই সমস্ত বিষয় আমাদের পক্ষে আপনার সাইটের কাঠামো সনাক্ত করতে এবং এটির সঠিকভাবে প্রক্রিয়া করা আমাদের পক্ষে আরও শক্ত করে তোলে। আমরা এগুলিকে "নরম 404" ত্রুটি বলি। http://support.google.com/webmasters/bin/answer.py?answer=181708
  7. অবশ্যই - যদি এই ক্রল ত্রুটিগুলি আপনার যত্ন নেওয়া URL গুলি, সম্ভবত আপনার সাইটম্যাপ ফাইলের URL গুলির জন্য প্রদর্শিত হয়, তবে এটি এমন কিছু যা আপনার সঙ্গে সঙ্গে পদক্ষেপ নেওয়া উচিত। যদি গুগলবোট আপনার গুরুত্বপূর্ণ ইউআরএলগুলি ক্রল করতে না পারে তবে সেগুলি আমাদের অনুসন্ধান ফলাফল থেকে বাদ পড়তে পারে এবং ব্যবহারকারীরা সেগুলি অ্যাক্সেস করতেও সক্ষম নাও হতে পারে।

1
আমার অভিজ্ঞতাটি মোটেই হয়নি। গুগল একটি নতুন সূচি চায় এবং পৃষ্ঠাগুলি মোটামুটি দ্রুত মুছে দেয়। আমি যা দেখতে পাই তা আপনার বর্ণনার সাথে একই রকম মনে হয়, যেখানে অন্যান্য সাইটগুলি অতীতে গুগল এপিআই ব্যবহার করে, তাদের ডেটা রিফ্রেশ করে না এবং আপনার পুরানো কাজটি উদ্ধৃত করে। এগুলি প্রায়শই স্প্যামি / জাঙ্ক সাইট হয় এবং এই উদ্ধৃতিগুলি প্রদর্শিত / থাকা / অদৃশ্য / আবার প্রদর্শিত হতে পারে। আমি এটির জন্য প্রাথমিক কারণটি দেখছি কারণ গুগল এপিআই বরং প্রতারণাপূর্ণ হিসাবে ব্যবহৃত হত এবং স্প্যামের ডেটা আর বেশি পুরানো হয় না কারণ বিশেষত আপনি অতীতে স্প্যাম করেছেন তবে নতুন ডেটা আসা খুব কঠিন।
ক্লোজটোনক

1
গুগলবোটের একটি ক্রল মোড রয়েছে যা আমি বলি "আমরা বেসমেন্টে ইউআরএলগুলির একটি বাক্স পেয়েছি"। এই ক্রল মোডে এটি আপনার সাইট থেকে একটানা কয়েক হাজার ইউআরএল ক্রল করতে পারে যা আপনি বছরের পর বছর ব্যবহার করেছেন। ইউআরএলগুলির সাধারণত কোনও স্ক্র্যাপার সাইটগুলি থেকে কোনও অভ্যন্তরীণ লিঙ্ক থাকে না। তারা দৈর্ঘ্যের ক্রমে ক্রল করা হয়, সংক্ষিপ্ত ইউআরএলগুলি প্রথমে ক্রল করা হয়।
স্টিফেন অসটারমিলার

এটা সত্য হতে পারে। গুগল স্পষ্টতই বড় ডেটা। যে কোনও বড় ডাটাবেসের মধ্যে শব্দ আছে। তা অনিবার্য। আপনি যে অভিজ্ঞতা করছেন তা হতে পারে। বিভিন্ন ডেটাবেস মিলিয়ে নেওয়া সম্ভব। এটা বোধগম্য. তবে আমি আপনাকে সতর্ক করে দিয়েছি যে জাঙ্ক সাইটগুলি পুরানো লিঙ্ক এবং পুরানো উদ্ধৃতি দিয়ে মাত্র 2 ঘন্টা উপস্থিত হতে পারে। আমি প্রতিদিন এটি দেখতে। তারা মূলত রাশিয়া এবং পোল্যান্ডে রয়েছে। এই সাইটগুলি স্থানীয় অনুসন্ধান ইঞ্জিনগুলি গেম করতে ব্যবহৃত হয় তবে কোনও সাইটে ট্র্যাফিক প্রভাবিত করে গুগল বাছাই করতে পারে। আমি প্রতিদিন আমার ডেটাবেজে প্রায় 12 টি পেতে পারি। সাধারণত, 12 এর মধ্যে 1 টি সাইট কোনও সময়ের জন্য থেকে যায়।
ক্লোজটোনক

একটি 939 ত্রুটি কী?
গ্রেগ নিকলফ

939 ত্রুটি সংখ্যা, এটি ত্রুটি এক ধরণের নয়।
স্টিফেন অসটারমিলার

5

গুগল এই পৃষ্ঠাগুলি দীর্ঘ সময়ের জন্য ক্রল করার চেষ্টা চালিয়ে যাওয়ার সম্ভাবনা রয়েছে। ওয়েবমাস্টাররা ভুল করে, বা যে কোনও কারণেই সাইটগুলি অনুপলব্ধ হয়ে যায়, সুতরাং গুগল 404 এর প্রথম চিহ্নে সামগ্রীটি সরাবে না।

বিকল্পভাবে আপনি এর পরিবর্তে 410 গনের পরিবেশন করতে পারেন। এটি অনেক বেশি শক্তিশালী (অর্থাত্ ইচ্ছাকৃত) সংকেত যে পৃষ্ঠাটি আক্ষরিক অর্থে "চলে গেছে" এবং ফিরে আসছে না। এটি গুগলকে শীঘ্রই এসইআরপিগুলি থেকে পৃষ্ঠাটি সরাতে অনুরোধ করতে পারে।

আমি তাদের "সমাধান হিসাবে চিহ্নিত" হিসাবে সেট করেছি তবে কিছু পৃষ্ঠা এখনও 404 হিসাবে ফিরে আসে।

আপনি পৃষ্ঠাটি পিছনে রেখে দিলে এগুলি কেবল "সমাধান করা" হবে। যদি আপনি এটিকে সমাধান হিসাবে চিহ্নিত করেন এবং পৃষ্ঠাটি বিদ্যমান না থাকে তবে ক্রল ত্রুটিটি কেবল পুনরাবৃত্তি হবে। পৃষ্ঠাটি যদি না থাকে তবে কেবল যেমন আছে তেমন ছেড়ে দিন।

জেনুইন 404 এর আপনার অনুসন্ধানের র‌্যাঙ্কিংয়ের ক্ষতি করবে না। জিডব্লিউটি-র 404 প্রতিবেদনটি মূলত আপনার উপকারের জন্য যাতে আপনি দেখতে পাবেন যখন জিনিসগুলি ভুল হয়ে যায় ... যখন পৃষ্ঠাগুলি খুঁজে পাওয়া যায় না যে সন্ধান করা উচিত!

SERPs এ এই অপ্রাসঙ্গিক পৃষ্ঠাগুলি সম্ভবত আপনার ব্যবহারকারীদের জন্য একটি সামান্য বিরক্তি, তবে, তারা আপনার লরেম আইপসামটি সন্ধান করার জন্য কী অনুসন্ধান করছে ?

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.