গুগল ক্যাশে থেকে কীভাবে হাজারো ইউআরএল সরিয়ে নেওয়া যায়?


13

গুগল আমার ওয়েবসাইট থেকে অসংখ্য পিডিএফ ক্যাশে করেছে যা সর্বজনীন হওয়া উচিত নয়। আমি আমার শিরোনাম আপডেট করেছি, তবে বিদ্যমান কুইক ভিউ ক্যাশেটি সরিয়ে ফেলতে হবে।

গুগল ওয়েবমাস্টার সরঞ্জাম আমাকে একে একে মুছে ফেলতে অনুমতি দেয় - তবে, ফাইলগুলি অপসারণের পরিমাণের কারণে এটি পরিষ্কারভাবে ব্যবহারিক নয়।

কেউ কি জানেন যে আমি ব্যাচ গুগল ক্যাশে থেকে পিডিএফ সরিয়ে ফেলতে পারি? আদর্শভাবে আমি "সাইট: mysite.com * .pdf" এর সাথে মিলে যায় এমন সমস্ত কিছু মুছে ফেলার একটি উপায় চাই


3
দ্রুত গুগল অনুসন্ধান ইঙ্গিত দেয় যে গুগল এপিআই ব্যবহার করে ব্যাচ অপসারণ করা সম্ভব নয়, আপনাকে নিজের স্ক্রিপ্টটি একসাথে আবদ্ধ করতে হবে যা লিঙ্কগুলি একে একে মুছে ফেলে

উত্তর:


9

দেখে মনে হচ্ছে আপনি কীভাবে একটি একক ইউআরএল অপসারণের জন্য অনুরোধ করবেন , যা এখানে অবশ্যই প্রশ্নটির বাইরে রয়েছে of এই প্রক্রিয়াটির দ্বিতীয় ধাপটি আপনাকে যদি একটি সম্পূর্ণ ডিরেক্টরি অপসারণের জন্য অনুরোধ করতে দেয় তবে যদি ফাইলের URL গুলি সেই নির্দিষ্ট পদ্ধতিতে অনুমানযোগ্য হয় pred (আপনার যদি হাজার হাজার পিডিএফ থাকে তবে আমি আশা করি সেগুলি অন্তত কিছুটা সংগঠিত ছিল)) যদি না হয় তবে দুর্ভাগ্যক্রমে আপনি বিকল্পগুলির থেকে অনেকটাই দূরে।


2

আমার সম্প্রতি একটি হ্যাক ছিল যা আমার সাইটে কয়েক হাজার বোগাস পৃষ্ঠা যুক্ত করেছে।

আমি গুগল অনুসন্ধান কনসোলে (পূর্বে ওয়েবমাস্টার সরঞ্জাম নামে পরিচিত) একটি সংশোধন করা সাইটম্যাপ জমা দিয়েছিলাম এবং সমস্ত লিঙ্কগুলিকে 410-এ পরিণত করেছি, তবে গুগল এখনও তাদের বেশিরভাগকেই সূচকযুক্ত করেছিল।

আমি ওয়েবমাস্টার সরঞ্জামগুলি ব্যবহার করেছি - বাল্ক ইউআরএল অপসারণ ক্রোম এক্সটেনশন স্বয়ংক্রিয়ভাবে সরানোর জন্য ইউআরএল জমা দিতে। এটি মূলত একটি স্ক্রিপ্ট যা ইউআরএলগুলির একটি তালিকা গ্রহণ করে তারপরে এটি একবারে আপনার জন্য জমা দেয়। এগুলি সমস্ত জমা দিতে কয়েক ঘন্টা সময় লাগবে, তবে কমপক্ষে আপনাকে এটি নিজে করতে হবে না। এটি কীভাবে ব্যবহার করবেন সে সম্পর্কে একটি নিবন্ধ এখানে

আপনি অনুসন্ধান URL থেকে সরাসরি অনুসন্ধান কনসোল থেকে ডেটা ডাউনলোড করে গুগল যে ইউআরএলগুলি সূচনা করছে তার একটি তালিকা পেতে পারেন। স্থিতি> সূচক কভারেজ এ যান এবং বৈধ ফলাফল নির্বাচন করুন তারপরে নীচে স্ক্রোল করুন। আপনি দেখতে পাবেন যে গুগল আপনার সাইটম্যাপে নেই এমন এক টন ইউআরএলকে সূচিযুক্ত করেছে। আপনি প্রথম 1000 ফলাফল ডাউনলোড করতে পারেন। কেবলমাত্র প্রথম হাজার নয়, এগুলির সকলকে পাওয়ার জন্য একটি চৌম্বক উপায় আছে, তবে এটি এক্সেল থেকে আসা এপিআই কলগুলি জড়িত। আমি আস্তে আস্তে সূচকের বাইরে চলে যাওয়ায় আমি প্রতি হাজারের মধ্যে কয়েকদিন অপেক্ষা করেছি।

গুগল সূচক কভারেজ স্ন্যাপশট

অন্য রুটে একটি ডাব্লুপি প্লাগইন একটি সাইটম্যাপ তৈরি করতে হবে, তারপরে পিডিএফগুলি বা আপনি যে লক্ষ্যবস্তু করছেন তা ফিল্টার করে ফেলুন। আপনাকে সম্ভবত এখানে কিছুটা ম্যানুয়াল কপি / পেস্ট / মুছতে হবে। কেবল নিরাপদ থাকতে, আমি ধীরে ধীরে আমার প্রায় 2,700 স্প্যাম ইউআরএলগুলির তালিকাটি স্ক্রোল করেছি এবং বৈধ URL গুলি মুছলাম। এটি প্রায় 20 মিনিট সময় নিয়েছে।

আপনি যদি স্প্যামের মতো কিছু স্থায়ীভাবে স্তন্যপান করার চেষ্টা না করে থাকেন এবং এর পরিবর্তে প্রিমিয়াম সংস্থানগুলিকে অবলম্বন করার চেষ্টা করছেন, তবে এই সংস্থানগুলিকে সূচীকরণ রোধ করতে আপনার অন্যান্য পদ্ধতি ব্যবহার করা উচিত, যেমন একটি রোবট ফাইল। তবে যদি দেখা যায় যে গুগল শোনেনি বা আপনি বলটি বাদ দিয়েছেন, অন্তত এখন আপনি সমস্যাটি সমাধান করতে পারেন এবং কেবলমাত্র কয়েক দিনের মধ্যে তাকে সূচি থেকে সরিয়ে নিতে পারেন।

আমার বিশেষ পরিস্থিতিতে আমি ভাবছি যে গুগলের কেন টাইম মেশিন বোতাম নেই, বা পূর্বাবস্থায় ফেরানো হবে না বা পুনরায় সেট করা হবে না। ধারণাটি হ'ল আমি গুগলকে বলতে পারি যে সাইটটি কিছুদিন আগে হ্যাক হয়েছিল, তবে আমরা এটি মেরামত করেছি, সুতরাং ক্রলিং এবং ইনডেক্সিংয়ের শেষ x সংখ্যাটি পূর্বাবস্থায় ফিরিয়ে আনুন। তবে এটি খুব সহজ হবে।


1

ফাইলগুলি যদি "সর্বজনীন না হয়" তবে সেগুলি সর্বজনীন ইন্টারনেটে থাকা উচিত। আপনি গুগল তালিকা থেকে ফাইলগুলি মুছে ফেলতে পারেন (রোবটসটিটিএসটিএস এবং অন্যান্য পদ্ধতির মাধ্যমে), তবে ফাইলগুলি এখনও যদি থাকে তবে যে কেউ এগুলি ডাউনলোড করতে পারবেন।

আপনার এগুলি কোনও ধরণের প্রমাণীকরণের পিছনে রাখা উচিত। উদাহরণস্বরূপ, ফাইলগুলি সর্বজনীন ওয়েব ডিরেক্টরি থেকে সরিয়ে নিন এবং কোনও স্ক্রিপ্ট থেকে তাদের পরিবেশন করুন যা ব্যবহারকারী প্রথমে বৈধ কিনা তা পরীক্ষা করে।

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.