কীভাবে পিডিএফ ফাইলটিকে অনুসন্ধান ইঞ্জিনগুলি সূচিবদ্ধ হতে আটকাবে?


27

আমার একটি সার্বজনীন ওয়েব পৃষ্ঠায় পিডিএফ ডকুমেন্টের লিঙ্ক আছে। আমি কীভাবে অনুসন্ধান ইঞ্জিনগুলিকে এই লিঙ্ক এবং পিডিএফ ডকুমেন্টকে সূচি থেকে আটকাতে পারি?

আমি ভাবলাম কেবল ক্যাপচা ব্যবহার করা। যাইহোক, আমি অবাক হয়েছি যে এমন কোনও যাদু শব্দ রয়েছে যা কোনও অনুসন্ধান ইঞ্জিনকে লিঙ্ক এবং পিডিএফ ডকুমেন্টকে সূচক না করে বলবে? পিএইচপি বা জাভাস্ক্রিপ্ট ব্যবহার করে বিকল্পগুলিও ঠিক আছে।

শুধু এটি পরিষ্কার করতে। আমি পিডিএফ এনক্রিপ্ট করতে এবং এটি পাসওয়ার্ড দিয়ে সুরক্ষিত করতে চাই না। আমি এটি অনুসন্ধান ইঞ্জিনগুলির জন্য কেবল অদৃশ্য করতে চাই, তবে ব্যবহারকারীদের জন্য নয়।

উত্তর:


32

আপনার পিডিএফ ফাইল (বা কোনও HTML ফাইল নয়) অনুসন্ধানের ফলাফলের তালিকাভুক্ত হওয়া থেকে রক্ষা করার জন্য একমাত্র উপায় হ'ল HTTP X-Robots-Tagপ্রতিক্রিয়া শিরোনাম, যেমন:

X-Robots-Tag: noindex

সাইটের রুট .htaccess ফাইল বা httpd.conf ফাইলে নিম্নলিখিত স্নিপেট যোগ করে আপনি এটি করতে পারেন:

<Files ~ "\.pdf$">
  Header set X-Robots-Tag "noindex, nofollow"
</Files>

নোট করুন যে উপরের কাজ করার জন্য, আপনাকে অবশ্যই প্রশ্নযুক্ত ফাইলের এইচটিটিপি শিরোনামগুলি সংশোধন করতে সক্ষম হতে হবে। সুতরাং আপনি এটি করতে সক্ষম হবেন না, উদাহরণস্বরূপ, গিটহাব পৃষ্ঠাগুলিতে

এছাড়াও নোট করুন যে রোবটস.টিএক্সটি অনুসন্ধান পৃষ্ঠাতে আপনার পৃষ্ঠাটি তালিকাবদ্ধ হতে বাধা দেয় না

এটি যা করে তা হ'ল বটটি আপনার পৃষ্ঠাটি ক্রল করা বন্ধ করে দেয়, তবে কোনও তৃতীয় পক্ষ যদি তাদের ওয়েবসাইট থেকে আপনার পিডিএফ ফাইলটিতে লিঙ্ক করে তবে আপনার পৃষ্ঠাটি এখনও তালিকাভুক্ত হবে।

আপনি আপনার পৃষ্ঠাটি ব্যবহার হামাগুড়ি দিয়া থেকে বট বন্ধ করেন তাহলে robots.txt এর , এটি দেখতে সুযোগ থাকবে না X-Robots-Tag: noindexপ্রতিক্রিয়া ট্যাগ। অতএব, কখনও কি কখনো একটি পৃষ্ঠায় নামঞ্জুর robots.txt এর যদি আপনি চাকরী X-Robots-Tagহেডার। গুগল বিকাশকারীগুলিতে আরও তথ্য পাওয়া যাবে : রোবটস মেটা ট্যাগ


ভবিষ্যতে যদি এই এক্স-রোবটস-ট্যাগ সহ পৃষ্ঠাটি অনুরোধ করা হয় তবে কীভাবে পৃষ্ঠাগুলির জন্য একটি এন্ট্রি সহ রোবটস.টিএসটি এক্স-রোবটস-ট্যাগকে সম্মান / মেনে চলা রোধ করবে তা আমি অনুসরণ করি না।
ডন

1
আমি ভেবেছিলাম যে পৃষ্ঠার অনুরোধ করা হলে, এটি ("গুগল") এক্স-রোবটস-ট্যাগ শিরোনামটি দেখতে পাবে এবং তারপরে এটি সূচি করতে না জানবে ... তবে দেখে মনে হচ্ছে এক্স-রোবটস-ট্যাগ কেবল ক্রলারের জন্য দরকারী useful যা তখন এটি সূচী করতে জানে না এটি developers.google.com/webmasters/control-crawl-index/docs/…
ডন

যেহেতু আপনি রেজেক্স সক্ষম সক্ষম Filesনির্দেশিকাটি ব্যবহার করছেন তাই পরিবর্তে আপনার FilesMatchপরিবর্তে ব্যবহারের কথা বিবেচনা করা উচিত , এখানে পরামর্শ দেওয়া হয়েছে stackoverflow.com/q/14792381/1262357
গ্রুবার

15

এটি করার একাধিক উপায় রয়েছে (তাদের সংমিশ্রণটি অবশ্যই এটি সম্পাদন করার একটি নিশ্চিত উপায়):

1) অনুসন্ধান ইঞ্জিন ক্রোলারগুলি থেকে ফাইলগুলি ব্লক করতে robots.txt ব্যবহার করুন :

User-agent: *
Disallow: /pdfs/ # Block the /pdfs/directory.
Disallow: *.pdf  # Block pdf files. Non-standard but works for major search engines.

২) rel="nofollow"সেই পিডিএফগুলির লিঙ্কগুলিতে ব্যবহার করুন

<a href="something.pdf" rel="nofollow">Download PDF</a>

3) x-robots-tag: noindexক্রলগুলি তাদের সূচিকরণ থেকে রোধ করতে এইচটিটিপি শিরোনাম ব্যবহার করুন। আপনার .htaccess ফাইলে এই কোডটি রাখুন :

<FilesMatch "\.pdf$">
  header set x-robots-tag: noindex
</FilesMatch>

2
বিপরীতমুখীভাবে, উভয় x-robots-tagএবং robots.txtএকই সাথে ব্যবহার করা ভাল ধারণা নয় এবং যেভাবেই সামগ্রীটিকে সূচিযুক্ত হতে পারে। যদি আপনি উভয়ই ব্যবহার করেন robots.txtএবং x-robots-tag: noindex, ক্রোলার কখনই ক্রল হবে না বা দেখতে পাবে না x-robots-tagকারণ এটি প্রথমে সম্মানিত করে robots.txtrobots.txtকেবল ক্রল হওয়া থেকে সংস্থানগুলি থেকে সংস্থানগুলি আটকাতে পারে না, তাই সবচেয়ে ভাল সমাধান হোল্ডারটি ব্যবহার করা x-robots-tagসত্ত্বেও অনুসন্ধান ইঞ্জিনগুলিকে আপনার robots.txtএকা রেখে এই শিরোনামটি ক্রল করার অনুমতি দেয় ।
ম্যাক্সিমিলিয়ান লমিস্টার

1

আপনি robots.txt ফাইলটি ব্যবহার করতে পারেন । আপনি এখানে আরও পড়তে পারেন ।


3
Robots.txt ব্যবহার করা ইনডেক্সিং প্রতিরোধ করে না । এটি কেবল ক্রলিং প্রতিরোধ করে । সঠিক সমাধানের জন্য পেসারিয়ার উত্তর দেখুন ।
toxalot

1

নিশ্চিত নয় যে এই সিলটি কারও কাছে কিছু মান আনতে পারে তবে আমরা সম্প্রতি একটি সমস্যার মুখোমুখি হয়েছি যে আমাদের অন-প্রাইমিস জিএসএ বক্স পিডিএফ ফাইল সূচী করতে রাজি নয়।

গুগল সাপোর্ট ইস্যুটি নিয়ে কাজ করেছে এবং তাদের প্রতিক্রিয়া হ'ল এটি সম্পর্কিত যে এই পিডিএফ ডকুমেন্টটিতে একটি কাস্টম সম্পত্তি সেট রয়েছে (ফাইল -> ডকুমেন্ট প্রোপার্টি -> কাস্টম (ট্যাব))

name: robots
value: noindex

যা এটি GSA দ্বারা যথাযথভাবে সূচিকরণ হতে বাধা দেয়।

আপনার যদি দস্তাবেজে অ্যাক্সেস থাকে এবং এর বৈশিষ্ট্যগুলি সংশোধন করতে পারেন তবে এটি জিএসএর জন্য ইজারাতে ...


1

যদি আপনি গুগল অনুসন্ধানের ফলাফলগুলিতে এনজিঙ্ক্স চালিত বিকাশের উদাহরণগুলি প্রদর্শিত হয়, তবে সার্চ ইঞ্জিনগুলি আপনার সাইটে ক্রলিং থেকে রোধ করার জন্য একটি দ্রুত এবং সহজ উপায় রয়েছে। আপনি যে ক্রলিং রোধ করতে চান সেই ব্লকটির জন্য আপনার ভার্চুয়ালহোস্ট কনফিগারেশন ফাইলের অবস্থান ব্লকে নিম্নলিখিত লাইনটি যুক্ত করুন।

add_header  X-Robots-Tag "noindex, nofollow, nosnippet, noarchive";

-2

আপনি একটি robots.txt ফাইল ব্যবহার করতে পারেন। অনুসন্ধান ইঞ্জিনগুলি যে ফাইলটিকে সম্মান করে পিডিএফকে সূচী করে না । কোনও ফাইলের সূচকে অনুমতি না দেওয়ার জন্য কেবলমাত্র কমান্ডটি ব্যবহার করুন এবং সন্ধান ইঞ্জিনগুলি সূচী করতে চান না এমন কোন ফোল্ডার বা পিডিএফ ফাইলটি নির্ধারণ করুন।


4
Robots.txt ব্যবহার করা ইনডেক্সিং প্রতিরোধ করে না । এটি কেবল ক্রলিং প্রতিরোধ করে । সঠিক সমাধানের জন্য পেসারিয়ার উত্তর দেখুন । আমি সম্প্রতি রোবটস. টেক্সট ফাইলের মধ্যে নয়েডেক্স ডাইরেক্টিভ (অস্বীকার করার পরিবর্তে) ব্যবহার করার বিষয়ে পড়েছি, তবে এটি অনিবন্ধিত এবং মানহীন। এবং আমি কোথায় এটি পড়েছি তা এখন খুঁজে পাচ্ছি না।
toxalot

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.