Robots.txt কি কোনও সার্ভারের সাব-ডিরেক্টরিতে থাকতে পারে?

16

আমার একটি উপ-ডিরেক্টরি রয়েছে যা আমি অনুসন্ধান ইঞ্জিন ওয়েব ক্রোলারগুলি থেকে আড়াল করতে চাই।

এটি করার একটি উপায় হ'ল robots.txtসার্ভারের মূল ডিরেক্টরিতে একটি (স্ট্যান্ডার্ড উপায়) use যাইহোক, যে কেউ ওয়েবসাইটের ইউআরএল জানেন এবং কিছু প্রাথমিক ওয়েব জ্ঞান থাকতে পারে তিনি রোবটস টেক্সট সামগ্রীগুলি অ্যাক্সেস করতে পারবেন এবং নিষ্ক্রিয় ডিরেক্টরিগুলি স্পট করতে পারবেন।

আমি এড়ানোর জন্য একটি উপায় ভেবেছিলাম, তবে আমি নিশ্চিত না যে এটি কাজ করবে কিনা।

যাক Xউপ-যে ডিরেক্টরি আমি বাদ দেওয়ার বিষয়ে নাম হও। ওয়েব ক্রলার সূচিবদ্ধ থামাতে ওয়ান ওয়ে Xডিরেক্টরি এবং একই সময়ে কেউ শনাক্ত করতে কঠিন করে তুলতে Xরুট থেকে ডিরেক্টরির robots.txt, অ্যাড হয় robots.txtমধ্যে Xডিরেক্টরি পরিবর্তে রুট ডিরেক্টরিটি।

আমি যদি এই সমাধানটি অনুসরণ করি তবে আমার নিম্নলিখিত প্রশ্নগুলি রয়েছে:

ওয়েব ক্রলারগুলি কি robots.txtসাব-ডিরেক্টরিতে এটি আবিষ্কার করবে ? (প্রদত্ত যে, robots.txtইতিমধ্যে একটি বিদ্যমান এবং মূল ডিরেক্টরিতে)
যদি robots.txtহয় Xউপ-ডিরেক্টরি, তারপর আমি আপেক্ষিক বা পরম পাথ ব্যবহার করা উচিত ?:
```
User-agent: *
Disallow: /X/
```
অথবা
```
User-agent: *
Disallow: /
```

web-crawlers robots.txt

— রাফায়েল
সূত্র

2

আমি নিশ্চিত না যে আপনি কেন আপনার অনুমতিপ্রাপ্ত ডিরেক্টরিগুলি পড়া লোকদের এড়াতে চান, তবে যদি সংবেদনশীল ডেটা থাকে তবে এটি কেবল রোবট থেকে অবরুদ্ধ হওয়া উচিত নয় তবে লগইন বা অন্য কোনও সুরক্ষার দ্বারাও প্রতিরোধ করা উচিত।

— অ্যান্ড্রু লট

এটি ক্ষেত্রে নয়, আমি চাইব যে কোনও নির্দিষ্ট ব্যবহারকারীর এটিতে অ্যাক্সেস রয়েছে (কেবলমাত্র গোপনীয়তার জন্য ডেটাগুলির ক্ষেত্রে সংবেদনশীল কিছুই নয়) এবং আমি ডিরেক্টরিটি লক না করতে চাই।

— রাফায়েল

5

আপনার যদি গোপনীয়তা সম্পর্কিত সমস্যা থাকে তবে আপনার অন্য কোনও উপায়ে ডেটা সুরক্ষিত করা উচিত। এটি রোবটস টেক্সট নয়।

— অ্যান্ড্রু লট

18

না, ওয়েব ক্রোলাররা একটি সাব-ডিরেক্টরিতে একটি রোবটস.টেক্সট ফাইলটি পড়বে বা মানবে না। আধা-অফিসিয়াল রোবোটস্টেক্সট.আর. সাইটটিতে বর্ণিত হিসাবে :

কোথায় রাখব

সংক্ষিপ্ত উত্তর: আপনার ওয়েব সার্ভারের শীর্ষ স্তরের ডিরেক্টরিতে।

বা গুগলের সহায়তা পৃষ্ঠাগুলিতে ( জোর দেওয়া খনি):

একটি robots.txtফাইল আপনার সাইটের মূলের একটি ফাইল যা আপনার সাইটের সেই অংশগুলিকে নির্দেশ করে যা আপনি অনুসন্ধান ইঞ্জিন ক্রলার দ্বারা অ্যাক্সেস করতে চান না।

যে কোনও ক্ষেত্রে, অনুসন্ধানের ফলাফল থেকে সংবেদনশীল পৃষ্ঠাগুলি আড়াল করার জন্য রোবটস.টি.এস.টি.এস.টি ব্যবহার করা যাইহোক, একটি খারাপ ধারণা সার্চ ইঞ্জিন করতে সূচক পৃষ্ঠাগুলি robots.txt এ অননুমোদিত যদি অন্যান্য পৃষ্ঠাগুলির তাদের লিঙ্ক। বা উপরে বর্ণিত গুগল সহায়তা পৃষ্ঠায় বর্ণিত:

গুগল অনুসন্ধানের ফলাফল থেকে আপনার ওয়েব পৃষ্ঠাগুলি আড়াল করার জন্য আপনার রোবটস.টি.এস.টি. ব্যবহার করা উচিত নয়। এটি কারণ অন্যান্য পৃষ্ঠাগুলি আপনার পৃষ্ঠায় নির্দেশ করতে পারে এবং আপনার পৃষ্ঠা রোবট.এসটিএসটি ফাইল এড়িয়ে এইভাবে সূচিকায়িত হতে পারে।

সুতরাং আপনি পরিবর্তে কি করা উচিত?

আপনি অনুসন্ধান ইঞ্জিনগুলিকে পৃষ্ঠাগুলি ক্রল করতে (যদি সেগুলি খুঁজে পান) করতে পারেন, তবে একটি রোবট মেটা ট্যাগ অন্তর্ভুক্ত করতে পারেন সামগ্রীর সাথে করতে পারেন noindex,nofollow। এটি অনুসন্ধান ইঞ্জিনগুলিকে এই পৃষ্ঠাগুলির লিঙ্কগুলি খুঁজে পাওয়া সত্ত্বেও সূচী না করার এবং সেই পৃষ্ঠা থেকে আর কোনও লিঙ্ক অনুসরণ না করার কথা বলবে tell (অবশ্যই এটি কেবল HTML ওয়েব পৃষ্ঠাগুলির জন্যই কাজ করবে))
অ-এইচটিএমএল সংস্থানগুলির জন্য, আপনি এক্স-রোবটস-ট্যাগ এইচটিটিপি হেডার.htaccess প্রেরণ করতে আপনার ওয়েব সার্ভারটি (যেমন কোনও ফাইল ব্যবহার করে ) কনফিগার করতে পারেন একই ওয়েব সাইটের সাথে ।
সংবেদনশীল পৃষ্ঠাগুলি সুরক্ষিত করতে আপনি পাসওয়ার্ড প্রমাণীকরণ সেট আপ করতে পারেন। অননুমোদিত মানব দর্শনার্থীদের থেকে পৃষ্ঠাগুলি সুরক্ষার পাশাপাশি এটি কার্যকরভাবে ওয়েব ক্রলারদের দূরে রাখবে।

— ইলমারি করোনেন
সূত্র

ফ্যান্টাস্টিক, একটি স্থির এইচটিএমএল পৃষ্ঠা, যা মেটা ট্যাগ যুক্ত করে কৌশলটি করবে। ধন্যবাদ.

— রাফায়েল

5

আপনার robots.txtমূল ডিরেক্টরিতে থাকা উচিত এবং অন্য কোনও নাম থাকা উচিত নয়। মতে মান স্পেসিফিকেশন :

এই ফাইলটি স্থানীয় ইউআরএল "/robots.txt" এ HTTP- র মাধ্যমে অ্যাক্সেসযোগ্য হবে।

— অ্যান্ড্রু লট
সূত্র

এটি বলেছিল, ওয়েব ক্রোলাররা রোবট.টিএসটিএসটির জন্য অন্য কোনও ডিরেক্টরি দেখবে না?

— রাফায়েল

1

এমনটা আমি কখনও দেখিনি। /robots.txtমানটি, তাই কীভাবে অনুসন্ধান ইঞ্জিনগুলি জানবে যে অন্যথায় কোথায় দেখতে হবে?

— অ্যান্ড্রু লট

0

আপনি প্রকৃতপক্ষে একটি উপ-ডিরেক্টরিতে একটি রোবটস টেক্সট ব্যবহার করতে পারেন। বর্তমানে আমরা আমাদের ভাষার সাবডোমেনগুলি ব্যবহার করি। আমরা একটি 301 পুনর্নির্দেশ ফর্মটি /robots.txt / a /lang/robots.txt (প্রতি সাব ডোমেন) এ ব্যবহার করি এবং এটি সঠিকভাবে নেওয়া হচ্ছে।

সাধারণ ফরোয়ার্ড স্ল্যাশ ব্যবহার করার সময় এটি ফোল্ডারটির কাঠামোটিকে সঠিক মূল হিসাবে বেছে নিচ্ছে। যেমন। বাতিল: /

সমস্ত কিছু বাতিল করা হিসাবে বিবেচনা করা হয় এবং কেবলমাত্র বর্তমান উপ-ডিরেক্টরিটি {পুনর্নির্দেশ} রোবটস.টি.এস.টি. ফাইলে থাকে না।

তবে আবার, আমরা একটি 301 দিয়ে পুনর্নির্দেশ করেছি এবং এটি জায়গায় আছে, সুতরাং 301 ছাড়া, আমি সন্দেহ করি যে এটি কখনও পাওয়া যাবে ...

— সরু চেপটা পেরেক-বিশেষ
সূত্র