কীভাবে আমার এক্সএমএল সাইটম্যাপটি প্রতিযোগীদের থেকে গোপন করবেন তবে অনুসন্ধান ইঞ্জিন থেকে নয়


10

আমি আমার সাইটম্যাপের এক্সএমএল ফাইলটি সমস্ত থেকে আড়াল করতে চাই তবে অনুসন্ধান ইঞ্জিনগুলি থেকে অ্যাক্সেসের অনুমতি দেব।

এটি করার উপায় কী?

আমি প্রতিযোগীদের কাছ থেকে সাইটের সামগ্রীর গভীরতা আড়াল করতে চাই।


1
যদি সাইট এবং এর পৃষ্ঠাগুলি ব্যবহারকারী এবং পাসওয়ার্ড দিয়ে সুরক্ষিত না হয়, কোনও শরীর তাদের ব্রাউজ করতে পারে, তাদের কেবল আপনার নিজের সাইটে লিঙ্কগুলি অনুসরণ করতে হবে।
প্যাটোমাস

আমি গুগল বটের আইপি চেক করতে পারি এবং অন্যের জন্য অনুমতি ও অস্বীকার করতে পারি। যদিও আমরা গুগলবোটের সম্পূর্ণ আইপি তালিকা পেতে পারি না।
আগা

উত্তর:


9

প্রথম পদক্ষেপটি হ'ল আপনি যে বটগুলি মঞ্জুর করতে চান তার ব্যবহারকারী-এজেন্ট সনাক্ত করা এবং যদি আপনি অনুমতি দিতে চান এমন কোনও ব্যবহারকারী-এজেন্ট না হয় তবে একটি আলাদা ফাইল পরিবেশন করা হবে।

উদাহরণস্বরূপ, আপনার দুটি সংস্করণ থাকতে পারে robots.txt, একটি সাইটম্যাপের রেফারেন্স ছাড়াই একটি এবং একটি, যাতে আপনার প্রতিযোগীরা আপনার ম্যাপটি ভিতরে দেখলে সাইটম্যাপটি খুঁজে পাবেন না robots.txt

তারপরে, আপনি আপনার সাইটম্যাপ ইউআরএল পরিদর্শনগুলি সনাক্ত করতে পারেন এবং কেবল সংযুক্ত আরব আমিরাত সঠিক হলে সাইটের মানচিত্র পরিবেশন করতে পারে। যদি আপনি অন্যথায় জেনেরিক 404 পৃষ্ঠা পরিবেশন করেন তবে আপনার প্রতিযোগীরা এমনকি আপনার সাইটম্যাপটি জানেন না।

তবে এ পর্যন্ত বর্ণিত সমস্ত পদক্ষেপগুলি কেবল অস্পষ্টতার মাধ্যমে সুরক্ষা। একজন ব্যবহারকারী-এজেন্ট সহজেই ছদ্মবেশী হতে পারে।

অতএব, গুগল সুপারিশ করে যে, আসল গুগল বট সনাক্ত করতে আপনি:

  1. গুগলবোট বলে দাবি করে আইপি ঠিকানার জন্য একটি বিপরীত ডিএনএস লুক্কুলিং করুন।
  2. হোস্টটি একটি সাব-ডোমেন কিনা তা পরীক্ষা করুন googlebot.com.
  3. সাব-ডোমেনের জন্য একটি সাধারণ ডিএনএস লুকআপ করুন।
  4. সাব-ডোমেনটি আপনার সাইটের ক্রল করে বটের আইপি ঠিকানার দিকে নির্দেশ করে কিনা তা পরীক্ষা করে দেখুন।

এটি যোগ করা:

ফ্লো চার্ট (কখন সাইটের মানচিত্র প্রদর্শিত হবে)

মাইক্রোসফ্ট তাদের ক্রলার সনাক্ত করতে একই পদ্ধতি ব্যবহার করার পরামর্শ দেয়

এই কৌশলটি ইয়াহু! যেমন.

ডাকডাকগো-র জন্য, আপনি এই আইপি ঠিকানার এই তালিকাটি ব্যবহার করতে পারেন

বিঃদ্রঃ

আপনি যদি ডিএনএস-লুকআপ ভিত্তিক মাকড়সা সনাক্তকরণ ব্যবহার করেন তবে আপনাকে 404 ত্রুটি ব্যবহার করার দরকার নেই।

404 ত্রুটি পৃষ্ঠাটি ব্যবহার করার উদ্দেশ্য হ'ল আপনার সাইটম্যাপটি একেবারেই বিদ্যমান তা গোপন করা। তবে, আপনি যদি আরও উন্নত কৌশল ব্যবহার করছেন যা কেবলমাত্র User-Agentশিরোনামের উপর নির্ভর করে না , তবে এটির আটকানো সম্ভব হবে না যাতে আপনি নিরাপদে একটি ভিন্ন ত্রুটি কোড ব্যবহার করতে পারেন, যেমন 403 Forbiddenএখানে সঠিক ত্রুটি কোডটি ব্যবহার করার জন্য।


6

সমস্যাটি হ'ল যদি আপনি (বেশ সঠিকভাবে) আপনার বিষয়বস্তু অনুসন্ধান ইঞ্জিন দ্বারা সূচীকরণ করতে চান তবে যে কোনও ব্যক্তি কোনও সাইট সম্পাদন করেন: অনুসন্ধান ইঞ্জিনগুলির মধ্যে একটিতে অনুসন্ধান করলে URL গুলি কী সূচিযুক্ত তা দেখতে সক্ষম হবে।

আপনি যদি নিজের সাইটম্যাপটি "লুকিয়ে" রাখতে চান তবে এটি একটি "গোপন" নামযুক্ত কোনও ইউআরএল থাকতে পারে যাতে এটি সন্ধান করা যে কারও কাছেই স্পষ্ট নয় তবে এটি কোনও রোবটস টেক্সটে সাইটম্যাপকে অন্তর্ভুক্ত করা সেরা অনুশীলন হিসাবে দেখছে seeing ফাইল অনুসন্ধান করুন এবং অনুসন্ধান ইঞ্জিনগুলির ওয়েবমাস্টার সরঞ্জামগুলির মধ্যে একটির কাছে এটি আপলোড করুন, যেমনটি অন্য লোকেরা বলেছেন, আপনার কেন এটি করতে হবে তা দেখা মুশকিল।


গুগল ওয়েবমাস্টার সরঞ্জাম / অনুসন্ধান কনসোলের ক্ষেত্রে, আপনার এটি আপলোড করার দরকার নেই। আপনি একবারে কোনও লুকানো সাইটম্যাপ ইউআরএল যুক্ত করতে পারেন এবং এটি এটি ব্যবহার চালিয়ে যাবে।
দেবব্যাক

4

কৌতুকপূর্ণ সমাধানটি হল দুটি সাইটম্যাপ তৈরি করা। এর মধ্যে প্রথমটি হল আপনার প্রতিযোগীদের সুবিধার জন্য দ্বিতীয়টি আপনার পছন্দসই অনুসন্ধান ইঞ্জিনগুলির সুবিধার জন্য। সামরিক পার্লেন্সে এই প্রথম সাইটম্যাপটি একটি ফিন্ট।

'ফিন্ট' এ আপনার মূল ওয়েবসাইট কাঠামো, হোম পেজ, আমাদের সাথে, আমাদের সম্পর্কে, প্রধান বিভাগগুলি রয়েছে। এটি বাস্তব চুক্তির মতো দেখায় এবং অস্পষ্ট অনুসন্ধান ইঞ্জিনগুলিতে দুর্দান্ত কাজ করবে যেগুলির আপনি যত্ন নেন না। এটি আপনার প্রতিযোগীদেরও কোনও কাজে আসবে না। এটিকে সূচিকাগুলি করার অনুমতি দিন যাতে তারা এটি খুঁজে পায়, এটিকে সাইটম্যাপ.এক্সএমএল এর মতো একটি সুস্পষ্ট নাম দিন।

এখন কোড সহ আপনার আসল সাইটম্যাপ তৈরি করুন। এটিকে 'প্রোডাক্ট-ইনফরমেশন-সাইটম্যাপ.এক্সএমএল' এর মতো একটি নাম দিন যাতে এটি একটি বুদ্ধিমান নাম তবে আপনার পাসওয়ার্ডের চেয়ে অনুমান করা আসলে সহজ নয়।

সাইটম্যাপ ফোল্ডারের জন্য আপনার অ্যাপাচি কনফিগারেশনে এমন কিছু রাখুন যাতে এই দ্বিতীয় সাইটম্যাপটি অনুসন্ধান ইঞ্জিনগুলি দ্বারা অ্যাক্সেস করা যায় তবে সূচিযুক্ত নয়:

<IfModule mod_rewrite.c>
    <Files product-information-sitemap.xml>
        Header set X-Robots-Tag "noindex"
    </Files>
</IfModule>

এখন আপডেট রাখতে কোডটি তৈরি করুন, চিত্রগুলির জন্য একটি তৃতীয় সাইটম্যাপ বিবেচনা করুন। ফিন্ট তৈরি করতে প্রয়োজনীয় হিসাবে এটি ডাউনগ্রেড করুন। সময় স্ট্যাম্পগুলিতেও মনোযোগ দিন, গুগল সেগুলিতে মনোযোগ দেয় এবং আপনার সাইটম্যাপটি যদি বড় হয় তবে এটি গুরুত্বপূর্ণ।

আপনার পণ্যগুলির সাইটম্যাপটি নিয়মিতভাবে গুগলে জমা দেওয়ার জন্য এখন একটি 'ক্রোন' কাজ তৈরি করুন। আপনার ক্রন্টব এন্ট্রিতে প্রতি সপ্তাহে আপনার আসল সাইটম্যাপটি জমা দেওয়ার জন্য এমন কিছু যুক্ত করুন:

0 0 * * 0 wget www.google.com/webmasters/tools/ping?sitemap=http%3A%2F%2Fwww.example.com%2Fsitemaps%2Fproduct-information-sitemap.xml

নোট করুন যে ইউআরএল ইউআরএল এনকোডড।

আকার যদি কোনও সমস্যা হয় তবে আপনি নিজের সাইটম্যাপটি জিজপ করতে পারেন যদিও আপনার ওয়েব সার্ভারটি যদি সেই সক্ষমিত থাকে তবে সেই জিপিডকে পরিবেশন করা উচিত।

আপনার রোবট ডট টেক্সটটি বিশেষ কিছু হতে হবে না, যতক্ষণ না এটি আপনার সাইটম্যাপগুলিতে প্রবেশ নিষিদ্ধ করে না ঠিক আছে। ব্যবহারকারী এজেন্ট স্ট্রিং বা এত জটিল যে কোনও কিছুর উপর ভিত্তি করে আলাদা আলাদা রোবটস.টি.এস.টি. ফাইলগুলি প্রেরণ করার দরকার নেই। কেবলমাত্র আপনার মূল্যবান সামগ্রীটি পরিপূরক, বিজ্ঞাপনবিহীন ফাইলের মধ্যে টানুন এবং ক্রোন জব (গুগলের জন্য অপেক্ষা না করে) গুগলে জমা দিন। সহজ।


0

আমি দেখতে পাচ্ছি না কেন কোনও সাইটের কাঠামো আপনাকে প্রতিযোগীর সাথে সমস্যা তৈরি করতে পারে?

সাইটম্যাপের মূল বিষয় হ'ল পৃষ্ঠাগুলি সূচী করা হয়, যাতে লোকেরা এগুলিকে আরও সহজে খুঁজে পেতে পারে যা এক পর্যায়ে প্রকাশ করতে পারে যে আপনার সাইটটি কীভাবে সংগঠিত হয়েছে যেমন:

  • /news/ আপনার নিউজ নিবন্ধ রয়েছে
  • /forum/ যেখানে ফোরামে সমস্ত আলোচনা হয়

এগুলি সূচকযোগ্য হবে, আরও ট্র্যাফিক এবং বর্তমান তথ্য অর্জন করতে।

আপনি যে ফোল্ডারগুলি সূচী রাখতে চান না সেগুলি এর মতো

  • পিএইচপি ক্লাস এবং ফাংশন যা কোনও সাইটকে কাজ করতে দেয়
  • সাইটের চিত্র, সিএসএস, জাভাস্ক্রিপ্ট ফোল্ডার
  • প্রশাসন প্যানেল

তারপরে, যদি এটি হয় তবে সেগুলি মোটে আপনার সাইটম্যাপে থাকা উচিত নয়। এছাড়াও আপনি সেগুলিও সূচকে বাদ দিতে পারেন।


0

আপনার যদি বটগুলির আইপিড্রেস থাকে তবে আপনি অনুমতি দিতে চান:

<Limit GET POST PUT>
order deny,allow
deny from all
allow from 192.168.1.1 # IP 1
allow from 192.168.1.2 # IP 3
allow from 192.168.1.3 # IP 2
</LIMIT>

আপনি যদি এটি ব্যবহারকারীর এজেন্ট স্ট্রিংয়ের উপর ভিত্তি করে চান:

Order Allow,Deny
allow from env=good_bot_1
allow from env=good_bot_2

গুগলের সম্পূর্ণ আইপি ঠিকানা তালিকা, বিং গোপন is তারা এটি বিশ্বকে প্রকাশ করবে না কারণ এটি ওয়েবসাইট দ্বারা ক্লোকিংয়ের দুর্দান্ত ঝুঁকি রয়েছে।
আগা

এবং কেন আমি ২ য় সম্ভাবনা যুক্ত করেছি :) এটির নামটি খুব সহজ, তবে একটি সম্পূর্ণ উত্তর সরবরাহ করতে চেয়েছিল
মার্টিজন

0

আপনি যেভাবে চেষ্টা করতে পারেন তা: একটি সাধারণ ক্রলিং সেশনে গুগল বটগুলি robots.txt অ্যাক্সেস করে এবং তারপরে সাইটম্যাপ ফাইলে যান। Robots.txt এর সমস্ত পরিবেশনার জন্য একটি কুকিতে পুশ করুন এবং কেবল কুকিযুক্ত লোকদের সাইটম্যাপে অ্যাক্সেসের অনুমতি দিন। গুগল বটস কুকিজ গ্রহণ না করলে সমস্যা হবে। সুতরাং বিপরীত করুন। কোনও ব্যবহারকারী যখন রোবটস.টেক্সট ব্যতীত অন্য কোনও পৃষ্ঠায় অ্যাক্সেস করেন এবং কুকিযুক্তদের জন্য সাইটম্যাপে অ্যাক্সেস অস্বীকার করেন তখন একটি কুকিতে পুশ করুন। এছাড়াও, আপনার সাইটম্যাপে স্ক্যাম্বলড নাম দিন, এমন কিছু যা সময়ের সাথে পরিবর্তিত হয় এবং এটি অনুমানযোগ্য করে তোলে। আপনার প্রতিযোগীদের যদি তাদের ব্রাউজারে কুকিজ সক্ষম থাকে তবে কোনও সার্চ ইঞ্জিন অনুসরণ না করে সঠিক পথ অনুসরণ না করা তাদের পক্ষে সাইটম্যাপ অ্যাক্সেস করা অত্যন্ত কঠিন extremely


0

আমি একটি অনুমান করি যে আমি আপনার প্রয়োজনীয়তাটি সঠিকভাবে বুঝতে পেরেছি তাই আমি উত্তর দেওয়ার সাহস দেখাই।

আপনার </html>ট্যাগের ঠিক আগে আপনার সাইটম্যাপে একটি চিত্রের লিঙ্ক দিন । একটি স্বচ্ছ 1px জিআইএফ ফাইল ব্যবহার করুন:

<a href="sitemap.xml"><img src="transparent.gif" alt="" height="1" width="1" /></a>

যে পৃষ্ঠাতে আপনার সাইটম্যাপের লিঙ্ক রয়েছে, তাতে আপনার সম্পর্কিত মেটাট্যাগ সেট করুন:

<meta name="robots" content="{index or noindex},follow">

আপনি সমস্ত পৃষ্ঠা নির্বাচন করতে Ctrl+ টিপে যখন ভিজ্যুয়াল অবস্থাটি পরীক্ষা করে দেখুন A। 1px লিঙ্কটি কি আপনার জন্য ঝুঁকিপূর্ণ, ঝুঁকিপূর্ণ?

যদি আপনি হ্যাঁ বলেন, তবে অন্য একটি বিকল্প হতে পারে:

  1. আপনার সাইটম্যাপে একটি লিঙ্ক তৈরি করুন: <a href="sitemap.xml">&nbsp;</a>
  2. পটভূমির রঙের সাথে একই ফন্টের রঙ পরিবর্তন করুন
  3. সিএসএস কৌশল ব্যবহার করে কোনও চিত্রের পিছনে এই লিঙ্কটি আড়াল করুন

এইভাবে কোনও অস্পষ্ট সাধারণ ব্যবহারকারী আপনার লিঙ্কটি লক্ষ্য করবেন না। অনুসন্ধান ইঞ্জিনগুলি এটি সম্পর্কে সচেতন হবে। তবে দয়া করে আপনার প্রশ্নের অন্তর্নিহিত প্রকৃতিটি সম্পর্কে অসম্ভব জড়িত সম্পর্কে সচেতন হন।

আমি অসম্ভবতা বলছি কারণ যদি কোনও ব্যবহারকারী এই শর্তাদির সাহায্যে গুগলে অনুসন্ধান করেন

* site:www.yoursite.com

লিঙ্কগুলি ক্লিক করতে ক্লান্ত না হলে পুরো বিশ্ব আপনার লিঙ্কগুলির সমস্ত দেখতে পাবে next

আমি আশা করি এগুলি সাহায্য করবে


আপনি যখন সাধারণভাবে আপনার এক্সএমএল সাইটম্যাপের সাথে লিঙ্কটি শুরু করবেন না তখন কেন এটি ব্যবহারকারীরা এক্সএমএল সাইটম্যাপটি সন্ধান / অ্যাক্সেস বন্ধ করবে?
মিঃ হোয়াইট

আমি আমার কাছে একই প্রশ্ন জিজ্ঞাসা করেছি তবে আমি প্রশ্নের মালিকের কাছ থেকে এটিই অবহিত। আমি মনে করি এটি একরকম তাঁর প্রয়োজন। আমি নিশ্চিত নই :-)
আন্দ্রে চেনিয়ার
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.