প্রশ্ন ট্যাগ «web-crawlers»

এমন একটি কম্পিউটার প্রোগ্রাম যা বিভিন্ন উদ্দেশ্যে ওয়েব পৃষ্ঠাগুলি অ্যাক্সেস করে (সামগ্রীকে স্ক্র্যাপ করতে, আপনার সাইটের তথ্য সম্পর্কিত অনুসন্ধান ইঞ্জিন সরবরাহ করতে ইত্যাদি)

1
বৌদু আমার সাইটে পাগলের মতো হামাগুড়ি দেয় কেন
আমি যখন আমার অ্যাপাচি লগটি পরীক্ষা করছি তখন আমি দেখতে পাচ্ছি যে গত 2 সপ্তাহ ধরে বৌদু প্রতিদিন 10 বার আমার ওয়েবসাইট ক্রল করছে। এটি যে আমি এটি সম্পর্কে খুব যত্ন করি তা নয় তবে তিনি কেন এটি করছেন তা সম্পর্কে আমি সত্যিই আগ্রহী। এটি আসন্ন লিঙ্কগুলির সাথে একটি খুব …

4
হামাগুড়ি আজাক্সের অবস্থা?
আমি দেখেছি যে # এর মাধ্যমে অ্যাজাক্স অ্যাপ্লিকেশনগুলিকে ক্রলযোগ্য করার জন্য গুগলের একটি দুর্দান্ত প্রস্তাব / মান রয়েছে! (হ্যাশ ব্যাং) http://googlewebmastercentral.blogspot.com/2009/10/proposal-for-making-ajax-crawlable.html আমার প্রশ্নগুলি হ'ল: তারা কি ইতিমধ্যে বাস্তব বিশ্বে এই "প্রস্তাবনা" ব্যবহার করছে? অন্যান্য অনুসন্ধান ইঞ্জিনগুলি কি - বিং বিশেষভাবে ব্যবহার করছে বা এটি ব্যবহারের পরিকল্পনা করছে?

4
গুগল সিডিএন ফাইল ক্রল করে না
আমি লক্ষ্য করেছি যে গুগল ওয়েবমাস্টার সরঞ্জামগুলি আমার ওয়েবসাইটে প্রচুর অবরুদ্ধ সংস্থার প্রতিবেদন করছে। এই মুহূর্তে সমস্ত "অবরুদ্ধ সংস্থানগুলি" .css, .js এবং চিত্রগুলি (.jpg, .png) যা আমি ক্লাউডফ্রন্ট সিডিএন থেকে পরিবেশন করি। গুগল কেন এই ফাইলগুলিকে ক্রল করে না এবং একটি "রিসোর্স ব্লক" স্থিতির প্রতিবেদন করে তা দেখার জন্য আমি …

2
কোন সাইটগুলিতে কোনও বट्स আসলে মূল্যবান?
অনেকগুলি বট লিখেছেন এবং বিশাল পরিমাণে এলোমেলো বটগুলি দেখে যা একটি সাইট ক্রল করার জন্য ঘটেছে, আমি ওয়েবমাস্টার হিসাবে ভাবছি, কোন সাইটগুলি বটগুলি আসলে কী মূল্য দেবে? আমার প্রথম চিন্তাটি হ'ল যে সাইটগুলিতে বটগুলি অনুমতি দেওয়া সম্ভব সম্ভাব্যভাবে এতে আসল ট্র্যাফিক আনতে পারে। কোনও সাইটগুলিতে সত্যিকারের ট্র্যাফিক প্রেরণ করা হয় …

2
গুগল ওয়েবমাস্টার সরঞ্জাম আমাকে বলে যে রোবটগুলি সাইটম্যাপে অ্যাক্সেস আটকাচ্ছে
এটি আমার রোবটস টেক্সট : User-agent: * Disallow: /wp-admin/ Disallow: /wp-includes/ Sitemap: http://www.example.org/sitemap.xml.gz তবে গুগল ওয়েবমাস্টার সরঞ্জাম আমাকে বলে যে রোবটগুলি সাইটম্যাপে অ্যাক্সেস আটকাচ্ছে: আপনার সাইটম্যাপটি অ্যাক্সেস করতে গিয়ে আমরা একটি ত্রুটির মুখোমুখি হয়েছি। দয়া করে নিশ্চিত করুন আপনার সাইটম্যাপটি আমাদের নির্দেশিকা অনুসরণ করে এবং অবস্থান আপনার দেওয়া এবং তারপর …

4
অ্যাডসেন্স ক্লিক বট ক্লিক করুন আমার সাইটে বোমা ফেলা
আমার কাছে এমন একটি সাইট রয়েছে যা এখন প্রায় 7,000 - 10,000 পৃষ্ঠা ভিউ পেয়েছে। 7/1/12 সকাল 1 টা থেকে শুরু করে আমি লক্ষ্য করেছি যে সিটিআর নাটকীয়ভাবে বেড়ে চলেছে। এই ক্লিকগুলি জমা দেওয়া হবে এবং এরপরেই অ-জমা দেওয়া হবে। সুতরাং, তারা স্পষ্টতই প্রতারণামূলক ক্লিক ছিল। পরের দিন আমার প্রায় …

6
ভিউ গণনা থেকে বট বাদ দেওয়ার সর্বোত্তম উপায় কী?
আমার ওয়েবসাইটটি নির্দিষ্ট পৃষ্ঠাগুলিতে দর্শনার্থীদের দর্শন গণনা করছে। আমি লক্ষ্য করেছি যে গুগল এবং অন্যান্য বটস পাগলের মতো আমার সাইটে "ক্লিক করছে" এবং কিছু পৃষ্ঠাগুলি অবাস্তব দর্শনের সংখ্যা পেয়েছে (মানুষের দ্বারা উত্পাদিতগুলির তুলনায়)। আমি আমার দৃষ্টিভঙ্গি থেকে এই বটগুলি বাদ দিতে সর্বোত্তম অনুশীলনের জন্য বলছি। স্পষ্টতই একটি সাধারণ "ব্যবহারকারী এজেন্ট" …

1
Robots.txt এ ব্যবহারকারী-এজেন্টদের একত্রিত করুন
ব্যবহারকারী-এজেন্টদের একসাথে তালিকাভুক্ত করা যেতে পারে, এর পরে রোবট.এসটিএসটি- তে তাদের মতো সাধারণ নিয়ম অনুসরণ করা যায় ? User-agent: Googlebot User-agent: ia_archiver #Alexa User-agent: BingPreview #Microsoft User-agent: bingbot #Microsoft User-agent: MSNBot #Microsoft User-agent: Slurp #Yahoo User-agent: Ask Jeeves/Teoma #Ask Disallow: /adm30_buds/

1
গুগলবট আমাদের মানচিত্রের লোকেটারে কয়েক হাজার অনুরোধ জমা দিয়ে এবং এপিআই কোটা ব্যবহার করে
আমাদের গ্রাহকের সাইটে আমাদের কাছে একটি স্টোর লোকেটার পৃষ্ঠা রয়েছে। শেষ ব্যবহারকারী তাদের পোস্টকোড এবং একটি অনুসন্ধান ব্যাসার্ধে প্রবেশ করে এবং আমরা একটি গুগল ম্যাপে ফলাফল প্রদর্শন করি। সম্প্রতি আমরা লক্ষ্য করেছি যে সাইটটি পুরো ট্র্যাফিকের উল্লেখযোগ্য বৃদ্ধি ছাড়াই ফ্রি ম্যাপ সন্ধানের সীমাটি (প্রায় 24 ঘন্টা প্রতি 25,000) হিট করছে। …

1
"নোইন্ডেক্স:" কীভাবে রোবটস টেক্সট কাজ করে?
আমি আজ আমার এসইও নিউজে এই নিবন্ধটি পেরিয়ে এসেছি। এর থেকে বোঝা যাচ্ছে যে আপনি রোবট.টিএসটিএসটিতেNoindex: স্ট্যান্ডার্ড Disallow:নির্দেশিকা ছাড়াও নির্দেশিকা ব্যবহার করতে পারেন । Disallow: /page-one.html Noindex: /page-two.html দেখে মনে হচ্ছে এটি অনুসন্ধান ইঞ্জিনগুলিকে প্রথম পৃষ্ঠার ক্রলিং থেকে আটকাতে এবং পৃষ্ঠাগুলির দুটি সূচিকরণ থেকে বিরত করবে। গুগল এবং অন্যান্য অনুসন্ধান …

2
কেবল গুগল এবং বিং বটগুলিকেই কোনও সাইট ক্রল করার অনুমতি দিন
আমি কোনও সাইটের জন্য নিম্নলিখিত রোবটস.টি.এস.টি. ফাইলটি ব্যবহার করছি: টার্গেট হ'ল পেজ ব্যতীত গুগলবট এবং বিংবোটকে সাইটে অ্যাক্সেসের অনুমতি দেওয়া /bedven/bedrijf/*এবং অন্য সমস্ত বটকে সাইটটি ক্রলিং থেকে আটকাতে হবে। User-agent: googlebot Disallow: /bedven/bedrijf/* Crawl-delay: 10 User-agent: google Disallow: /bedven/bedrijf/* Crawl-delay: 10 User-agent: bingbot Disallow: /bedven/bedrijf/* Crawl-delay: 10 User-agent: bing Disallow: …

2
ব্যবহারকারী এজেন্টগুলিতে ইউআরএলগুলির সামনে প্লাস সাইন ইন
আমি একটি ছোট ওয়েব ক্রলার চালাচ্ছি এবং এটির জন্য কোন ব্যবহারকারী এজেন্ট ব্যবহার করবেন তা সিদ্ধান্ত নিতে হয়েছিল। ক্রলার এজেন্টদের তালিকা পাশাপাশি উইকিপিডিয়া নীচের ফর্ম্যাটটির পরামর্শ দেয়: examplebot/1.2 (+http://www.example.com/bot.html) তবে কিছু বট ইউআরএল এর সামনে প্লাস চিহ্নটি বাদ দেয়। এবং আমি আশ্চর্য হয়েছি এর অর্থ প্রথম স্থানে কী আছে তবে …

1
গুগল কীভাবে আমার 403 পৃষ্ঠা ক্রল করার জন্য পরিচালনা করেছিল?
আমার স্কুলের ফোল্ডারে একটি ডিরেক্টরিতে আমার বেশ কয়েকটি ব্যক্তিগত ফাইল ছিল। আপনি দেখতে পেলেন যে ফাইলগুলি myschool.edu/myusername/myfolder এ গিয়ে অস্তিত্ব রয়েছে, তবে myschool.edu/myusername/myfolder/myfile.html এর মাধ্যমে ফাইলগুলি অ্যাক্সেস করার চেষ্টা করে 403 ত্রুটি ফিরে আসে। এবং তবুও গুগল কোনওরকমভাবে সেই ব্যক্তিগত ফাইলগুলির বিষয়বস্তু দখল করে এটিকে তার ক্যাশে সংরক্ষণ করতে সক্ষম …

6
আর্কাইভ.অর্গ বটকে সঠিকভাবে (ডিস) কীভাবে অনুমতি দেওয়া যায়? বিষয়গুলি কি তখন বদলেছে?
আমার একটি ওয়েবসাইট রয়েছে যা আমি বেশিরভাগই অনুসন্ধান ইঞ্জিনগুলির দ্বারা সূচীকরণ করতে চাই না, তবে আমি সংরক্ষণাগার.org এ অনন্তকাল ধরে সংরক্ষণ করতে চাই না want সুতরাং আমার robots.txtসাথে এটি শুরু: User-agent: * Disallow: / আজ, আর্কাইভ.অর্গ অনুযায়ী robots.txtতাদের বটগুলিকে অনুমতি দেওয়ার জন্য আমাকে নিম্নলিখিতগুলিতে যুক্ত করতে হবে : User-agent: ia_archiver …

2
আমাদের এজেএক্স ক্রলিং স্কিমটি বাদ দেওয়া উচিত?
তাই এখন গুগল এজেএক্স ক্রলিং স্কিমটিকে অবমূল্যায়ন করেছে । তারা বলছেন যে এটি নতুন ওয়েবসাইটগুলিতে প্রয়োগের জন্য বিরক্ত করবেন না, কারণ এখন আর এটির দরকার নেই যেহেতু গুগলবোটের এখন ডায়নামিক সামগ্রী দেখার কোনও সমস্যা নেই। আমাদের কি এই বিবৃতিটি তাত্ক্ষণিকভাবে বিশ্বাস করা উচিত, বা কিছু সময়ের জন্য অবহেলিত মানকে মেনে …

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.