প্রশ্ন ট্যাগ «web-crawler»

ওয়েব ক্রলার (ওয়েব স্পাইডার নামে পরিচিত) এমন একটি কম্পিউটার প্রোগ্রাম যা ওয়ার্ল্ড ওয়াইড ওয়েবকে একটি পদ্ধতিগত, স্বয়ংক্রিয় পদ্ধতিতে বা সুশৃঙ্খলভাবে ব্রাউজ করে। ওয়েব ক্রলারের অন্যান্য শর্তগুলি হ'ল পিঁপড়া, স্বয়ংক্রিয় সূচক, বট, ওয়েব মাকড়সা, ওয়েব রোবট, বা - বিশেষত এফএএএফ সম্প্রদায়ের - ওয়েব স্কুটারগুলি।

5
গুগলকে আমার ওয়েবসাইটটি পুনরায় ক্রল করার জন্য কীভাবে অনুরোধ করবেন? [বন্ধ]
বন্ধ থাকে। এই প্রশ্নটি স্ট্যাক ওভারফ্লো নির্দেশিকাগুলি পূরণ করে না । এটি বর্তমানে উত্তর গ্রহণ করছে না। এই প্রশ্নটি উন্নত করতে চান? প্রশ্ন আপডেট করুন তাই এটা -বিষয়ে স্ট্যাক ওভারফ্লো জন্য। 5 বছর আগে বন্ধ । এই প্রশ্নটি উন্নত করুন গুগলকে কোনও ওয়েবসাইট পুনরায় ক্রল করার অনুরোধ করার উপায় কি …
227 seo  web-crawler 

2
পাইথনের অনুরোধ লাইব্রেরি ব্যবহার করে "ব্যবহারকারী-এজেন্ট" প্রেরণ
"User-agent"পাইথন রিকোয়েস্টস ব্যবহার করে ওয়েবপৃষ্ঠার অনুরোধ করার সময় আমি একটি মান পাঠাতে চাই । আমি নিশ্চিত নন যে নীচের কোডের মতো শিরোনামের অংশ হিসাবে এটি প্রেরণ করা ঠিক আছে কিনা: debug = {'verbose': sys.stderr} user_agent = {'User-agent': 'Mozilla/5.0'} response = requests.get(url, headers = user_agent, config=debug) ডিবাগ তথ্য অনুরোধ চলাকালীন শিরোনাম …

4
অসম্পূর্ণ উত্স ফাইলগুলি অপসারণ থেকে rsync রাখুন
আমার কাছে দুটি মেশিন, গতি এবং ভর রয়েছে। গতির একটি দ্রুত ইন্টারনেট সংযোগ রয়েছে এবং একটি ক্রলার চালাচ্ছে যা ডিস্কে প্রচুর ফাইল ডাউনলোড করে। ভর অনেক ডিস্ক স্পেস আছে। আমি ডাউনলোডগুলি শেষ করার পরে ফাইলগুলি গতি থেকে ভরতে স্থানান্তরিত করতে চাই। আদর্শভাবে, আমি কেবল চালাতে চাই: $ rsync --remove-source-files speed:/var/crawldir …

8
বিউটিফুলসৌপ এবং স্কেরিপি ক্রলারের মধ্যে পার্থক্য?
আমি এমন একটি ওয়েবসাইট তৈরি করতে চাই যা আমাজন এবং ই-বে পণ্যর দামের মধ্যে তুলনা দেখায়। এর মধ্যে কোনটি আরও ভাল কাজ করবে এবং কেন? আমি বিউটিফুলসুপের সাথে কিছুটা পরিচিত তবে স্কেরাপি ক্রলারের সাথে তেমন কিছু নেই ।

11
প্রতিটি ডকার চিত্রের জন্য স্তর এবং স্তর মাপসই সন্ধান করা
গবেষণার উদ্দেশ্যে আমি পাবলিক ডকার রেজিস্ট্রি ক্রল করার চেষ্টা করছি ( https://registry.hub.docker.com/ ) এবং 1 টি গড় চিত্রের কত স্তর রয়েছে এবং 2) এই স্তরগুলির আকার পাওয়ার জন্য বিতরণ ধারণা। তবে আমি এপিআই এবং পাবলিক লাইব্রেরিগুলির পাশাপাশি গিথুব সম্পর্কিত বিবরণ অধ্যয়ন করেছি তবে আমি কোনও পদ্ধতি খুঁজে পাচ্ছি না: সমস্ত …


11
'স্টিলথ' ওয়েব-ক্রলারগুলি সনাক্ত করা হচ্ছে
ওয়েব-ক্রলারগুলি সনাক্ত করতে চান না এমন কী কী বিকল্প রয়েছে? (আমি জানি যে তালিকা সনাক্তকরণ কৌশলগুলি স্মার্ট স্টিলথ-ক্রলার প্রোগ্রামারকে আরও ভাল মাকড়সা তৈরি করার অনুমতি দেবে, তবে আমি মনে করি না যে আমরা যে কোনও উপায়ে স্মার্ট স্টিলথ-ক্রলারগুলিকে অবরুদ্ধ করতে সক্ষম হব, কেবল যেগুলি ভুল করে।) আমি গুগলবোট এবং ইয়াহু …
107 web-crawler 

2
প্রকারের ত্রুটি: পুনঃফাইন্ডল () এ বাইটের মতো অবজেক্টে স্ট্রিং প্যাটার্ন ব্যবহার করতে পারে না
আমি কীভাবে কোনও পৃষ্ঠা থেকে ইউআরএল আনব তা শিখার চেষ্টা করছি। নিম্নলিখিত কোডে আমি ওয়েবপৃষ্ঠার শিরোনাম পাওয়ার চেষ্টা করছি: import urllib.request import re url = "http://www.google.com" regex = r'<title>(,+?)</title>' pattern = re.compile(regex) with urllib.request.urlopen(url) as response: html = response.read() title = re.findall(pattern, html) print(title) এবং আমি এই অপ্রত্যাশিত ত্রুটি পেয়েছি: …

5
কীভাবে কোনও স্ক্রিপি স্পাইডারে কোনও ব্যবহারকারী নির্ধারিত যুক্তিটি পাস করবেন
আমি কোনও ব্যবহারকারীর সংজ্ঞায়িত যুক্তিটি কোনও স্ক্রাপির মাকড়সার কাছে পৌঁছে দেওয়ার চেষ্টা করছি। কেউ কীভাবে এটি করার পরামর্শ দিতে পারে? আমি -aকোথাও একটি প্যারামিটার সম্পর্কে পড়েছি তবে কীভাবে এটি ব্যবহার করতে হবে তার কোনও ধারণা নেই।

5
কোনও ওয়েবসাইটের সমস্ত লিঙ্ক / পৃষ্ঠা কীভাবে সন্ধান করবেন
কোনও প্রদত্ত ওয়েবসাইটে সমস্ত পৃষ্ঠা এবং লিঙ্কগুলি খুঁজে পাওয়া সম্ভব? আমি একটি URL লিখতে এবং সেই সাইট থেকে সমস্ত লিঙ্কের একটি ডিরেক্টরি ট্রি তৈরি করতে চাই? আমি এইচটি ট্র্যাক দেখেছি কিন্তু এটি পুরো সাইটটি ডাউনলোড করে এবং আমার কেবল ডিরেক্টরি ট্রি প্রয়োজন।

8
কোনও সাইট [বন্ধ] থেকে ইউআরএলগুলির একটি তালিকা পান
বন্ধ এই প্রশ্নটি স্ট্যাক ওভারফ্লো নির্দেশিকাগুলি পূরণ করে না । এটি বর্তমানে উত্তর গ্রহণ করছে না। এই প্রশ্নটি উন্নত করতে চান? প্রশ্ন আপডেট করুন তাই এটা -বিষয়ে স্ট্যাক ওভারফ্লো জন্য। 5 বছর আগে বন্ধ । এই প্রশ্নটি উন্নত করুন আমি একটি ক্লায়েন্টের জন্য একটি প্রতিস্থাপন সাইট নিযুক্ত করছি তবে তারা …

10
আমি একটি একক স্কেরাপি প্রকল্পে বিভিন্ন মাকড়সার জন্য কীভাবে পৃথক পাইপলাইন ব্যবহার করতে পারি
আমার একটি স্কেরাপি প্রকল্প রয়েছে যার মধ্যে একাধিক মাকড়সা রয়েছে। কোন মাকড়সার জন্য কোন পাইপলাইন ব্যবহার করতে হবে তার কোনও সংজ্ঞা দিতে পারি? আমি যে পাইপলাইনগুলি সংজ্ঞায়িত করেছি তা প্রতিটি মাকড়সার জন্য প্রযোজ্য নয়। ধন্যবাদ
আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.