প্রশ্ন ট্যাগ «web-scraping»

ওয়েব স্ক্র্যাপিং হ'ল ওয়েবসাইটগুলি থেকে সুনির্দিষ্ট তথ্য আহরণের প্রক্রিয়া যা সহজেই কোনও এপিআই বা স্বয়ংক্রিয়ভাবে ডেটা পুনরুদ্ধারের অন্যান্য পদ্ধতি সরবরাহ করে না। "স্ক্র্যাপিং দিয়ে কীভাবে শুরু করবেন" (যেমন এক্সেল ভিবিএ সহ) সম্পর্কিত প্রশ্নগুলি অসংখ্য ফাংশনাল কোডের নমুনাগুলি উপলভ্য হওয়ায় * পুরোপুরি গবেষণা করা উচিত *। ওয়েব স্ক্র্যাপিং পদ্ধতিগুলির মধ্যে তৃতীয় পক্ষের অ্যাপ্লিকেশনগুলি, কাস্টম সফ্টওয়্যারটির বিকাশ, বা মানক উপায়ে ম্যানুয়াল ডেটা সংগ্রহ অন্তর্ভুক্ত রয়েছে।

30
এইচটিএমএল স্ক্র্যাপিংয়ের জন্য বিকল্পগুলি? [বন্ধ]
বন্ধ । এই প্রশ্নটি আরও ফোকাস করা প্রয়োজন । এটি বর্তমানে উত্তর গ্রহণ করছে না। এই প্রশ্নটি উন্নত করতে চান? প্রশ্নটি আপডেট করুন যাতে এটি কেবলমাত্র এই পোস্টটি সম্পাদনা করে একটি সমস্যার উপর দৃষ্টি নিবদ্ধ করে । 6 বছর আগে বন্ধ ছিল । আমি এইচটিএমএল স্ক্র্যাপিংয়ের জন্য পাইথন প্যাকেজটি বিউটিফুল …

16
শ্রেণি দ্বারা উপাদানগুলি কীভাবে সন্ধান করা যায়
বিউটিউলসাপ ব্যবহার করে "ক্লাস" অ্যাট্রিবিউট দিয়ে এইচটিএমএল উপাদানগুলি পার্স করতে আমার সমস্যা হচ্ছে। কোডটি এরকম দেখাচ্ছে soup = BeautifulSoup(sdata) mydivs = soup.findAll('div') for div in mydivs: if (div["class"] == "stylelistrow"): print div স্ক্রিপ্ট শেষ হওয়ার পরে "একই" লাইনে আমি একটি ত্রুটি পেয়েছি। File "./beautifulcoding.py", line 130, in getlanguage if (div["class"] …

3
হেডলেস ব্রাউজার এবং স্ক্র্যাপিং - সমাধান [বন্ধ]
বন্ধ থাকে। এই প্রশ্নটি স্ট্যাক ওভারফ্লো নির্দেশিকাগুলি পূরণ করে না । এটি বর্তমানে উত্তর গ্রহণ করছে না। এই প্রশ্নটি উন্নত করতে চান? প্রশ্ন আপডেট করুন তাই এটা -বিষয়ে স্ট্যাক ওভারফ্লো জন্য। 5 বছর আগে বন্ধ । আমি ব্রাউজারের স্বয়ংক্রিয় পরীক্ষার স্যুট এবং স্ক্র্যাপিং করতে সক্ষম হেডলেস ব্রাউজার প্ল্যাটফর্মগুলির জন্য সম্ভাব্য …

6
আমি কীভাবে কোনও ইউআরএল বা ওয়েব পৃষ্ঠার গুগল ক্যাশে বয়স পেতে পারি? [বন্ধ]
বন্ধ থাকে। এই প্রশ্নটি স্ট্যাক ওভারফ্লো নির্দেশিকাগুলি পূরণ করে না । এটি বর্তমানে উত্তর গ্রহণ করছে না। এই প্রশ্নটি উন্নত করতে চান? প্রশ্ন আপডেট করুন তাই এটা -বিষয়ে স্ট্যাক ওভারফ্লো জন্য। 2 বছর আগে বন্ধ । এই প্রশ্নটি উন্নত করুন আমার প্রকল্পে আমার কাছে গুগল ক্যাশে বয়স গুরুত্বপূর্ণ তথ্য হিসাবে …

3
কোন HTML পার্সার সেরা? [বন্ধ]
যেমনটি বর্তমানে দাঁড়িয়ে আছে, এই প্রশ্নটি আমাদের প্রশ্নোত্তর বিন্যাসের জন্য উপযুক্ত নয়। আমরা উত্তরগুলি তথ্য, তথ্যসূত্র বা দক্ষতার দ্বারা সমর্থন করা আশা করি তবে এই প্রশ্নটি সম্ভবত বিতর্ক, যুক্তি, পোলিং বা বর্ধিত আলোচনার জন্য অনুরোধ করবে। আপনি যদি মনে করেন যে এই প্রশ্নটি উন্নত এবং সম্ভবত পুনরায় খোলা যেতে পারে …

13
পাইথন ব্যবহার করে সেলেনিয়ামের সাথে কীভাবে একটি ড্রপ-ডাউন মেনু মান নির্বাচন করবেন?
আমাকে ড্রপ-ডাউন মেনু থেকে একটি উপাদান নির্বাচন করতে হবে । উদাহরণ স্বরূপ: <select id="fruits01" class="select" name="fruits"> <option value="0">Choose your fruits:</option> <option value="1">Banana</option> <option value="2">Mango</option> </select> 1) প্রথমে আমি এটিতে ক্লিক করতে হবে। আমি এই কাজ: inputElementFruits = driver.find_element_by_xpath("//select[id='fruits']").click() 2) এর পরে আমাকে ভাল উপাদান নির্বাচন করতে হবে, যাক বলে দিন …

14
পাইথনের সাথে ওয়েব স্ক্র্যাপিং জাভাস্ক্রিপ্ট পৃষ্ঠা
আমি একটি সাধারণ ওয়েব স্ক্র্যাপার বিকাশের চেষ্টা করছি। আমি এইচটিএমএল কোড ছাড়াই পাঠ্য আহরণ করতে চাই। আসলে, আমি এই লক্ষ্যটি অর্জন করেছি, তবে আমি দেখেছি যে কয়েকটি পৃষ্ঠায় যেখানে জাভাস্ক্রিপ্ট লোড হয়েছে সেখানে আমি ভাল ফলাফল পাইনি। উদাহরণস্বরূপ, কিছু জাভাস্ক্রিপ্ট কোড যদি কিছু পাঠ্য যোগ করে, আমি এটি দেখতে পাচ্ছি …

4
এক্সএমএল প্যাকেজ ব্যবহার করে আরটিএমএল ফ্রেমগুলিতে এইচটিএমএল টেবিলগুলি স্ক্র্যাপ করা
এক্সএমএল প্যাকেজটি ব্যবহার করে আমি কীভাবে এইচটিএমএল টেবিলগুলি স্ক্র্যাপ করব? উদাহরণস্বরূপ, ব্রাজিলিয়ান ফুটবল দলের এই উইকিপিডিয়া পৃষ্ঠাটি দেখুন । আমি এটি আর এ পড়তে চাই এবং "ফিফা স্বীকৃত দলগুলির বিরুদ্ধে ব্রাজিল যে সমস্ত ম্যাচ খেলেছে তার তালিকা" ডাটা.ফ্রেম হিসাবে সারণীটি পেতে চাই। কিভাবে আমি এটি করতে পারব?
153 html  r  xml  parsing  web-scraping 

13
পাইথন যার ইউআরএল ঠিকানা আমি ইতিমধ্যে জানি তা ব্যবহার করে স্থানীয়ভাবে কীভাবে একটি চিত্র সংরক্ষণ করবেন?
আমি ইন্টারনেটে একটি চিত্রের URL জানি। উদাহরণস্বরূপ http://www.digimouth.com/news/media/2011/09/google-logo.jpg , যার মধ্যে গুগলের লোগো রয়েছে। এখন, আমি কীভাবে পাইথন ব্যবহার করে এই ব্রাউজারে ইউআরএলটি না খোলাই এবং নিজে নিজে ফাইলটি সংরক্ষণ না করে ডাউনলোড করতে পারি।

16
পাইথন এবং বিউটিফুলসুপ ব্যবহার করে ওয়েব পৃষ্ঠা থেকে লিঙ্কগুলি পুনরুদ্ধার করুন
আমি কীভাবে কোনও ওয়েবপৃষ্ঠার লিঙ্কগুলি পুনরুদ্ধার করতে এবং পাইথন ব্যবহার করে লিঙ্কগুলির url ঠিকানাটি অনুলিপি করতে পারি?

7
পুতুল: .ভ্যালুয়েটে () পরিবর্তনশীল পাস
আমি পপিটারে একটি page.evaluate()ফাংশনে একটি ভেরিয়েবল পাস করার চেষ্টা করছি , কিন্তু যখন আমি নিম্নলিখিত খুব সরল উদাহরণ ব্যবহার করি তখন ভেরিয়েবল অপরিজ্ঞাত হয়।evalVar আমি পপিটারে নতুন এবং এটির জন্য কোনও উদাহরণ খুঁজে পাচ্ছি না, সুতরাং আমার সেই পরিবর্তনশীলটি page.evaluate()ফাংশনে অতিক্রম করার জন্য সাহায্য প্রয়োজন যাতে আমি এটি ভিতরে ব্যবহার …

4
কীভাবে পাইথনের অনুরোধগুলি ব্রাউজারে ভিজিট জাল করতে পারেন?
আমি নীচের ওয়েবসাইট থেকে সামগ্রী পেতে চাই। আমি যদি ফায়ারফক্স বা ক্রোমের মতো ব্রাউজার ব্যবহার করি তবে আমি চাইলে সত্যিকারের ওয়েবসাইট পৃষ্ঠাটি পেতে পারি তবে আমি পাইথন অনুরোধ প্যাকেজটি (বা wgetকমান্ড) এটি ব্যবহার করতে চাইলে এটি সম্পূর্ণ ভিন্ন HTML পৃষ্ঠা ফেরত দেয় page আমি ভেবেছিলাম ওয়েবসাইটটির বিকাশকারী এটির জন্য কিছু …

17
স্ক্র্যাপিং: এসএসএল: http://en.wikedia.org এর জন্য CERTIFICATE_VERIFY_FAILED ত্রুটি
আমি 'পাইথনের সাথে ওয়েব স্ক্র্যাপিং' থেকে কোডটি অনুশীলন করছি এবং আমার এই শংসাপত্রের সমস্যাটি রয়েছে: from urllib.request import urlopen from bs4 import BeautifulSoup import re pages = set() def getLinks(pageUrl): global pages html = urlopen("http://en.wikipedia.org"+pageUrl) bsObj = BeautifulSoup(html) for link in bsObj.findAll("a", href=re.compile("^(/wiki/)")): if 'href' in link.attrs: if link.attrs['href'] not …

2
কোনও ওয়েবসাইট থেকে ডেটা স্ক্র্যাপ করার সর্বোত্তম উপায় কী? [বন্ধ]
বন্ধ । এই প্রশ্নটি মতামত ভিত্তিক । এটি বর্তমানে উত্তর গ্রহণ করছে না। এই প্রশ্নটি উন্নত করতে চান? প্রশ্নটি আপডেট করুন যাতে পোস্টটি সম্পাদনা করে সত্য এবং উদ্ধৃতি দিয়ে উত্তর দেওয়া যায় । 6 বছর আগে বন্ধ ছিল । এই প্রশ্নটি উন্নত করুন আমার কোনও ওয়েবসাইট থেকে বিষয়বস্তু বের করতে …

8
আমি কীভাবে দ্রুত স্ক্র্যাপ করব
এখানে কাজটি এমন কোনও এপিআইকে স্ক্র্যাপ করা যা কোনও সাইট থেকে শুরু https://xxx.xxx.xxx/xxx/1.jsonহয় https://xxx.xxx.xxx/xxx/1417749.jsonএবং একে একে ঠিক মংডবতে লিখতে। তার জন্য আমার কাছে নিম্নলিখিত কোড রয়েছে: client = pymongo.MongoClient("mongodb://127.0.0.1:27017") db = client["thread1"] com = db["threadcol"] start_time = time.time() write_log = open("logging.log", "a") min = 1 max = 1417749 for n …

আমাদের সাইট ব্যবহার করে, আপনি স্বীকার করেছেন যে আপনি আমাদের কুকি নীতি এবং গোপনীয়তা নীতিটি পড়েছেন এবং বুঝতে পেরেছেন ।
Licensed under cc by-sa 3.0 with attribution required.