ডেটা বিশ্লেষণ শেখার প্রচেষ্টার অংশ হিসাবে আমি নিজেই পাইথন ব্যবহার করে ওয়েব স্ক্র্যাপিং শিখার চেষ্টা করছি। আমি imdb ওয়েবপৃষ্ঠাটি স্ক্র্যাপ করার চেষ্টা করছি যার ইউআরএলটি নিম্নলিখিত: http://www.imdb.com/search/title?sort=num_votes,desc&start=1&title_type=fe चर&year = 1950,2012
আমি বিউটিফুলসুপ মডিউলটি ব্যবহার করছি। নিম্নলিখিতটি আমি ব্যবহার করছি কোডটি:
r = requests.get(url) # where url is the above url
bs = BeautifulSoup(r.text)
for movie in bs.findAll('td','title'):
title = movie.find('a').contents[0]
genres = movie.find('span','genre').findAll('a')
genres = [g.contents[0] for g in genres]
runtime = movie.find('span','runtime').contents[0]
year = movie.find('span','year_type').contents[0]
print title, genres,runtime, rating, year
আমি নিম্নলিখিত ফলাফলগুলি পাচ্ছি:
The Shawshank Redemption [u'Crime', u'Drama'] 142 mins. (1994)
এই কোডটি ব্যবহার করে আমি শিরোনাম, জেনার, রানটাইম এবং বছর স্ক্র্যাপ করতে পারি তবে আমি imdb চলচ্চিত্রের আইডি, বা রেটিং স্ক্র্যাপ করতে পারি না। উপাদানগুলি পরিদর্শন করার পরে (ক্রোম ব্রাউজারে), আমি এমন একটি প্যাটার্ন খুঁজে পাচ্ছি না যা আমাকে উপরের মতো অনুরূপ কোড ব্যবহার করতে দেবে।
কোডের টুকরোটি লিখতে আমাকে কী কেউ সাহায্য করতে পারে যা আমাকে চলচ্চিত্রের আইডি এবং রেটিংগুলি মুছে ফেলতে দেবে?
rating
সংজ্ঞায়িত হয়নি। আপনি যদি এটি ঠিক করেন তবে আপনি যোগ করতেও পারেনfrom BeautifulSoup import BeautifulSoup
এবংimport requests
। এবং কেন এছাড়াও কেন আমাদের নিজের জন্য এটি করতে হবে তা দেখাবেurl="http://etc"
না?