[已解决]豆瓣爬取问题

83519489 · 发表于 2019-8-22 11:48:37

您需要登录才可以下载或查看，没有账号？立即注册

x

豆瓣爬取电影TOP250遇到匹配的问题，标签下内容数量不等，按照现有代码只可以匹配一个信息，麻烦大神解答下
需要爬取的内容如下：
 
类型:
剧情
/
喜剧
/
爱情
/
战争
 

爬取的代码如下：

import requests
from lxml import etree
import time
import csv
import re
headers={
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36'
}
#写入请求头
fp = open('C:\doupoxiaoshuo\doubanshoudong.csv','wt',newline='',encoding='utf-8')
writer= csv.writer(fp)
writer.writerow(('title','leixing','time_out','lanuage'))
#创建CSV文件，写入首行
def get_movie_url(url):
res=requests.get(url,headers=headers)
response=etree.HTML(res.text)
movie_hrefs=response.xpath('//div[@class="hd"]/a/@href')#请求网站信息爬取需要的URL
for movie_href in movie_hrefs:
get_movie_info(movie_href)#循环爬取URL
def get_movie_info(url):
res=requests.get(url,headers=headers)
response=etree.HTML(res.text)#进入需要爬取的URL页面
try:
title=response.xpath('//*[@id="content"]/h1/span[1]/text()')[0]
leixing=re.findall('(.*?)分钟',res.text)[0]
time_out=re.findall('(.*?)分钟',res.text,re.S)[0]
lanuage=re.findall('制片国家/地区:(.*?) ',res.text,re.S)[0]
writer.writerow((title,leixing,time_out,lanuage))
#爬取需要的信息并写入CSV
except IndexError:
pass
#出现错误跳过
if __name__ =='__main__':
urls=['https://movie.douban.com/top250?start={}'.format(str(i))for i in range(0,50,25)]
for url in urls:
get_movie_url(url)
time.sleep(2)
#循环爬取所有电影的详细信息

复制代码

最佳答案

彩虹七号

2019-8-22 12:46:58

pl_list = []
pl = response.xpath('//*[@id="info"]/span[@property="v:genre"]')
for i in pl:
pl_list.append(i.text)

彩虹七号 · 发表于 2019-8-22 12:46:58

pl_list = []
pl = response.xpath('//*[@id="info"]/span[@property="v:genre"]')
for i in pl:
pl_list.append(i.text)

83519489 · 发表于 2019-8-22 14:28:01

彩虹七号发表于 2019-8-22 12:46
pl_list = []
pl = response.xpath('//*[@id="info"]/span[@property="v:genre"]')
for i in pl:

感谢提供了思路~将获取的数据添加进数组，然后循环添加进数组，实际代码中会因为数组中的数据没有清除在下一个循环继续使用旧数组数据，我再看看应该怎么处理，感谢

账号		自动登录	找回密码
密码			立即注册