|
马上注册,结交更多好友,享用更多功能^_^
您需要 登录 才可以下载或查看,没有账号?立即注册
x
本帖最后由 jjxx2005 于 2020-4-15 11:48 编辑
我想提取每一个<li>标签中<img>中的src属性
tree.xpath('//div[@class="proLis"]//img/@src')
这样写不行,他还有个id 请问像这种div里面有id和class的怎么办?
- import requests
- import os
- from lxml import etree
- # 创建一个文件夹,保存所有图片
- if not os.path.exists('./海报'):
- os.mkdir('./海报')
- url = 'http://www.jkl.com.cn/cn/phoLis.aspx?id=697'
- for i in range(1,5):
- data = {'__EVENTARGUMENT':'i'}
- UA伪装 = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.92 Safari/537.36'}
- 响应数据 = requests.get(url=url,params=data,headers=UA伪装).text
- tree = etree.HTML(响应数据)
- 标签列表 = tree.xpath('//div[@class="proLis"]//img/@src')
- print(标签列表)
复制代码
现在返回的都是空列表
我稍稍改了改,可以的,另外字典data的i不要带引号。
- import requests
- import os
- from lxml import etree
- # 创建一个文件夹,保存所有图片
- if not os.path.exists('post'):
- os.mkdir('post')
- url = 'http://www.jkl.com.cn/cn/phoLis.aspx?id=697'
- for i in range(1, 5):
- data = {'__EVENTARGUMENT': i}
- headers = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.92 Safari/537.36'}
- r = requests.get(url=url, params=data, headers=headers)
- html = etree.HTML(r.text)
- result = html.xpath('//div[@class="proLis"]//img/@src')
- print(result)
复制代码
|
-
|