|
发表于 2021-2-23 20:10:31
|
显示全部楼层
本楼为最佳答案
本帖最后由 YunGuo 于 2021-2-23 20:13 编辑
网站注册看了,cookie反爬。
分析很简单,首先,请求网页后浏览器源代码中有数据,但是网站是要登录才能进去的(浏览器没登录前打不开这个网站),根据这个推测要携带cookie请求,才能正常得到数据。所以你携带cookie就行了,然后正常提取数据去求和。
- import requests
- from lxml import etree
- url = 'http://glidedsky.com/level/web/crawler-basic-1'
- headers = {
- 'user-agent': 'Mozilla/5.0',
- 'cookie': '' # 复制浏览器cookie
- }
- res = requests.get(url, headers=headers)
- sel = etree.HTML(res.text)
- nums = sel.xpath('//*[@class="col-md-1"]/text()')
- num_sum = 0
- for num in nums:
- num_sum += int(num.replace('\n', '').strip())
- print(num_sum)
复制代码 |
|