本帖最后由 YunGuo 于 2021-2-23 20:13 编辑
网站注册看了,cookie反爬。
分析很简单,首先,请求网页后浏览器源代码中有数据,但是网站是要登录才能进去的(浏览器没登录前打不开这个网站),根据这个推测要携带cookie请求,才能正常得到数据。所以你携带cookie就行了,然后正常提取数据去求和。import requests
from lxml import etree
url = 'http://glidedsky.com/level/web/crawler-basic-1'
headers = {
'user-agent': 'Mozilla/5.0',
'cookie': '' # 复制浏览器cookie
}
res = requests.get(url, headers=headers)
sel = etree.HTML(res.text)
nums = sel.xpath('//*[@class="col-md-1"]/text()')
num_sum = 0
for num in nums:
num_sum += int(num.replace('\n', '').strip())
print(num_sum)
|