爬取验证码
import requestsfrom lxml import etree
if __name__ == '__main__':
url='https://so.gushiwen.cn/user/login.aspx?from=http://so.gushiwen.cn/user/collect.aspx'
headers={
'User-Agent':'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Mobile Safari/537.36'
}
page_data=requests.get(url=url,headers=headers).text
tree=etree.HTML(page_data)
src='https://sp.gushiwen.cn'+tree.xpath('//*[@id="imgCode"]/@src')
image_data=requests.get(url=src,headers=headers).content
with open('yanzheng.jpg','wb') as fp:
fp.write(image_data)
为啥报错呢 光下载png文件有啥用 啊 最主要的是把图片里的文本提取出来 兄弟你的src那里地址前缀写错了,是so.gushiwen.cn 不是 sp.gushiwen.cn,而且确实像楼上所说还要去识别 楼上的说得对,楼主以后也可以把报错信息贴上来,这样大家更容易找 {:10_257:}{:10_254:}
页:
[1]