1062195630 发表于 2021-7-13 14:35:07

爬取验证码

import requests
from lxml import etree


if __name__ == '__main__':
    url='https://so.gushiwen.cn/user/login.aspx?from=http://so.gushiwen.cn/user/collect.aspx'
    headers={
      'User-Agent':'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Mobile Safari/537.36'
    }
    page_data=requests.get(url=url,headers=headers).text
    tree=etree.HTML(page_data)
    src='https://sp.gushiwen.cn'+tree.xpath('//*[@id="imgCode"]/@src')
    image_data=requests.get(url=src,headers=headers).content
    with open('yanzheng.jpg','wb') as fp:
      fp.write(image_data)

为啥报错呢

wp231957 发表于 2021-7-13 16:08:57

光下载png文件有啥用 啊   最主要的是把图片里的文本提取出来

大马强 发表于 2021-7-13 20:25:20

兄弟你的src那里地址前缀写错了,是so.gushiwen.cn 不是 sp.gushiwen.cn,而且确实像楼上所说还要去识别

BanCan笑 发表于 2021-7-13 20:31:07

楼上的说得对,楼主以后也可以把报错信息贴上来,这样大家更容易找

Kayko 发表于 2021-7-14 09:44:44

{:10_257:}{:10_254:}
页: [1]
查看完整版本: 爬取验证码