鱼C论坛

 找回密码
 立即注册
查看: 3658|回复: 4

[已解决]python3网络爬虫开发实战,跟书上一样的代码怎么出错了

[复制链接]
发表于 2023-5-8 18:08:28 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
  1. import requests
  2. import re

  3. r = requests.get('https://ssr1.scrape.center/')
  4. pattern = re.compile(r'<h2.*?>(.*?)</h2>', re.S)
  5. titles = re.findall(pattern, r.text)
  6. print(titles)
复制代码


输出:requests.exceptions.SSLError: HTTPSConnectionPool(host='ssr1.scrape.center', port=443): Max retries exceeded with url: / (Caused by SSLError(SSLCertVerificationError(1, '[SSL: CERTIFICATE_VERIFY_FAILED] certificate verify failed: unable to get local issuer certificate (_ssl.c:997)')))


  1. from urllib.request import HTTPPasswordMgrWithDefaultRealm, HTTPBasicAuthHandler, build_opener
  2. from urllib.error import URLError


  3. username = "admin"
  4. password = 'admin'
  5. url = 'https://ssr3.scrape.center/'

  6. p = HTTPPasswordMgrWithDefaultRealm()
  7. p.add_password(None, url, username, password)
  8. auth_handler = HTTPBasicAuthHandler(p)
  9. opener = build_opener(auth_handler)

  10. try:
  11.     result = opener.open(url)
  12.     html = result.read().decode('utf-8')
  13.     print(html)
  14. except URLError as e:
  15.     print(e.reason)
复制代码

输出:[SSL: CERTIFICATE_VERIFY_FAILED] certificate verify failed: unable to get local issuer certificate (_ssl.c:997)


是我电脑出来什么问题吗?
最佳答案
2023-5-8 18:27:29
本帖最后由 isdkz 于 2023-5-8 18:28 编辑
zhoujie13 发表于 2023-5-8 18:14
第一个代码解决了,第二个输出Authorization Required
也不知道对不对,按理是要输出网页源代码的吧


那个是机器人答的,它因为没有用 opener.open,而是用了 urlopen 所以认证失败

你之前的报错是因为证书问题,证书问题解决的话不必要像机器人回答的那个代码那么复杂

至于为什么会有证书问题,可能作者那个网站的证书过期了,又或者 python 库中没有相应的根证书

两行代码就可以了:
  1. from urllib.request import HTTPPasswordMgrWithDefaultRealm, HTTPBasicAuthHandler, build_opener
  2. from urllib.error import URLError
  3. import ssl                                       # 注意这里

  4. ssl._create_default_https_context = ssl._create_unverified_context                  # 注意这里

  5. username = "admin"
  6. password = 'admin'
  7. url = 'https://ssr3.scrape.center/'

  8. p = HTTPPasswordMgrWithDefaultRealm()
  9. p.add_password(None, url, username, password)
  10. auth_handler = HTTPBasicAuthHandler(p)
  11. opener = build_opener(auth_handler)

  12. try:
  13.     result = opener.open(url)
  14.     html = result.read().decode('utf-8')
  15.     print(html)
  16. except URLError as e:
  17.     print(e.reason)
复制代码

小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

发表于 2023-5-8 18:09:06 | 显示全部楼层
这是由于SSL证书验证失败导致的问题。在Python中,当使用requests或urllib等库从HTTPS站点获取内容时,会默认验证SSL证书。如果证书无效或不受信任,则会引发此错误。

对于第一个代码示例,您可以通过禁用SSL证书验证来解决此问题。可以将verify参数设置为False,如下所示:

  1. import requests
  2. import re

  3. r = requests.get('https://ssr1.scrape.center/', verify=False)
  4. pattern = re.compile(r'<h2.*?>(.*?)</h2>', re.S)
  5. titles = re.findall(pattern, r.text)
  6. print(titles)
复制代码


对于第二个代码示例,您可以使用ssl模块中的create_default_context()方法来创建SSL上下文,并将其传递给urlopen()方法。您可以使用以下代码解决此问题:

  1. from urllib.request import HTTPPasswordMgrWithDefaultRealm, HTTPBasicAuthHandler, build_opener, urlopen
  2. from urllib.error import URLError
  3. import ssl

  4. username = "admin"
  5. password = 'admin'
  6. url = 'https://ssr3.scrape.center/'

  7. p = HTTPPasswordMgrWithDefaultRealm()
  8. p.add_password(None, url, username, password)
  9. auth_handler = HTTPBasicAuthHandler(p)
  10. opener = build_opener(auth_handler)

  11. context = ssl.create_default_context()
  12. context.check_hostname = False
  13. context.verify_mode = ssl.CERT_NONE

  14. try:
  15.     result = urlopen(url, context=context)
  16.     html = result.read().decode('utf-8')
  17.     print(html)
  18. except URLError as e:
  19.     print(e.reason)
复制代码


这将创建一个不验证SSL证书的SSL上下文,并将其传递给urlopen()方法。
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2023-5-8 18:14:32 | 显示全部楼层
isdkz 发表于 2023-5-8 18:09
这是由于SSL证书验证失败导致的问题。在Python中,当使用requests或urllib等库从HTTPS站点获取内容时,会默 ...

第一个代码解决了,第二个输出Authorization Required
也不知道对不对,按理是要输出网页源代码的吧

我很纠结的是和书上一样的代码为什么不行了?网页不是作者自己搭建的吗?
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2023-5-8 18:27:29 | 显示全部楼层    本楼为最佳答案   
本帖最后由 isdkz 于 2023-5-8 18:28 编辑
zhoujie13 发表于 2023-5-8 18:14
第一个代码解决了,第二个输出Authorization Required
也不知道对不对,按理是要输出网页源代码的吧


那个是机器人答的,它因为没有用 opener.open,而是用了 urlopen 所以认证失败

你之前的报错是因为证书问题,证书问题解决的话不必要像机器人回答的那个代码那么复杂

至于为什么会有证书问题,可能作者那个网站的证书过期了,又或者 python 库中没有相应的根证书

两行代码就可以了:
  1. from urllib.request import HTTPPasswordMgrWithDefaultRealm, HTTPBasicAuthHandler, build_opener
  2. from urllib.error import URLError
  3. import ssl                                       # 注意这里

  4. ssl._create_default_https_context = ssl._create_unverified_context                  # 注意这里

  5. username = "admin"
  6. password = 'admin'
  7. url = 'https://ssr3.scrape.center/'

  8. p = HTTPPasswordMgrWithDefaultRealm()
  9. p.add_password(None, url, username, password)
  10. auth_handler = HTTPBasicAuthHandler(p)
  11. opener = build_opener(auth_handler)

  12. try:
  13.     result = opener.open(url)
  14.     html = result.read().decode('utf-8')
  15.     print(html)
  16. except URLError as e:
  17.     print(e.reason)
复制代码

小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2023-5-8 19:49:50 | 显示全部楼层
这个问题是由于请求的网站使用了 HTTPS 协议并启用了 SSL 证书校验,但本地缺少相应的证书文件或者证书不被信任所导致的。

你可以尝试以下两种方案来解决这个问题:

使用 verify=False 参数禁用 SSL 证书校验:
  1. r = requests.get('https://ssr1.scrape.center/', verify=False)
复制代码

该方法虽然能够绕过 SSL 证书校验,但会降低请求的安全性,因此不建议在正式的项目中使用。

安装相应的证书文件或将其添加到受信任的根证书列表中。
你可以从证书颁发机构、网站服务器管理员、或者其他可信的渠道获得相应的证书文件,并将其安装到操作系统或 Python 的根证书列表中,以便正常进行 SSL 证书校验。具体的步骤和方法可能会因操作系统、Python 版本等因素而有所不同,建议查阅相关的资料或官方文档进行参考。
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2025-6-29 03:11

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表