[已解决]python3网络爬虫开发实战，跟书上一样的代码怎么出错了

zhoujie13 · 发表于 2023-5-8 18:08:28

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

import requests
import re
r = requests.get('https://ssr1.scrape.center/')
pattern = re.compile(r'<h2.*?>(.*?)</h2>', re.S)
titles = re.findall(pattern, r.text)
print(titles)

复制代码

输出：requests.exceptions.SSLError: HTTPSConnectionPool(host='ssr1.scrape.center', port=443): Max retries exceeded with url: / (Caused by SSLError(SSLCertVerificationError(1, '[SSL: CERTIFICATE_VERIFY_FAILED] certificate verify failed: unable to get local issuer certificate (_ssl.c:997)')))

from urllib.request import HTTPPasswordMgrWithDefaultRealm, HTTPBasicAuthHandler, build_opener
from urllib.error import URLError
username = "admin"
password = 'admin'
url = 'https://ssr3.scrape.center/'
p = HTTPPasswordMgrWithDefaultRealm()
p.add_password(None, url, username, password)
auth_handler = HTTPBasicAuthHandler(p)
opener = build_opener(auth_handler)
try:
result = opener.open(url)
html = result.read().decode('utf-8')
print(html)
except URLError as e:
print(e.reason)

复制代码

输出：[SSL: CERTIFICATE_VERIFY_FAILED] certificate verify failed: unable to get local issuer certificate (_ssl.c:997)

是我电脑出来什么问题吗？

最佳答案

月排行榜 / 总排行榜

isdkz

2023-5-8 18:27:29

本帖最后由 isdkz 于 2023-5-8 18:28 编辑

zhoujie13 发表于 2023-5-8 18:14
第一个代码解决了，第二个输出Authorization Required
也不知道对不对，按理是要输出网页源代码的吧

那个是机器人答的，它因为没有用 opener.open，而是用了 urlopen 所以认证失败

你之前的报错是因为证书问题，证书问题解决的话不必要像机器人回答的那个代码那么复杂

至于为什么会有证书问题，可能作者那个网站的证书过期了，又或者 python 库中没有相应的根证书

两行代码就可以了：

from urllib.request import HTTPPasswordMgrWithDefaultRealm, HTTPBasicAuthHandler, build_opener

from urllib.error import URLError

import ssl # 注意这里

ssl._create_default_https_context = ssl._create_unverified_context # 注意这里

username = "admin"

password = 'admin'

url = 'https://ssr3.scrape.center/'

p = HTTPPasswordMgrWithDefaultRealm()

p.add_password(None, url, username, password)

auth_handler = HTTPBasicAuthHandler(p)

opener = build_opener(auth_handler)

try:

result = opener.open(url)

html = result.read().decode('utf-8')

print(html)

except URLError as e:

print(e.reason)

复制代码

跳转到最佳答案楼层

isdkz · 发表于 2023-5-8 18:09:06

这是由于SSL证书验证失败导致的问题。在Python中，当使用requests或urllib等库从HTTPS站点获取内容时，会默认验证SSL证书。如果证书无效或不受信任，则会引发此错误。

对于第一个代码示例，您可以通过禁用SSL证书验证来解决此问题。可以将verify参数设置为False，如下所示：

import requests

import re

r = requests.get('https://ssr1.scrape.center/', verify=False)

pattern = re.compile(r'<h2.*?>(.*?)</h2>', re.S)

titles = re.findall(pattern, r.text)

print(titles)

复制代码

对于第二个代码示例，您可以使用ssl模块中的create_default_context()方法来创建SSL上下文，并将其传递给urlopen()方法。您可以使用以下代码解决此问题：

from urllib.request import HTTPPasswordMgrWithDefaultRealm, HTTPBasicAuthHandler, build_opener, urlopen

from urllib.error import URLError

import ssl

username = "admin"

password = 'admin'

url = 'https://ssr3.scrape.center/'

p = HTTPPasswordMgrWithDefaultRealm()

p.add_password(None, url, username, password)

auth_handler = HTTPBasicAuthHandler(p)

opener = build_opener(auth_handler)

context = ssl.create_default_context()

context.check_hostname = False

context.verify_mode = ssl.CERT_NONE

try:

result = urlopen(url, context=context)

html = result.read().decode('utf-8')

print(html)

except URLError as e:

print(e.reason)

复制代码

这将创建一个不验证SSL证书的SSL上下文，并将其传递给urlopen()方法。

zhoujie13 · 发表于 2023-5-8 18:14:32

isdkz 发表于 2023-5-8 18:09
这是由于SSL证书验证失败导致的问题。在Python中，当使用requests或urllib等库从HTTPS站点获取内容时，会默 ...

第一个代码解决了，第二个输出Authorization Required
也不知道对不对，按理是要输出网页源代码的吧

我很纠结的是和书上一样的代码为什么不行了？网页不是作者自己搭建的吗？

isdkz · 发表于 2023-5-8 18:27:29

本帖最后由 isdkz 于 2023-5-8 18:28 编辑

zhoujie13 发表于 2023-5-8 18:14
第一个代码解决了，第二个输出Authorization Required
也不知道对不对，按理是要输出网页源代码的吧

那个是机器人答的，它因为没有用 opener.open，而是用了 urlopen 所以认证失败

你之前的报错是因为证书问题，证书问题解决的话不必要像机器人回答的那个代码那么复杂

至于为什么会有证书问题，可能作者那个网站的证书过期了，又或者 python 库中没有相应的根证书

两行代码就可以了：

from urllib.request import HTTPPasswordMgrWithDefaultRealm, HTTPBasicAuthHandler, build_opener

from urllib.error import URLError

import ssl # 注意这里

ssl._create_default_https_context = ssl._create_unverified_context # 注意这里

username = "admin"

password = 'admin'

url = 'https://ssr3.scrape.center/'

p = HTTPPasswordMgrWithDefaultRealm()

p.add_password(None, url, username, password)

auth_handler = HTTPBasicAuthHandler(p)

opener = build_opener(auth_handler)

try:

result = opener.open(url)

html = result.read().decode('utf-8')

print(html)

except URLError as e:

print(e.reason)

复制代码

sfqxx · 发表于 2023-5-8 19:49:50

这个问题是由于请求的网站使用了 HTTPS 协议并启用了 SSL 证书校验，但本地缺少相应的证书文件或者证书不被信任所导致的。

你可以尝试以下两种方案来解决这个问题：

使用 verify=False 参数禁用 SSL 证书校验：

r = requests.get('https://ssr1.scrape.center/', verify=False)
复制代码

该方法虽然能够绕过 SSL 证书校验，但会降低请求的安全性，因此不建议在正式的项目中使用。

安装相应的证书文件或将其添加到受信任的根证书列表中。
你可以从证书颁发机构、网站服务器管理员、或者其他可信的渠道获得相应的证书文件，并将其安装到操作系统或 Python 的根证书列表中，以便正常进行 SSL 证书校验。具体的步骤和方法可能会因操作系统、Python 版本等因素而有所不同，建议查阅相关的资料或官方文档进行参考。

账号		自动登录	找回密码
密码			立即注册