电影信息爬取,Python交流,编程语言专区,鱼C论坛

哈岁NB 发表于 2023-5-27 17:37:19

电影信息爬取

本帖最后由哈岁NB 于 2023-5-27 17:38 编辑

请问大佬们。我这个代码哪里出现错误了呢，
import re
import requests
import logging #打印日志
from urllib.parse import urljoin #进行url拼接

logging.basicConfig(level=logging.INFO,format = '%(asctime)s - %(levelname)s: %(message)s')
#当前站点
url = 'https://ssr1.scrape.center'
#爬取的总页数
TOTAL_PAGE = 10

#页面爬取
def scrape_page(url):
logging.info('scraping %s...',url)
try:
   response = requests.get(url)
   if response.status_code == 200:
         return response.text
   logging.error('get invalid status code %s while scrape %s',response.status_code,url)
except requests.RequestException:
   logging.error('error occurred while scraping %s',url,exc_info=True)

#爬取列表页
def scrape_index(page):
index_url = '{}/page/{}'.format(url,page)
return scrape_page(index_url)

#页面解析
def parse_index(html):
#正则表达式对象
pattern = re.compile('<a .*?href="(.*?)".*?class="name">')
items = re.findall(pattern,html)
if not items:
   return None
for item in items:
   #详情页url拼接
   detail_url = urljoin(url,item)
   logging.info('get detail_url {}'.format(detail_url))
   yield detail_url

def main():
for page in range(1,3):
   index_html = scrape_index(page)
   details_url = parse_index(index_html)
   logging.info('detail url {}'.format(list(details_url)))

if __name__ == '__main__':
main()

这是报错信息

Twilight6 发表于 2023-5-27 17:38:58

试试在代码前面取消全局证书验证，应该就不会抛出前面的 ssl 错误了：

# 全局取消验证证书
import ssl
ssl._create_default_https_context = ssl._create_unverified_context

哈岁NB 发表于 2023-5-27 17:46:24

Twilight6 发表于 2023-5-27 17:38
试试在代码前面取消全局证书验证，应该就不会抛出前面的 ssl 错误了：

不行，还是报错

isdkz 发表于 2023-5-27 17:50:18

response = requests.get(url, verify=False)

import re
import requests
import logging #打印日志
from urllib.parse import urljoin #进行url拼接

logging.basicConfig(level=logging.INFO,format = '%(asctime)s - %(levelname)s: %(message)s')
#当前站点
url = 'https://ssr1.scrape.center'
#爬取的总页数
TOTAL_PAGE = 10

#页面爬取
def scrape_page(url):
logging.info('scraping %s...',url)
try:
   response = requests.get(url, verify=False)
   if response.status_code == 200:
         return response.text
   logging.error('get invalid status code %s while scrape %s',response.status_code,url)
except requests.RequestException:
   logging.error('error occurred while scraping %s',url,exc_info=True)

#爬取列表页
def scrape_index(page):
index_url = '{}/page/{}'.format(url,page)
return scrape_page(index_url)

#页面解析
def parse_index(html):
#正则表达式对象
pattern = re.compile('<a .*?href="(.*?)".*?class="name">')
items = re.findall(pattern,html)
if not items:
   return None
for item in items:
   #详情页url拼接
   detail_url = urljoin(url,item)
   logging.info('get detail_url {}'.format(detail_url))
   yield detail_url

def main():
for page in range(1,3):
   index_html = scrape_index(page)
   details_url = parse_index(index_html)
   logging.info('detail url {}'.format(list(details_url)))

if __name__ == '__main__':
main()

哈岁NB 发表于 2023-5-27 17:53:56

isdkz 发表于 2023-5-27 17:50
response = requests.get(url, verify=False)

请问一下这个参数是什么呢

sfqxx 发表于 2023-5-27 17:56:18

这段代码出现了一个SSL证书验证失败的异常。具体原因是请求的目标网站使用了HTTPS协议，而本地计算机无法验证网站所使用的证书是否可信。

解决方法可以是：

1.禁用证书验证功能（不推荐使用）：

在 requests.get() 方法中增加参数 verify=False，即 requests.get(url, verify=False)。

2.安装对应的证书文件：

从浏览器中导出网站的根证书，并将其命名为 "xxx.crt" 格式并保存到本地。

然后，将 "xxx.crt" 文件存放到 Python 安装目录下的 /Lib/site-packages/certifi/cacert.pem 路径下。

最后，在代码中调用 requests.get() 方法时加上参数 verify=True，即 requests.get(url, verify=True)。

注意：第二种方法需要在运行环境中安装 certifi 模块。

isdkz 发表于 2023-5-27 17:56:55

哈岁NB 发表于 2023-5-27 17:53
请问一下这个参数是什么呢

取消https证书验证

哈岁NB 发表于 2023-5-27 18:00:35

sfqxx 发表于 2023-5-27 17:56
这段代码出现了一个SSL证书验证失败的异常。具体原因是请求的目标网站使用了HTTPS协议，而本地计算机无法验 ...

好的，感谢感谢

哈岁NB 发表于 2023-5-27 18:01:08

sfqxx 发表于 2023-5-27 18:02:00

哈岁NB 发表于 2023-5-27 18:01
好的，感谢感谢

不客气{:10_279:}

哈岁NB 发表于 2023-5-27 18:05:39

sfqxx 发表于 2023-5-27 18:02
不客气

请问一下，为什么有的网站报这个错，而有的不报，是因为有的网站可以识别该网站的ssl证书，所以不报错吗

isdkz 发表于 2023-5-27 18:09:00

sfqxx 发表于 2023-5-27 18:02
不客气

你个老六{:10_334:}

sfqxx 发表于 2023-5-27 18:16:33

isdkz 发表于 2023-5-27 18:09
你个老六

{:10_327:}

sfqxx 发表于 2023-5-27 18:20:09

哈岁NB 发表于 2023-5-27 18:05
请问一下，为什么有的网站报这个错，而有的不报，是因为有的网站可以识别该网站的ssl证书，所以不报错吗

这是一个关于SSL证书的问题。SSL证书是用于加密和保护传输数据的数字证书。当浏览器访问网站时，如果该网站有 SSL 证书，则会将该证书下载到浏览器，并与服务器进行验证。如果证书不被承认或不兼容，则浏览器将提示错误。

因此，如果有些网站没有安装 SSL 证书，或者证书已过期或无法正常验证，那么浏览器将会提示错误。而对于安装了有效的 SSL 证书并且正确配置的网站，则不会产生任何警告。

如果您遇到SSL证书相关问题，可以尝试清除浏览器缓存和Cookie，更新浏览器版本或尝试使用其他浏览器等解决方法。同时，也需要确认所访问的网站是否为安全可信的网站，以避免遭受网络攻击和信息泄露。

哈岁NB 发表于 2023-5-27 18:24:19

sfqxx 发表于 2023-5-27 18:20
这是一个关于SSL证书的问题。SSL证书是用于加密和保护传输数据的数字证书。当浏览器访问网站时，如果该网 ...

明白了，感谢感谢

页: [1]

鱼C论坛's Archiver

电影信息爬取