鱼C论坛

 找回密码
 立即注册
查看: 1823|回复: 4

报错,麻烦大佬帮看下

[复制链接]
发表于 2023-7-12 23:40:53 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
response=requests.get(url=url,headers=headers).text
    response=response.encode('utf-8')




    p_name = '<td align="center"><a class="btn btn-success btn-sm"
    name = re.findall(p_name, response)
    print(name)

红字这部分加了 response=response.encode('utf-8')就报错,不加就乱码,该怎么处理。
TypeError: cannot use a string pattern on a bytes-like object
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2023-7-12 23:47:21 | 显示全部楼层
你的代码中的问题主要是类型不匹配。 re.findall  需要的是字符串对象,但你提供的是字节串(bytes-like object)。同时,你的响应可能不是 UTF-8 编码的,所以你得到了乱码。

首先, requests.get().text  是尝试使用  requests  自身的编码推测来解码响应的,如果这种推测失败,那么  .text  属性可能会返回乱码。

为了解决这个问题,你需要明确你的网页的编码方式,然后用这种方式来解码响应。

你可以试试以下的代码,它首先使用  requests.get().content  来获取未解码(raw)的响应,然后根据你指定的编码方式(比如 'utf-8')来解码这个响应。
response=requests.get(url=url,headers=headers).content
response=response.decode('utf-8')

p_name = '<td align="center"><a class="btn btn-success btn-sm"'
name = re.findall(p_name, response)
print(name)

如果你仍然遇到乱码的问题,那可能是因为网页不是 'utf-8' 编码的,你需要查找并使用正确的编码方式。在许多情况下,网页的编码方式会在 HTML 的  <head>  中声明,比如  <meta charset="gb2312"> 。这时你需要将  .decode('utf-8')  中的 'utf-8' 替换成正确的编码,如 'gb2312'。

当然,也可以尝试使用 chardet 库来自动检测网页的编码。
import chardet

response=requests.get(url=url,headers=headers).content
encoding = chardet.detect(response)['encoding']
response=response.decode(encoding)

p_name = '<td align="center"><a class="btn btn-success btn-sm"'
name = re.findall(p_name, response)
print(name)
chardet.detect(response) 会返回一个字典,其中包含可能的编码方式及其可能性, ['encoding']  会返回最可能的编码方式。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2023-7-12 23:52:52 | 显示全部楼层
确认一段文本文件使用的是什么编码,得要把整个文件的字符遍历一遍才知道,没有捷径。
使用cchardet库
import cchardet as chardet

# 先检测出文件编码
with open("test.txt", "rb") as f:
    msg = f.read()

enc = chardet.detect(msg) # 返回的是个字典 编码和准确度。如:{'encoding': 'UTF-8', 'confidence': 0.9900000095367432}
print(enc)
enc = enc['encoding']

# 然后以指定编码打开文件
with open("test.txt", "r", encoding=enc) as f:
    print(f.read())


网页编码判断
import requests
import cchardet

res = requests.get('http://www.baidu.com/')
rawdata  = res.content
enc = cchardet.detect(rawdata)
enc = enc['encoding']
print(enc)
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2023-7-13 00:00:31 | 显示全部楼层
根据你提供的代码和错误信息,问题出在使用正则表达式时,尝试在字节对象上使用了字符串模式。在这种情况下,`re.findall()` 函数期望接收一个字符串作为模式,而 `response.encode('utf-8')` 返回的是字节对象。

要解决这个问题,你可以在调用 `re.findall()` 之前将字节对象转换为字符串。可以使用 `.decode('utf-8')` 方法来将字节对象解码为对应的字符串。修改代码如下:
response=requests.get(url=url,headers=headers).text
response=response.encode('utf-8')

p_name = '<td align="center"><a class="btn btn-success btn-sm"'
name = re.findall(p_name, response.decode('utf-8'))
print(name)

在上述代码中,我使用 `.decode('utf-8')` 将字节对象 `response` 解码为对应的字符串,然后再传递给 `re.findall()` 函数进行模式匹配。这样就可以避免 TypeError 错误并正确地执行正则表达式的查找操作。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2023-7-13 08:11:47 | 显示全部楼层
你是0起步研究爬虫吗
研究爬虫和编码肯定有莫大关系。并不是所有的utf8 都管用的
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-11-14 18:17

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表