报错，麻烦大佬帮看下,Python交流,编程语言专区,鱼C论坛

15067441343 发表于 2023-7-12 23:40:53

报错，麻烦大佬帮看下

response=requests.get(url=url,headers=headers).text
response=response.encode('utf-8')

p_name = '<td align="center"><a class="btn btn-success btn-sm"
name = re.findall(p_name, response)
print(name)

红字这部分加了 response=response.encode('utf-8')就报错，不加就乱码，该怎么处理。
TypeError: cannot use a string pattern on a bytes-like object

isdkz 发表于 2023-7-12 23:47:21

你的代码中的问题主要是类型不匹配。 re.findall需要的是字符串对象，但你提供的是字节串（bytes-like object）。同时，你的响应可能不是 UTF-8 编码的，所以你得到了乱码。

首先， requests.get().text是尝试使用requests自身的编码推测来解码响应的，如果这种推测失败，那么.text属性可能会返回乱码。

为了解决这个问题，你需要明确你的网页的编码方式，然后用这种方式来解码响应。

你可以试试以下的代码，它首先使用requests.get().content来获取未解码（raw）的响应，然后根据你指定的编码方式（比如 'utf-8'）来解码这个响应。

response=requests.get(url=url,headers=headers).content
response=response.decode('utf-8')

p_name = '<td align="center"><a class="btn btn-success btn-sm"'
name = re.findall(p_name, response)
print(name)

如果你仍然遇到乱码的问题，那可能是因为网页不是 'utf-8' 编码的，你需要查找并使用正确的编码方式。在许多情况下，网页的编码方式会在 HTML 的<head>中声明，比如<meta charset="gb2312"> 。这时你需要将.decode('utf-8')中的 'utf-8' 替换成正确的编码，如 'gb2312'。

当然，也可以尝试使用 chardet 库来自动检测网页的编码。

import chardet

response=requests.get(url=url,headers=headers).content
encoding = chardet.detect(response)['encoding']
response=response.decode(encoding)

p_name = '<td align="center"><a class="btn btn-success btn-sm"'
name = re.findall(p_name, response)
print(name)

chardet.detect(response) 会返回一个字典，其中包含可能的编码方式及其可能性， ['encoding']会返回最可能的编码方式。

ba21 发表于 2023-7-12 23:52:52

确认一段文本文件使用的是什么编码，得要把整个文件的字符遍历一遍才知道，没有捷径。
使用cchardet库
import cchardet as chardet

# 先检测出文件编码
with open("test.txt", "rb") as f:
msg = f.read()

enc = chardet.detect(msg) # 返回的是个字典编码和准确度。如：{'encoding': 'UTF-8', 'confidence': 0.9900000095367432}
print(enc)
enc = enc['encoding']

# 然后以指定编码打开文件
with open("test.txt", "r", encoding=enc) as f:
print(f.read())

网页编码判断
import requests
import cchardet

res = requests.get('http://www.baidu.com/')
rawdata= res.content
enc = cchardet.detect(rawdata)
enc = enc['encoding']
print(enc)

sfqxx 发表于 2023-7-13 00:00:31

根据你提供的代码和错误信息，问题出在使用正则表达式时，尝试在字节对象上使用了字符串模式。在这种情况下，`re.findall()` 函数期望接收一个字符串作为模式，而 `response.encode('utf-8')` 返回的是字节对象。

要解决这个问题，你可以在调用 `re.findall()` 之前将字节对象转换为字符串。可以使用 `.decode('utf-8')` 方法来将字节对象解码为对应的字符串。修改代码如下：

response=requests.get(url=url,headers=headers).text
response=response.encode('utf-8')

p_name = '<td align="center"><a class="btn btn-success btn-sm"'
name = re.findall(p_name, response.decode('utf-8'))
print(name)

在上述代码中，我使用 `.decode('utf-8')` 将字节对象 `response` 解码为对应的字符串，然后再传递给 `re.findall()` 函数进行模式匹配。这样就可以避免 TypeError 错误并正确地执行正则表达式的查找操作。

wp231957 发表于 2023-7-13 08:11:47

你是0起步研究爬虫吗
研究爬虫和编码肯定有莫大关系。并不是所有的utf8 都管用的

页: [1]

鱼C论坛's Archiver

报错，麻烦大佬帮看下