15067441343 发表于 2023-7-12 23:40:53

报错,麻烦大佬帮看下

response=requests.get(url=url,headers=headers).text
    response=response.encode('utf-8')



    p_name = '<td align="center"><a class="btn btn-success btn-sm"
    name = re.findall(p_name, response)
    print(name)

红字这部分加了 response=response.encode('utf-8')就报错,不加就乱码,该怎么处理。
TypeError: cannot use a string pattern on a bytes-like object

isdkz 发表于 2023-7-12 23:47:21

你的代码中的问题主要是类型不匹配。 re.findall需要的是字符串对象,但你提供的是字节串(bytes-like object)。同时,你的响应可能不是 UTF-8 编码的,所以你得到了乱码。

首先, requests.get().text是尝试使用requests自身的编码推测来解码响应的,如果这种推测失败,那么.text属性可能会返回乱码。

为了解决这个问题,你需要明确你的网页的编码方式,然后用这种方式来解码响应。

你可以试试以下的代码,它首先使用requests.get().content来获取未解码(raw)的响应,然后根据你指定的编码方式(比如 'utf-8')来解码这个响应。

response=requests.get(url=url,headers=headers).content
response=response.decode('utf-8')

p_name = '<td align="center"><a class="btn btn-success btn-sm"'
name = re.findall(p_name, response)
print(name)


如果你仍然遇到乱码的问题,那可能是因为网页不是 'utf-8' 编码的,你需要查找并使用正确的编码方式。在许多情况下,网页的编码方式会在 HTML 的<head>中声明,比如<meta charset="gb2312"> 。这时你需要将.decode('utf-8')中的 'utf-8' 替换成正确的编码,如 'gb2312'。

当然,也可以尝试使用 chardet 库来自动检测网页的编码。

import chardet

response=requests.get(url=url,headers=headers).content
encoding = chardet.detect(response)['encoding']
response=response.decode(encoding)

p_name = '<td align="center"><a class="btn btn-success btn-sm"'
name = re.findall(p_name, response)
print(name)

chardet.detect(response) 会返回一个字典,其中包含可能的编码方式及其可能性, ['encoding']会返回最可能的编码方式。

ba21 发表于 2023-7-12 23:52:52

确认一段文本文件使用的是什么编码,得要把整个文件的字符遍历一遍才知道,没有捷径。
使用cchardet库
import cchardet as chardet

# 先检测出文件编码
with open("test.txt", "rb") as f:
    msg = f.read()

enc = chardet.detect(msg) # 返回的是个字典 编码和准确度。如:{'encoding': 'UTF-8', 'confidence': 0.9900000095367432}
print(enc)
enc = enc['encoding']

# 然后以指定编码打开文件
with open("test.txt", "r", encoding=enc) as f:
    print(f.read())


网页编码判断
import requests
import cchardet

res = requests.get('http://www.baidu.com/')
rawdata= res.content
enc = cchardet.detect(rawdata)
enc = enc['encoding']
print(enc)

sfqxx 发表于 2023-7-13 00:00:31

根据你提供的代码和错误信息,问题出在使用正则表达式时,尝试在字节对象上使用了字符串模式。在这种情况下,`re.findall()` 函数期望接收一个字符串作为模式,而 `response.encode('utf-8')` 返回的是字节对象。

要解决这个问题,你可以在调用 `re.findall()` 之前将字节对象转换为字符串。可以使用 `.decode('utf-8')` 方法来将字节对象解码为对应的字符串。修改代码如下:

response=requests.get(url=url,headers=headers).text
response=response.encode('utf-8')

p_name = '<td align="center"><a class="btn btn-success btn-sm"'
name = re.findall(p_name, response.decode('utf-8'))
print(name)

在上述代码中,我使用 `.decode('utf-8')` 将字节对象 `response` 解码为对应的字符串,然后再传递给 `re.findall()` 函数进行模式匹配。这样就可以避免 TypeError 错误并正确地执行正则表达式的查找操作。

wp231957 发表于 2023-7-13 08:11:47

你是0起步研究爬虫吗
研究爬虫和编码肯定有莫大关系。并不是所有的utf8 都管用的
页: [1]
查看完整版本: 报错,麻烦大佬帮看下