鱼C论坛

 找回密码
 立即注册
查看: 3369|回复: 3

[已解决]爬虫乱码问题

[复制链接]
发表于 2023-7-24 12:12:17 | 显示全部楼层
你遇到的问题可能是由于网站使用了不同的字符编码,而你的代码中没有正确处理这种情况。在Python中,我们通常使用 response.content.decode('编码方式') 来进行编码转换。在这个案例中,网站很可能使用了'utf-8'编码。

所以你的代码可以修改如下:

  1. import requests
  2. headers = {
  3.     'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.0.0 Safari'
  4. }
  5. url = "https://www.ibiquges.net/92/92881/"
  6. response = requests.get(url=url, headers=headers)

  7. print(response.content.decode('utf-8'))
复制代码


如果你不能确定网页的编码方式,你也可以尝试使用 chardet 库来猜测和获取网页的编码:

  1. import requests
  2. import chardet
  3. headers = {
  4.     'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.0.0 Safari'
  5. }
  6. url = "https://www.ibiquges.net/92/92881/"
  7. response = requests.get(url=url, headers=headers)

  8. encoding = chardet.detect(response.content)['encoding']
  9. print(response.content.decode(encoding))
复制代码


这样你的代码会根据实际的编码方式来解码网页内容。希望这对你有所帮助!
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2025-10-3 02:35

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表