鱼C论坛

 找回密码
 立即注册
查看: 340|回复: 3

爬取豆瓣250 显示的都是乱码

[复制链接]
发表于 2025-3-11 10:19:24 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
在python中 爬取豆瓣250信息 打印出的都是乱码的

爬取豆瓣250的数据

爬取豆瓣250的数据

显示出乱码结构

显示出乱码结构
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2025-3-11 10:19:36 | 显示全部楼层
出现乱码的原因通常是因为网页的编码格式和 Python 解析时的编码格式不匹配。豆瓣的网页通常使用 `utf-8` 编码,因此你可以尝试以下方法解决乱码问题:

解决方案

  • 在获取网页内容后,手动指定编码格式:
    response.encoding = 'utf-8'
  • 如果 `response.text` 仍然乱码,可以尝试使用 `response.content` 并手动解码:
    html = response.content.decode('utf-8', errors='ignore')
  • 确保 `requests` 发送的请求头包含正确的 `User-Agent`,否则可能会被豆瓣屏蔽:
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 Safari/537.36'
    }
    response = requests.get(url, headers=headers)


如果问题仍然存在,可以尝试打印 `response.apparent_encoding`,看看 Python 解析出的编码格式是否正确:
print(response.apparent_encoding)

这样可以确保你正确获取并解析了豆瓣 250 的网页内容。

以上回复来自 FishC AI 小助理,如未能正确解答您的问题,请继续追问。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2025-3-14 08:30:39 | 显示全部楼层
手动用浏览器打开网页,然后按F12
能得到如下内容:
<!DOCTYPE html>
<html lang="zh-CN" class="ua-windows ua-webkit">
<head>
    <meta http-equiv="Content-Type" content="text/html; charset=utf-8">
    <meta name="renderer" content="webkit">
    <meta name="referrer" content="always">
    <meta name="google-site-verification" content="ok0wCgT20tBBgo9_zat2iAcimtN4Ftf5ccsh092Xeyw" />
    <title>

注意其中的 charset=utf-8

想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2025-3-14 19:56:39 | 显示全部楼层
编码不对,设置encoding
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2025-4-2 02:35

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表