鱼C论坛

 找回密码
 立即注册
查看: 1156|回复: 8

requests-html出现乱码

[复制链接]
发表于 2021-8-1 21:03:06 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
本帖最后由 fnfhv 于 2021-8-1 21:36 编辑

import pandas as pd
from requests_html import HTMLSession

session = HTMLSession()
session.encoding = 'utf-8-sig'

url_table = 'http://ggzyjy.linyi.gov.cn/linyi/jyxx/012003/012003001/20170522/7119052f-0f87-481c-b77c-fe3f6e28f20c.html'

obj_t = session.get(url_table)

doc = obj_t.html.xpath("//div[@class='ewb-article-info']",first=True)#
print(doc.text)#该处出现乱码

df = pd.read_html(obj_t.text)[0]
if df.shape[1] == 2:
    df = pd.DataFrame(df.values.T,index=None, columns=df.index)
print(df)#此处正常
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2021-8-1 21:52:42 | 显示全部楼层
本帖最后由 suchocolate 于 2021-8-1 21:55 编辑

我这里执行没有乱码,有正常文字输出,你换换encoding试试。
session.encoding = 'utf-8'
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2021-8-1 22:11:49 | 显示全部楼层
suchocolate 发表于 2021-8-1 21:52
我这里执行没有乱码,有正常文字输出,你换换encoding试试。
session.encoding = 'utf-8'

我这边
session.encoding = 'utf-8-sig'
or
session.encoding = 'utf-8'
都会出现乱码如下:
ä¸′æ2‚市国土èμ„æoå±€å›½æœ‰å»o设用地使用权挂牌å‡o让公告(罗åo„)

(ä¸′土èμ„罗让告å-—〔2017〕2号)
经ä¸′æ2‚市äoo民政åoœæ‰1准,ä¸′æ2‚市国土èμ„æoå±€å†3定挂牌å‡o让一宗国有å»o设用地使用权,现将有å…3å‡o让äo‹é¡1公告å|‚下:
一、å‡o让宗地åŸo本情å†μ和规划设计主è|æŒ‡æ ‡
宗地编号
土地åo§è½
å‡o让
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2021-8-1 22:36:31 | 显示全部楼层
fnfhv 发表于 2021-8-1 22:11
我这边
session.encoding = 'utf-8-sig'
or

这个是html编码,不算乱码。
估计还是哪里编码设计有问题
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2021-8-1 22:53:33 | 显示全部楼层
本帖最后由 fnfhv 于 2021-8-1 23:06 编辑
suchocolate 发表于 2021-8-1 22:36
这个是html编码,不算乱码。
估计还是哪里编码设计有问题

其他的部分网址不出现乱码,部分网址乱码: 无标题.png
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2021-8-2 08:51:49 | 显示全部楼层
fnfhv 发表于 2021-8-1 22:53
其他的部分网址不出现乱码,部分网址乱码:

我这里没有任何问题
无标题.png
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2021-8-3 16:27:48 | 显示全部楼层
别用那么偏的库了,跟我一起用 urllib 吧。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2021-8-5 19:49:32 | 显示全部楼层
wp231957 发表于 2021-8-2 08:51
我这里没有任何问题

res.text 返回的正常,但是xpath 或css 选择元素,部分网页就会乱码
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2021-8-5 19:50:45 | 显示全部楼层
wp231957 发表于 2021-8-2 08:51
我这里没有任何问题

res.text 返回的正常,但是xpath 或css 选择元素,部分网页就会乱码
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2025-1-13 17:27

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表