fnfhv 发表于 2021-8-1 21:03:06

requests-html出现乱码

本帖最后由 fnfhv 于 2021-8-1 21:36 编辑

import pandas as pd
from requests_html import HTMLSession

session = HTMLSession()
session.encoding = 'utf-8-sig'

url_table = 'http://ggzyjy.linyi.gov.cn/linyi/jyxx/012003/012003001/20170522/7119052f-0f87-481c-b77c-fe3f6e28f20c.html'

obj_t = session.get(url_table)

doc = obj_t.html.xpath("//div[@class='ewb-article-info']",first=True)#
print(doc.text)#该处出现乱码

df = pd.read_html(obj_t.text)
if df.shape == 2:
    df = pd.DataFrame(df.values.T,index=None, columns=df.index)
print(df)#此处正常

suchocolate 发表于 2021-8-1 21:52:42

本帖最后由 suchocolate 于 2021-8-1 21:55 编辑

我这里执行没有乱码,有正常文字输出,你换换encoding试试。
session.encoding = 'utf-8'

fnfhv 发表于 2021-8-1 22:11:49

suchocolate 发表于 2021-8-1 21:52
我这里执行没有乱码,有正常文字输出,你换换encoding试试。
session.encoding = 'utf-8'

我这边
session.encoding = 'utf-8-sig'
or
session.encoding = 'utf-8'
都会出现乱码如下:
ä¸′æ2‚市国土èμ„æoå±€å›½æœ‰å»o设用地使用权挂牌å‡o让公告(罗åo„)

(ä¸′土èμ„罗让告å-—〔2017〕2号)
经ä¸′æ2‚市äoo民政åoœæ‰1准,ä¸′æ2‚市国土èμ„æoå±€å†3定挂牌å‡o让一宗国有å»o设用地使用权,现将有å…3å‡o让äo‹é¡1公告å|‚下:
一、å‡o让宗地åŸo本情å†μ和规划设计主è|æŒ‡æ ‡
宗地编号
土地åo§è½
å‡o让

suchocolate 发表于 2021-8-1 22:36:31

fnfhv 发表于 2021-8-1 22:11
我这边
session.encoding = 'utf-8-sig'
or


这个是html编码,不算乱码。
估计还是哪里编码设计有问题

fnfhv 发表于 2021-8-1 22:53:33

本帖最后由 fnfhv 于 2021-8-1 23:06 编辑

suchocolate 发表于 2021-8-1 22:36
这个是html编码,不算乱码。
估计还是哪里编码设计有问题
其他的部分网址不出现乱码,部分网址乱码:

wp231957 发表于 2021-8-2 08:51:49

fnfhv 发表于 2021-8-1 22:53
其他的部分网址不出现乱码,部分网址乱码:

我这里没有任何问题

nahongyan1997 发表于 2021-8-3 16:27:48

别用那么偏的库了,跟我一起用 urllib 吧。

fnfhv 发表于 2021-8-5 19:49:32

wp231957 发表于 2021-8-2 08:51
我这里没有任何问题

res.text 返回的正常,但是xpath 或css 选择元素,部分网页就会乱码

fnfhv 发表于 2021-8-5 19:50:45

wp231957 发表于 2021-8-2 08:51
我这里没有任何问题

res.text 返回的正常,但是xpath 或css 选择元素,部分网页就会乱码
页: [1]
查看完整版本: requests-html出现乱码