requests-html出现乱码
本帖最后由 fnfhv 于 2021-8-1 21:36 编辑import pandas as pd
from requests_html import HTMLSession
session = HTMLSession()
session.encoding = 'utf-8-sig'
url_table = 'http://ggzyjy.linyi.gov.cn/linyi/jyxx/012003/012003001/20170522/7119052f-0f87-481c-b77c-fe3f6e28f20c.html'
obj_t = session.get(url_table)
doc = obj_t.html.xpath("//div[@class='ewb-article-info']",first=True)#
print(doc.text)#该处出现乱码
df = pd.read_html(obj_t.text)
if df.shape == 2:
df = pd.DataFrame(df.values.T,index=None, columns=df.index)
print(df)#此处正常 本帖最后由 suchocolate 于 2021-8-1 21:55 编辑
我这里执行没有乱码,有正常文字输出,你换换encoding试试。
session.encoding = 'utf-8' suchocolate 发表于 2021-8-1 21:52
我这里执行没有乱码,有正常文字输出,你换换encoding试试。
session.encoding = 'utf-8'
我这边
session.encoding = 'utf-8-sig'
or
session.encoding = 'utf-8'
都会出现乱码如下:
ä¸′æ2å¸å½åèμæoå±å½æå»o设ç¨å°ä½¿ç¨ææçåoè®©å ¬åï¼ç½åoï¼
ï¼ä¸′åèμç½è®©åå-ã2017ã2å·ï¼
ç»ä¸′æ2å¸äooæ°æ¿åoæ1åï¼ä¸′æ2å¸å½åèμæoå±å3å®æçåo让ä¸å®å½æå»o设ç¨å°ä½¿ç¨æï¼ç°å°æå 3åo让äoé¡1å ¬åå|ä¸ï¼
ä¸ãåo让å®å°åoæ¬æ åμåè§å设计主è|ææ
å®å°ç¼å·
åå°åo§è½
åo让
fnfhv 发表于 2021-8-1 22:11
我这边
session.encoding = 'utf-8-sig'
or
这个是html编码,不算乱码。
估计还是哪里编码设计有问题 本帖最后由 fnfhv 于 2021-8-1 23:06 编辑
suchocolate 发表于 2021-8-1 22:36
这个是html编码,不算乱码。
估计还是哪里编码设计有问题
其他的部分网址不出现乱码,部分网址乱码:
fnfhv 发表于 2021-8-1 22:53
其他的部分网址不出现乱码,部分网址乱码:
我这里没有任何问题 别用那么偏的库了,跟我一起用 urllib 吧。 wp231957 发表于 2021-8-2 08:51
我这里没有任何问题
res.text 返回的正常,但是xpath 或css 选择元素,部分网页就会乱码 wp231957 发表于 2021-8-2 08:51
我这里没有任何问题
res.text 返回的正常,但是xpath 或css 选择元素,部分网页就会乱码
页:
[1]