[已解决]【悬赏50鱼币】xpath解析后中文变成unicode十进制编码的问题【回复帮顶有惊喜】

kaohsing · 发表于 2019-8-11 08:05:51

看看吧

yongever · 发表于 2019-8-11 09:37:28

不懂，帮顶

lalebc453q · 发表于 2019-8-11 10:02:07

数据云 · 发表于 2019-8-11 10:51:45

import requests
from lxml import etree

url='http://www.jk-lawyer.com/detail_6027.html'
resp=requests.get(url)
html=etree.HTML(resp.content.decode('utf-8'))
li=html.xpath("//div[@class='detail']/div[@class='d_p']/*")
for each in li:
title = each.xpath('span/text()')
print(title)
#print(''.join(etree.tostring(tmp).decode() for tmp in li))

数据云 · 发表于 2019-8-11 10:58:14

我怎么不能回帖呢？

import requests
from lxml import etree
url='http://www.jk-lawyer.com/detail_6027.html'
resp=requests.get(url)
html=etree.HTML(resp.content.decode('utf-8'))
li=html.xpath("//div[@class='detail']/div[@class='d_p']/*")
for each in li:
title = each.xpath('span/text()')
print(title)
#print(''.join(etree.tostring(tmp).decode() for tmp in li))

复制代码

chxchxkkk · 发表于 2019-8-11 11:58:09

本帖最后由 chxchxkkk 于 2019-8-11 12:02 编辑

抓取文本没那么复杂，看下面示例：
import requests
from lxml import etree

url = 'http://www.jk-lawyer.com/detail_6027.html'
headers ={'User-Agent': 'Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit' \
'/537.36 (KHTML, like Gecko) ' \
'Chrome/38.0.2125.122 Safari/537.36'}

html = requests.get(url, headers = headers)
html.encoding = 'utf-8'
response = html.text
respons = etree.HTML(response)
respon = respons.xpath('//div[@class="d_p"]/p/span')
for resp in respon:
temptxt = resp.xpath('text()')[0]
print(temptxt)

抓取结果：
D:\program\python37\python.exe F:/pythonlianxi/MyTest/test.py
应泰州市食品药品监督管理局

领导邀请，本所主任王金宝律师于2016年10月19日下午为泰州全市食品药品监管系统食品安全监管人员培训班全体学员以《新食品安全法实用导读》讲授了已于去年10月1日实施的新《食品安全法》，重点讲授了新法背景下食品安全监管的四十要素、新法规定的法律责任概览以及食品安全行政处罚原则等，尤其是针对基层监管执法人员应当掌握和注意的事项。王主任的讲课重点突出，务实致用，且生动活泼，现场互动频繁，受到了泰州市局领导以及全体与会人员的高度评价。

要解决编码问题一句代码就可以了：
html.encoding = 'utf-8'（如果网页是gbk编码，这里utf-8改成gbk就可以了）

hacktor · 发表于 2019-8-11 12:01:28

米多花 · 发表于 2019-8-12 21:44:24

chxchxkkk 发表于 2019-8-11 11:58
抓取文本没那么复杂，看下面示例：
import requests
from lxml import etree

获取文本的方式我会，我要的是HTML源码，还是谢谢。不知道兄台有没有其他方法

米多花 · 发表于 2019-8-12 21:46:44

数据云发表于 2019-8-11 10:58
我怎么不能回帖呢？

获取文本的方式我会，我要的是HTML源码，还是谢谢。不知道兄台有没有其他方法

X-Sliver · 发表于 2019-8-13 11:41:38

帮顶

Ianhar · 发表于 2019-8-13 11:42:52

不懂帮顶

X-Sliver · 发表于 2019-8-14 19:27:21

帮顶

X-Sliver · 发表于 2019-8-14 19:27:54

帮顶

心驰神往 · 发表于 2020-11-24 08:33:24

已解决··

侧耳倾听ddd · 发表于 2020-11-24 08:37:10

顶一下

aironeng · 发表于 2020-11-24 13:35:13

学习

账号		自动登录	找回密码
密码			立即注册

[已解决]【悬赏50鱼币】xpath解析后中文变成unicode十进制编码的问题【回复帮顶有惊喜】

回帖奖励 +1 鱼币

回帖奖励 +1 鱼币

回帖奖励 +1 鱼币

回帖奖励 +1 鱼币

浏览过的版块


40 鱼币	回复本帖可获得 1 鱼币奖励! 每人限 1 次(中奖概率 50%)