鱼C论坛

 找回密码
 立即注册
12
返回列表 发新帖
楼主: 米多花

[已解决]【悬赏50鱼币】xpath解析后中文变成unicode十进制编码的问题【回复帮顶有惊喜】

[复制链接]
回帖奖励 40 鱼币 回复本帖可获得 1 鱼币奖励! 每人限 1 次(中奖概率 50%)
发表于 2019-8-11 08:05:51 | 显示全部楼层
1.png
看看吧
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2019-8-11 09:37:28 | 显示全部楼层
不懂,帮顶
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2019-8-11 10:02:07 | 显示全部楼层
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2019-8-11 10:51:45 | 显示全部楼层
import requests
from lxml import etree

url='http://www.jk-lawyer.com/detail_6027.html'
resp=requests.get(url)
html=etree.HTML(resp.content.decode('utf-8'))
li=html.xpath("//div[@class='detail']/div[@class='d_p']/*")
for each in li:
    title = each.xpath('span/text()')
    print(title)
#print(''.join(etree.tostring(tmp).decode() for tmp in li))
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2019-8-11 10:58:14 | 显示全部楼层
我怎么不能回帖呢?
import requests
from lxml import etree

url='http://www.jk-lawyer.com/detail_6027.html'
resp=requests.get(url)
html=etree.HTML(resp.content.decode('utf-8'))
li=html.xpath("//div[@class='detail']/div[@class='d_p']/*")
for each in li:
    title = each.xpath('span/text()')
    print(title)
#print(''.join(etree.tostring(tmp).decode() for tmp in li))
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2019-8-11 11:58:09 | 显示全部楼层
本帖最后由 chxchxkkk 于 2019-8-11 12:02 编辑

抓取文本没那么复杂,看下面示例:
import requests
from lxml import etree

url = 'http://www.jk-lawyer.com/detail_6027.html'
headers ={'User-Agent': 'Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit' \
                        '/537.36 (KHTML, like Gecko) ' \
                        'Chrome/38.0.2125.122 Safari/537.36'}

html = requests.get(url, headers = headers)
html.encoding = 'utf-8'
response = html.text
respons = etree.HTML(response)
respon = respons.xpath('//div[@class="d_p"]/p/span')
for resp in respon:
    temptxt = resp.xpath('text()')[0]
    print(temptxt)

抓取结果:
D:\program\python37\python.exe F:/pythonlianxi/MyTest/test.py
应泰州市食品药品监督管理局

领导邀请,本所主任王金宝律师于2016年10月19日下午为泰州全市食品药品监管系统食品安全监管人员培训班全体学员以《新食品安全法实用导读》讲授了已于去年10月1日实施的新《食品安全法》,重点讲授了新法背景下食品安全监管的四十要素、新法规定的法律责任概览以及食品安全行政处罚原则等,尤其是针对基层监管执法人员应当掌握和注意的事项。王主任的讲课重点突出,务实致用,且生动活泼,现场互动频繁,受到了泰州市局领导以及全体与会人员的高度评价。

要解决编码问题一句代码就可以了:
html.encoding = 'utf-8'(如果网页是gbk编码,这里utf-8改成gbk就可以了)
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2019-8-11 12:01:28 | 显示全部楼层

回帖奖励 +1 鱼币

想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

 楼主| 发表于 2019-8-12 21:44:24 | 显示全部楼层
chxchxkkk 发表于 2019-8-11 11:58
抓取文本没那么复杂,看下面示例:
import requests
from lxml import etree

获取文本的方式我会,我要的是HTML源码,还是谢谢。不知道兄台有没有其他方法
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2019-8-12 21:46:44 | 显示全部楼层
数据云 发表于 2019-8-11 10:58
我怎么不能回帖呢?

获取文本的方式我会,我要的是HTML源码,还是谢谢。不知道兄台有没有其他方法
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2019-8-13 11:41:38 | 显示全部楼层

回帖奖励 +1 鱼币

帮顶
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2019-8-13 11:42:52 | 显示全部楼层
不懂帮顶
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2019-8-14 19:27:21 | 显示全部楼层
帮顶
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2019-8-14 19:27:54 | 显示全部楼层
帮顶
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2020-11-24 08:33:24 | 显示全部楼层

回帖奖励 +1 鱼币

已解决··
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-11-24 08:37:10 | 显示全部楼层

回帖奖励 +1 鱼币

顶一下
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-11-24 13:35:13 | 显示全部楼层
学习
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2025-1-17 14:13

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表