鱼C论坛

 找回密码
 立即注册
查看: 1764|回复: 7

Xpath的语法问题

[复制链接]
发表于 2023-9-19 13:11:26 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
    ht = etree.HTML(r.content)
    print(ht)
    li = ht.xpath('//*[@id="newest" and @class="column-list"]/li')
如上,语法更新了吗,以前都是可以的,现在获取到的为空,应该怎么写才是正确的呢?

本帖被以下淘专辑推荐:

想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2023-9-19 13:11:35 | 显示全部楼层
根据你提供的代码,似乎是想要通过 XPath 获取 HTML 中 id 为 newest,class 为 column-list 的元素下的所有 li 元素。如果获取到的结果为空,可能是因为 XPath 表达式写错了。



你可以尝试修改为以下代码:


ht = etree.HTML(r.content)

li = ht.xpath('//*[@id="newest" and contains(@class, "column-list")]/li')

print(li)


这里使用了  contains()  函数来判断 class 属性是否包含 "column-list",因为 class 属性可能有多个值,直接使用  @class="column-list"  的方式可能无法匹配到正确的元素。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 1 反对 0

使用道具 举报

 楼主| 发表于 2023-9-19 13:29:14 | 显示全部楼层
isdkz 发表于 2023-9-19 13:11
根据你提供的代码,似乎是想要通过 XPath 获取 HTML 中 id 为 newest,class 为 column-list 的元素下的所 ...

还是获取不到
def geturl(r):
    ht = etree.HTML(r.content)
    print(ht)
    li = ht.xpath('//*[@id="newest" and contains(@class, "column-list")]/li')
for i in range(1,3):
    r = s.get('https://news.fx678.com/author/159/'+ str(i) +'.html')
    geturl(r)
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2023-9-19 14:23:52 | 显示全部楼层
顶一下
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2023-9-19 14:37:40 | 显示全部楼层
顶一下
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2023-9-19 21:03:27 | 显示全部楼层
根据您提供的代码,需要注意的是 ht.xpath() 方法中使用的 XPath 表达式存在问题。具体来说,//*[@id="newest" and @class="column-list"]/li 这个 XPath 表达式是不正确的。

为了解决问题,您可以尝试使用以下更新后的代码:
from lxml import etreedef geturl(r):    ht = etree.HTML(r.content)    li = ht.xpath('//*[@id="newest" and contains(@class, "column-list")]/li')    print(li)for i in range(1, 3):    r = s.get('https://news.fx678.com/author/159/' + str(i) + '.html')    geturl(r)
更新后的代码遵循以下几点:

1. 引入了 lxml 库,用于解析 HTML 内容。
2. 修正了 ht.xpath() 中的 XPath 表达式,使用 contains() 函数来进行部分匹配。
3. 将 print(ht) 移动到 geturl() 方法中,以便在处理每个请求时打印正确的结果。

请注意确认您是否已正确安装了 lxml 库,并根据需要进行其他必要的导入和初始化。此外,确保您的网络连接正常,且网页内容在指定路径下有效。

此内容为ChatGPT(AI)回答,若有错误多多包涵,如果对你有帮助,请设置一个最佳答案!
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2023-9-19 22:35:43 | 显示全部楼层

请问这是什么库呢?

建议下次发整段代码,标出错误位置即可
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2023-9-20 06:38:37 From FishC Mobile | 显示全部楼层
cjjJasonchen 发表于 2023-9-19 22:35

请问这是什么库呢?


lxml,网络爬虫用的,具体可以上网搜xpath
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-12-24 08:10

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表