937135952 发表于 2023-9-19 13:11:26

Xpath的语法问题

    ht = etree.HTML(r.content)
    print(ht)
    li = ht.xpath('//*[@id="newest" and @class="column-list"]/li')
如上,语法更新了吗,以前都是可以的,现在获取到的为空,应该怎么写才是正确的呢?

isdkz 发表于 2023-9-19 13:11:35

根据你提供的代码,似乎是想要通过 XPath 获取 HTML 中 id 为 newest,class 为 column-list 的元素下的所有 li 元素。如果获取到的结果为空,可能是因为 XPath 表达式写错了。



你可以尝试修改为以下代码:



ht = etree.HTML(r.content)

li = ht.xpath('//*[@id="newest" and contains(@class, "column-list")]/li')

print(li)





这里使用了contains()函数来判断 class 属性是否包含 "column-list",因为 class 属性可能有多个值,直接使用@class="column-list"的方式可能无法匹配到正确的元素。

937135952 发表于 2023-9-19 13:29:14

isdkz 发表于 2023-9-19 13:11
根据你提供的代码,似乎是想要通过 XPath 获取 HTML 中 id 为 newest,class 为 column-list 的元素下的所 ...

还是获取不到
def geturl(r):
    ht = etree.HTML(r.content)
    print(ht)
    li = ht.xpath('//*[@id="newest" and contains(@class, "column-list")]/li')
for i in range(1,3):
    r = s.get('https://news.fx678.com/author/159/'+ str(i) +'.html')
    geturl(r)

937135952 发表于 2023-9-19 14:23:52

顶一下

937135952 发表于 2023-9-19 14:37:40

顶一下

liuhongrun2022 发表于 2023-9-19 21:03:27

根据您提供的代码,需要注意的是 ht.xpath() 方法中使用的 XPath 表达式存在问题。具体来说,//*[@id="newest" and @class="column-list"]/li 这个 XPath 表达式是不正确的。

为了解决问题,您可以尝试使用以下更新后的代码:

from lxml import etree

def geturl(r):
    ht = etree.HTML(r.content)
    li = ht.xpath('//*[@id="newest" and contains(@class, "column-list")]/li')
    print(li)

for i in range(1, 3):
    r = s.get('https://news.fx678.com/author/159/' + str(i) + '.html')
    geturl(r)


更新后的代码遵循以下几点:

1. 引入了 lxml 库,用于解析 HTML 内容。
2. 修正了 ht.xpath() 中的 XPath 表达式,使用 contains() 函数来进行部分匹配。
3. 将 print(ht) 移动到 geturl() 方法中,以便在处理每个请求时打印正确的结果。

请注意确认您是否已正确安装了 lxml 库,并根据需要进行其他必要的导入和初始化。此外,确保您的网络连接正常,且网页内容在指定路径下有效。

此内容为ChatGPT(AI)回答,若有错误多多包涵,如果对你有帮助,请设置一个最佳答案!

cjjJasonchen 发表于 2023-9-19 22:35:43


请问这是什么库呢?

建议下次发整段代码,标出错误位置即可{:10_254:}

liuhongrun2022 发表于 2023-9-20 06:38:37

cjjJasonchen 发表于 2023-9-19 22:35

请问这是什么库呢?



lxml,网络爬虫用的,具体可以上网搜xpath
页: [1]
查看完整版本: Xpath的语法问题