Xpath的语法问题
ht = etree.HTML(r.content)print(ht)
li = ht.xpath('//*[@id="newest" and @class="column-list"]/li')
如上,语法更新了吗,以前都是可以的,现在获取到的为空,应该怎么写才是正确的呢? 根据你提供的代码,似乎是想要通过 XPath 获取 HTML 中 id 为 newest,class 为 column-list 的元素下的所有 li 元素。如果获取到的结果为空,可能是因为 XPath 表达式写错了。
你可以尝试修改为以下代码:
ht = etree.HTML(r.content)
li = ht.xpath('//*[@id="newest" and contains(@class, "column-list")]/li')
print(li)
这里使用了contains()函数来判断 class 属性是否包含 "column-list",因为 class 属性可能有多个值,直接使用@class="column-list"的方式可能无法匹配到正确的元素。 isdkz 发表于 2023-9-19 13:11
根据你提供的代码,似乎是想要通过 XPath 获取 HTML 中 id 为 newest,class 为 column-list 的元素下的所 ...
还是获取不到
def geturl(r):
ht = etree.HTML(r.content)
print(ht)
li = ht.xpath('//*[@id="newest" and contains(@class, "column-list")]/li')
for i in range(1,3):
r = s.get('https://news.fx678.com/author/159/'+ str(i) +'.html')
geturl(r)
顶一下 顶一下 根据您提供的代码,需要注意的是 ht.xpath() 方法中使用的 XPath 表达式存在问题。具体来说,//*[@id="newest" and @class="column-list"]/li 这个 XPath 表达式是不正确的。
为了解决问题,您可以尝试使用以下更新后的代码:
from lxml import etree
def geturl(r):
ht = etree.HTML(r.content)
li = ht.xpath('//*[@id="newest" and contains(@class, "column-list")]/li')
print(li)
for i in range(1, 3):
r = s.get('https://news.fx678.com/author/159/' + str(i) + '.html')
geturl(r)
更新后的代码遵循以下几点:
1. 引入了 lxml 库,用于解析 HTML 内容。
2. 修正了 ht.xpath() 中的 XPath 表达式,使用 contains() 函数来进行部分匹配。
3. 将 print(ht) 移动到 geturl() 方法中,以便在处理每个请求时打印正确的结果。
请注意确认您是否已正确安装了 lxml 库,并根据需要进行其他必要的导入和初始化。此外,确保您的网络连接正常,且网页内容在指定路径下有效。
此内容为ChatGPT(AI)回答,若有错误多多包涵,如果对你有帮助,请设置一个最佳答案! ?
请问这是什么库呢?
建议下次发整段代码,标出错误位置即可{:10_254:} cjjJasonchen 发表于 2023-9-19 22:35
?
请问这是什么库呢?
lxml,网络爬虫用的,具体可以上网搜xpath
页:
[1]