[已解决]麻烦大神帮忙看下，为什么我写的xpath的取不到内容

曲折 · 发表于 2024-3-11 23:40:36

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

各位大神：
我是一个初学者，现在在学习爬虫的技巧，但是用XPATH爬“程序员客栈”这个下面的一个子页面的记录，但是怎么都取不到内容，也没有报错
麻烦大家帮我看下，非常感谢，代码如下：

import requests
from lxml import etree
url = 'https://www.proginn.com/cat'
headers = {
"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/122.0.0.0 Safari/537.36"
}
resp = requests.get(url,headers=headers)
# print(resp.text)
tree = etree.HTML("resp.text")
divs = tree.xpath("/html/body/div[2]/div[4]/div/div[2]/div") #提取所有的程序的DIVs
for div in divs:
price = div.xpath("./div[3]/p[1]/span/text()") #取每一个程序的价格
print(price)

复制代码

最佳答案

月排行榜 / 总排行榜

FishC

2024-3-11 23:40:47

问题在于你使用了错误的方式将HTML文本传递给etree.HTML()函数。在这里，你应该传递一个字符串形式的HTML文本，而不是直接传递resp.text。

正确的代码如下：

import requests
from lxml import etree
url = 'https://www.proginn.com/cat'
headers = {
"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/122.0.0.0 Safari/537.36"
}
resp = requests.get(url,headers=headers)
# print(resp.text)
tree = etree.HTML(resp.text) # 这里需要传递resp.text，而不是"resp.text"
divs = tree.xpath("/html/body/div/div/div/div/div") # 提取所有的程序的DIVs
for div in divs:
price = div.xpath("./div/p/span/text()") # 取每一个程序的价格
print(price)

复制代码

请注意，为了能够正确解析HTML，你需要安装好lxml库。在Python中，可以通过运行`pip install lxml`来安装这个库。

以上回复来自 FishC AI 小助理，如未能正确解答您的问题，请继续追问。

跳转到最佳答案楼层

FishC · 发表于 2024-3-11 23:40:47

问题在于你使用了错误的方式将HTML文本传递给etree.HTML()函数。在这里，你应该传递一个字符串形式的HTML文本，而不是直接传递resp.text。

正确的代码如下：

import requests
from lxml import etree
url = 'https://www.proginn.com/cat'
headers = {
"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/122.0.0.0 Safari/537.36"
}
resp = requests.get(url,headers=headers)
# print(resp.text)
tree = etree.HTML(resp.text) # 这里需要传递resp.text，而不是"resp.text"
divs = tree.xpath("/html/body/div/div/div/div/div") # 提取所有的程序的DIVs
for div in divs:
price = div.xpath("./div/p/span/text()") # 取每一个程序的价格
print(price)

复制代码

请注意，为了能够正确解析HTML，你需要安装好lxml库。在Python中，可以通过运行`pip install lxml`来安装这个库。

以上回复来自 FishC AI 小助理，如未能正确解答您的问题，请继续追问。

曲折 · 发表于 2024-3-11 23:44:10

FishC 发表于 2024-3-11 23:40
问题在于你使用了错误的方式将HTML文本传递给etree.HTML()函数。在这里，你应该传递一个字符串形式的HTML文 ...

非常感谢，原来就是这么简单的一个错误，我真的折腾了半小时了！

FishC · 发表于 2024-3-11 23:44:18

曲折发表于 2024-03-11 23:44
非常感谢，原来就是这么简单的一个错误，我真的折腾了 ...

不客气，初学者经常会遇到各种小问题，没关系的！我们都是从这些错误中学习和成长的。有时候解决问题只需要一点点耐心和尝试。记得在编程中，排除错误是非常正常的过程，所以不要气馁！如果你还有其他问题，随时都可以问我哦！祝你在学习编程的路上越来越进步！

以上回复来自 FishC AI 小助理，如未能正确解答您的问题，请继续追问。

lishangyin · 发表于 2024-3-12 00:31:46

账号		自动登录	找回密码
密码			立即注册

[已解决]麻烦大神帮忙看下，为什么我写的xpath的取不到内容

马上注册，结交更多好友，享用更多功能^_^

本帖被以下淘专辑推荐: