鱼C论坛

 找回密码
 立即注册
查看: 206|回复: 4

[已解决]麻烦大神帮忙看下,为什么我写的xpath的取不到内容

[复制链接]
发表于 2024-3-11 23:40:36 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
各位大神:
        我是一个初学者,现在在学习爬虫的技巧,但是用XPATH爬“程序员客栈”这个下面的一个子页面的记录,但是怎么都取不到内容,也没有报错
麻烦大家帮我看下,非常感谢,代码如下:

  1. import requests
  2. from lxml import etree


  3. url = 'https://www.proginn.com/cat'
  4. headers = {
  5.     "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/122.0.0.0 Safari/537.36"
  6. }

  7. resp = requests.get(url,headers=headers)
  8. # print(resp.text)
  9. tree = etree.HTML("resp.text")
  10. divs = tree.xpath("/html/body/div[2]/div[4]/div/div[2]/div")  #提取所有的程序的DIVs
  11. for div in divs:
  12.     price = div.xpath("./div[3]/p[1]/span/text()")   #取每一个程序的价格
  13.     print(price)
复制代码
最佳答案
2024-3-11 23:40:47
问题在于你使用了错误的方式将HTML文本传递给etree.HTML()函数。在这里,你应该传递一个字符串形式的HTML文本,而不是直接传递resp.text。

正确的代码如下:

  1. import requests
  2. from lxml import etree

  3. url = 'https://www.proginn.com/cat'
  4. headers = {
  5.     "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/122.0.0.0 Safari/537.36"
  6. }

  7. resp = requests.get(url,headers=headers)
  8. # print(resp.text)

  9. tree = etree.HTML(resp.text)  # 这里需要传递resp.text,而不是"resp.text"

  10. divs = tree.xpath("/html/body/div/div/div/div/div")  # 提取所有的程序的DIVs
  11. for div in divs:
  12.     price = div.xpath("./div/p/span/text()")   # 取每一个程序的价格
  13.     print(price)
复制代码


请注意,为了能够正确解析HTML,你需要安装好lxml库。在Python中,可以通过运行`pip install lxml`来安装这个库。

以上回复来自 FishC AI 小助理,如未能正确解答您的问题,请继续追问。

本帖被以下淘专辑推荐:

想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2024-3-11 23:40:47 | 显示全部楼层    本楼为最佳答案   
问题在于你使用了错误的方式将HTML文本传递给etree.HTML()函数。在这里,你应该传递一个字符串形式的HTML文本,而不是直接传递resp.text。

正确的代码如下:

  1. import requests
  2. from lxml import etree

  3. url = 'https://www.proginn.com/cat'
  4. headers = {
  5.     "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/122.0.0.0 Safari/537.36"
  6. }

  7. resp = requests.get(url,headers=headers)
  8. # print(resp.text)

  9. tree = etree.HTML(resp.text)  # 这里需要传递resp.text,而不是"resp.text"

  10. divs = tree.xpath("/html/body/div/div/div/div/div")  # 提取所有的程序的DIVs
  11. for div in divs:
  12.     price = div.xpath("./div/p/span/text()")   # 取每一个程序的价格
  13.     print(price)
复制代码


请注意,为了能够正确解析HTML,你需要安装好lxml库。在Python中,可以通过运行`pip install lxml`来安装这个库。

以上回复来自 FishC AI 小助理,如未能正确解答您的问题,请继续追问。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2024-3-11 23:44:10 | 显示全部楼层
FishC 发表于 2024-3-11 23:40
问题在于你使用了错误的方式将HTML文本传递给etree.HTML()函数。在这里,你应该传递一个字符串形式的HTML文 ...

非常感谢,原来就是这么简单的一个错误,我真的折腾了半小时了!
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2024-3-11 23:44:18 | 显示全部楼层
曲折 发表于 2024-03-11 23:44
非常感谢,原来就是这么简单的一个错误,我真的折腾了 ...


不客气,初学者经常会遇到各种小问题,没关系的!我们都是从这些错误中学习和成长的。有时候解决问题只需要一点点耐心和尝试。记得在编程中,排除错误是非常正常的过程,所以不要气馁!如果你还有其他问题,随时都可以问我哦!祝你在学习编程的路上越来越进步!

以上回复来自 FishC AI 小助理,如未能正确解答您的问题,请继续追问。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2024-3-12 00:31:46 | 显示全部楼层
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-4-28 20:28

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表