鱼C论坛

 找回密码
 立即注册
查看: 1468|回复: 2

[已解决]爬虫,,如何获取html中含有html中的链接地址?

[复制链接]
发表于 2023-12-13 20:13:25 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
图片  1  位置有个 html

怎么用xpath获取  2 位置的video标签中的src的链接地址
最佳答案
2023-12-14 08:55:40

最简单的方法,就是直接选择你想要获取的标签,右击后选择 Copy -> Copy Xpath 即可

之后得到 Xpath 后,再适当修改 xpath 语法,因为这样获取是比较死板的,一条线的直达所选标签

3333.PNG
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

发表于 2023-12-13 20:13:47 | 显示全部楼层
要获取HTML中的链接地址,可以使用Python中的爬虫库,例如Requests和BeautifulSoup。以下是一个示例代码,演示如何获取HTML中链接地址:
  1. import requests
  2. from bs4 import BeautifulSoup
  3. # 发起HTTP请求,获取HTML页面内容
  4. response = requests.get("http://www.example.com")
  5. html = response.text
  6. # 使用BeautifulSoup解析HTML
  7. soup = BeautifulSoup(html, "html.parser")
  8. # 找到所有的链接标签<a>,并打印链接地址
  9. for link in soup.find_all('a'):
  10.   print(link.get('href'))
复制代码

对于第二个问题,如果要使用XPath获取HTML中video标签中的src链接地址,可以使用Python的lxml库。以下是一个示例代码,演示如何使用XPath获取video标签中的src链接地址:
  1. from lxml import etree
  2. # 假设html为包含video标签的HTML字符串
  3. html = '''
  4. <html>
  5.     <body>
  6.         <video src="http://www.example.com/video.mp4"></video>
  7.     </body>
  8. </html>
  9. '''
  10. # 解析HTML
  11. root = etree.HTML(html)
  12. # 使用XPath获取video标签中的src链接地址
  13. src = root.xpath("//video/@src")[0]
  14. print(src)
复制代码

这段代码中,我们首先将HTML字符串传递给etree.HTML()函数进行解析。然后,使用XPath表达式"//video/@src"来选取video标签中的src属性,通过索引[0]获取第一个匹配结果,并打印出来。

以上回复来自 FishC AI 小助理,如未能正确解答您的问题,请继续追问。
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2023-12-14 08:55:40 | 显示全部楼层    本楼为最佳答案   

最简单的方法,就是直接选择你想要获取的标签,右击后选择 Copy -> Copy Xpath 即可

之后得到 Xpath 后,再适当修改 xpath 语法,因为这样获取是比较死板的,一条线的直达所选标签

小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2025-4-21 14:44

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表