鱼C论坛

 找回密码
 立即注册
查看: 1098|回复: 2

[已解决]爬虫,,如何获取html中含有html中的链接地址?

[复制链接]
发表于 2023-12-13 20:13:25 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
图片  1  位置有个 html

怎么用xpath获取  2 位置的video标签中的src的链接地址
最佳答案
2023-12-14 08:55:40

最简单的方法,就是直接选择你想要获取的标签,右击后选择 Copy -> Copy Xpath 即可

之后得到 Xpath 后,再适当修改 xpath 语法,因为这样获取是比较死板的,一条线的直达所选标签

3333.PNG
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2023-12-13 20:13:47 | 显示全部楼层
要获取HTML中的链接地址,可以使用Python中的爬虫库,例如Requests和BeautifulSoup。以下是一个示例代码,演示如何获取HTML中链接地址:
import requestsfrom bs4 import BeautifulSoup# 发起HTTP请求,获取HTML页面内容response = requests.get("http://www.example.com")html = response.text# 使用BeautifulSoup解析HTMLsoup = BeautifulSoup(html, "html.parser")# 找到所有的链接标签<a>,并打印链接地址for link in soup.find_all('a'):  print(link.get('href'))
对于第二个问题,如果要使用XPath获取HTML中video标签中的src链接地址,可以使用Python的lxml库。以下是一个示例代码,演示如何使用XPath获取video标签中的src链接地址:
from lxml import etree# 假设html为包含video标签的HTML字符串html = '''<html>    <body>        <video src="http://www.example.com/video.mp4"></video>    </body></html>'''# 解析HTMLroot = etree.HTML(html)# 使用XPath获取video标签中的src链接地址src = root.xpath("//video/@src")[0]print(src)
这段代码中,我们首先将HTML字符串传递给etree.HTML()函数进行解析。然后,使用XPath表达式"//video/@src"来选取video标签中的src属性,通过索引[0]获取第一个匹配结果,并打印出来。

以上回复来自 FishC AI 小助理,如未能正确解答您的问题,请继续追问。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2023-12-14 08:55:40 | 显示全部楼层    本楼为最佳答案   

最简单的方法,就是直接选择你想要获取的标签,右击后选择 Copy -> Copy Xpath 即可

之后得到 Xpath 后,再适当修改 xpath 语法,因为这样获取是比较死板的,一条线的直达所选标签

想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-12-22 23:06

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表