爬虫,,如何获取html中含有html中的链接地址?
图片1位置有个 html怎么用xpath获取2 位置的video标签中的src的链接地址 要获取HTML中的链接地址,可以使用Python中的爬虫库,例如Requests和BeautifulSoup。以下是一个示例代码,演示如何获取HTML中链接地址:
import requests
from bs4 import BeautifulSoup
# 发起HTTP请求,获取HTML页面内容
response = requests.get("http://www.example.com")
html = response.text
# 使用BeautifulSoup解析HTML
soup = BeautifulSoup(html, "html.parser")
# 找到所有的链接标签<a>,并打印链接地址
for link in soup.find_all('a'):
print(link.get('href'))
对于第二个问题,如果要使用XPath获取HTML中video标签中的src链接地址,可以使用Python的lxml库。以下是一个示例代码,演示如何使用XPath获取video标签中的src链接地址:
from lxml import etree
# 假设html为包含video标签的HTML字符串
html = '''
<html>
<body>
<video src="http://www.example.com/video.mp4"></video>
</body>
</html>
'''
# 解析HTML
root = etree.HTML(html)
# 使用XPath获取video标签中的src链接地址
src = root.xpath("//video/@src")
print(src)
这段代码中,我们首先将HTML字符串传递给etree.HTML()函数进行解析。然后,使用XPath表达式"//video/@src"来选取video标签中的src属性,通过索引获取第一个匹配结果,并打印出来。
以上回复来自 FishC AI 小助理,如未能正确解答您的问题,请继续追问。
最简单的方法,就是直接选择你想要获取的标签,右击后选择 Copy -> Copy Xpath 即可
之后得到 Xpath 后,再适当修改 xpath 语法,因为这样获取是比较死板的,一条线的直达所选标签
页:
[1]