|
发表于 2023-12-13 20:13:47
|
显示全部楼层
要获取HTML中的链接地址,可以使用Python中的爬虫库,例如Requests和BeautifulSoup。以下是一个示例代码,演示如何获取HTML中链接地址:
- import requests
- from bs4 import BeautifulSoup
- # 发起HTTP请求,获取HTML页面内容
- response = requests.get("http://www.example.com")
- html = response.text
- # 使用BeautifulSoup解析HTML
- soup = BeautifulSoup(html, "html.parser")
- # 找到所有的链接标签<a>,并打印链接地址
- for link in soup.find_all('a'):
- print(link.get('href'))
复制代码
对于第二个问题,如果要使用XPath获取HTML中video标签中的src链接地址,可以使用Python的lxml库。以下是一个示例代码,演示如何使用XPath获取video标签中的src链接地址:
- from lxml import etree
- # 假设html为包含video标签的HTML字符串
- html = '''
- <html>
- <body>
- <video src="http://www.example.com/video.mp4"></video>
- </body>
- </html>
- '''
- # 解析HTML
- root = etree.HTML(html)
- # 使用XPath获取video标签中的src链接地址
- src = root.xpath("//video/@src")[0]
- print(src)
复制代码
这段代码中,我们首先将HTML字符串传递给etree.HTML()函数进行解析。然后,使用XPath表达式"//video/@src"来选取video标签中的src属性,通过索引[0]获取第一个匹配结果,并打印出来。
以上回复来自 FishC AI 小助理,如未能正确解答您的问题,请继续追问。 |
|