爬虫，，如何获取html中含有html中的链接地址？,萌新交流区,萌新训练营,鱼C论坛

zyj1214 发表于 2023-12-13 20:13:25

爬虫，，如何获取html中含有html中的链接地址？

图片1位置有个 html

怎么用xpath获取2 位置的video标签中的src的链接地址

FishC 发表于 2023-12-13 20:13:47

要获取HTML中的链接地址，可以使用Python中的爬虫库，例如Requests和BeautifulSoup。以下是一个示例代码，演示如何获取HTML中链接地址：

import requests
from bs4 import BeautifulSoup

# 发起HTTP请求，获取HTML页面内容
response = requests.get("http://www.example.com")
html = response.text

# 使用BeautifulSoup解析HTML
soup = BeautifulSoup(html, "html.parser")

# 找到所有的链接标签<a>，并打印链接地址
for link in soup.find_all('a'):
print(link.get('href'))

对于第二个问题，如果要使用XPath获取HTML中video标签中的src链接地址，可以使用Python的lxml库。以下是一个示例代码，演示如何使用XPath获取video标签中的src链接地址：

from lxml import etree

# 假设html为包含video标签的HTML字符串
html = '''
<html>
<body>
<video src="http://www.example.com/video.mp4"></video>
</body>
</html>
'''

# 解析HTML
root = etree.HTML(html)

# 使用XPath获取video标签中的src链接地址
src = root.xpath("//video/@src")
print(src)

这段代码中，我们首先将HTML字符串传递给etree.HTML()函数进行解析。然后，使用XPath表达式"//video/@src"来选取video标签中的src属性，通过索引获取第一个匹配结果，并打印出来。

以上回复来自 FishC AI 小助理，如未能正确解答您的问题，请继续追问。

Twilight6 发表于 2023-12-14 08:55:40

最简单的方法，就是直接选择你想要获取的标签，右击后选择 Copy -> Copy Xpath 即可

之后得到 Xpath 后，再适当修改 xpath 语法，因为这样获取是比较死板的，一条线的直达所选标签

页: [1]

鱼C论坛's Archiver

爬虫，，如何获取html中含有html中的链接地址？