import requests
import os
# 获取网页内容
url = 'https://example.com'
response = requests.get(url)
html_content = response.text
# 解析网页内容,提取src链接
# 假设src链接的格式为:<img src="https://example.com/image.jpg">
# 使用正则表达式或者BeautifulSoup等工具进行解析
# 这里假设使用正则表达式
import re
src_pattern = re.compile(r'<img.*?src="(.*?)".*?>')
src_list = re.findall(src_pattern, html_content)
# 下载src链接指向的文件到本地指定文件夹
save_folder = 'downloaded_images'
os.makedirs(save_folder, exist_ok=True) # 创建保存文件夹
for src in src_list:
# 获取文件名
filename = src.split('/')[-1]
# 发起请求,下载文件内容
file_response = requests.get(src)
# 写入文件
with open(os.path.join(save_folder, filename), 'wb') as file:
file.write(file_response.content)
以上代码首先使用requests库获取指定网页的内容,然后通过正则表达式解析出网页中的src链接。接着创建一个文件夹用于保存下载的文件。最后遍历src链接列表,使用requests库下载文件内容,并将其保存到指定的文件夹中。