|
发表于 2023-11-15 21:02:42
|
显示全部楼层
- import requests
- import os
- # 获取网页内容
- url = 'https://example.com'
- response = requests.get(url)
- html_content = response.text
- # 解析网页内容,提取src链接
- # 假设src链接的格式为:<img src="https://example.com/image.jpg">
- # 使用正则表达式或者BeautifulSoup等工具进行解析
- # 这里假设使用正则表达式
- import re
- src_pattern = re.compile(r'<img.*?src="(.*?)".*?>')
- src_list = re.findall(src_pattern, html_content)
- # 下载src链接指向的文件到本地指定文件夹
- save_folder = 'downloaded_images'
- os.makedirs(save_folder, exist_ok=True) # 创建保存文件夹
- for src in src_list:
- # 获取文件名
- filename = src.split('/')[-1]
- # 发起请求,下载文件内容
- file_response = requests.get(src)
- # 写入文件
- with open(os.path.join(save_folder, filename), 'wb') as file:
- file.write(file_response.content)
复制代码
以上代码首先使用requests库获取指定网页的内容,然后通过正则表达式解析出网页中的src链接。接着创建一个文件夹用于保存下载的文件。最后遍历src链接列表,使用requests库下载文件内容,并将其保存到指定的文件夹中。 |
|