鱼C论坛

 找回密码
 立即注册
查看: 1042|回复: 1

爬取到src的链接,怎么下载到本地指定的文件夹,代码怎么写?

[复制链接]
发表于 2023-11-15 21:02:26 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
最好每行代码详细说明一下?
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2023-11-15 21:02:42 | 显示全部楼层
import requests
import os

# 获取网页内容
url = 'https://example.com'
response = requests.get(url)
html_content = response.text

# 解析网页内容,提取src链接
# 假设src链接的格式为:<img src="https://example.com/image.jpg">
# 使用正则表达式或者BeautifulSoup等工具进行解析
# 这里假设使用正则表达式
import re
src_pattern = re.compile(r'<img.*?src="(.*?)".*?>')
src_list = re.findall(src_pattern, html_content)

# 下载src链接指向的文件到本地指定文件夹
save_folder = 'downloaded_images'
os.makedirs(save_folder, exist_ok=True)  # 创建保存文件夹

for src in src_list:
    # 获取文件名
    filename = src.split('/')[-1]
    # 发起请求,下载文件内容
    file_response = requests.get(src)
    # 写入文件
    with open(os.path.join(save_folder, filename), 'wb') as file:
        file.write(file_response.content)
以上代码首先使用requests库获取指定网页的内容,然后通过正则表达式解析出网页中的src链接。接着创建一个文件夹用于保存下载的文件。最后遍历src链接列表,使用requests库下载文件内容,并将其保存到指定的文件夹中。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-6-29 18:29

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表