爬虫之下载 pdf 和 mp4 文件
Hello 大家好,我又来了这一次给大家带来的是,在使用爬虫获取了对应的 pdf 或 mp4 文件的链接后,如何将对应的文件保存在本地
参考了站外不同大佬的文章,最后发现了一件很神奇的事情,pdf 和 mp4 文件都是以二进制形式写入文件的,即均可以使用 wb 模式进行写入
此处穿插一句题外话,如果需要使用正则表达式匹配所有的 pdf 或 mp4 文件的链接, 可以使用如下方法:
m = r'<a href="([^"]+\.pdf|[^"]+\.mp4)"'
match = re.findall(m, html)
记住要 import re 模块
那么接下来就上代码,看看到底如何下载对应的 pdf 或 mp4 文件
import ssl, requests
def pdf_download(url):
ssl._create_default_https_context = ssl._create_unverified_context # 此处是我自己的电脑需要的,请按照自己的实际情况添加
r = requests.get(url)
filename = url.split('/')[-1] # 获取到的文件名自带 .pdf 或 .mp4 文件后缀
with open(filename, "wb") as code: # 二进制写入
code.write(r.content)
pdf_download('此处填写对应的 mp4 或者 pdf 文件的链接,链接是以.pdf 或 .mp4 结尾的')
其他文件类型暂时还没有研究,不过只要是以二进制写入的,应该就能通用{:10_297:}
评论本帖获取完整爬虫代码~
**** Hidden Message *****
本帖最后由 Daniel_Zhang 于 2021-2-18 15:33 编辑
wp231957 发表于 2021-2-18 09:04
ssl._create_default_https_context = ssl._create_unverified_context # 此处是我自己的电脑需要的 ...
我跑爬虫的时候 vscode 会跑一个 ssl 的异常,google了一下也不知道为啥,只知道加上这个就解决了{:10_277:}
如下所示
https://www.cnblogs.com/lizm166/p/10001096.html 学习学习,下载MP4 学习 学习学习 好 66666 厉害,学习{:5_106:} 学习了,厉害 {:10_256:} 好像是很厉害的样子,我没有时间学。
虽然看不懂 但是很厉害的样子 虽然看不懂 但是很厉害的样子{:10_243:} 学习 感谢分享 感谢分享 学习一下 学习一下
学习
学习 6666666666666 {:10_257:}