Daniel_Zhang 发表于 2021-2-16 13:59:12

爬虫之下载 pdf 和 mp4 文件

Hello 大家好,我又来了

这一次给大家带来的是,在使用爬虫获取了对应的 pdf 或 mp4 文件的链接后,如何将对应的文件保存在本地

参考了站外不同大佬的文章,最后发现了一件很神奇的事情,pdf 和 mp4 文件都是以二进制形式写入文件的,即均可以使用 wb 模式进行写入

此处穿插一句题外话,如果需要使用正则表达式匹配所有的 pdf 或 mp4 文件的链接, 可以使用如下方法:

m = r'<a href="([^"]+\.pdf|[^"]+\.mp4)"'
match = re.findall(m, html)

记住要 import re 模块

那么接下来就上代码,看看到底如何下载对应的 pdf 或 mp4 文件

import ssl, requests

def pdf_download(url):
    ssl._create_default_https_context = ssl._create_unverified_context        # 此处是我自己的电脑需要的,请按照自己的实际情况添加
    r = requests.get(url)

    filename = url.split('/')[-1]        # 获取到的文件名自带 .pdf 或 .mp4 文件后缀

    with open(filename, "wb") as code:        # 二进制写入
      code.write(r.content)

pdf_download('此处填写对应的 mp4 或者 pdf 文件的链接,链接是以.pdf 或 .mp4 结尾的')

其他文件类型暂时还没有研究,不过只要是以二进制写入的,应该就能通用{:10_297:}

评论本帖获取完整爬虫代码~

**** Hidden Message *****

Daniel_Zhang 发表于 2021-2-18 15:29:57

本帖最后由 Daniel_Zhang 于 2021-2-18 15:33 编辑

wp231957 发表于 2021-2-18 09:04
ssl._create_default_https_context = ssl._create_unverified_context      # 此处是我自己的电脑需要的 ...

我跑爬虫的时候 vscode 会跑一个 ssl 的异常,google了一下也不知道为啥,只知道加上这个就解决了{:10_277:}

如下所示

https://www.cnblogs.com/lizm166/p/10001096.html

fumun 发表于 2021-5-12 17:58:03

学习学习,下载MP4

2631215990 发表于 2021-4-30 15:36:03

学习

fjl_001 发表于 2021-3-17 15:34:14

学习学习

guiu889 发表于 2021-3-15 09:55:43

crisfo 发表于 2021-3-11 10:24:07

66666

crisfo 发表于 2021-3-11 10:23:07

厉害,学习{:5_106:}

小伤口 发表于 2021-3-11 09:56:49

学习了,厉害

溴百里香酚菜 发表于 2021-3-1 12:29:54

{:10_256:}

明天会更更好 发表于 2021-2-28 22:12:51

好像是很厉害的样子,我没有时间学。

游戏人生之良 发表于 2021-2-21 09:56:18


虽然看不懂 但是很厉害的样子

Python初学者8号 发表于 2021-2-21 09:09:33

虽然看不懂 但是很厉害的样子{:10_243:}

世界第一绀厨 发表于 2021-2-21 08:59:27

学习

呵呵呵呵呵和 发表于 2021-2-20 11:49:48

感谢分享

1101203976 发表于 2021-2-20 00:46:35

感谢分享

岁月清欢 发表于 2021-2-19 23:16:46

学习一下

wayyyyyyyy 发表于 2021-2-19 18:51:36

学习一下

19924269098 发表于 2021-2-19 16:58:10

学习

宋Brown 发表于 2021-2-19 14:23:51

学习

墨桀 发表于 2021-2-19 09:23:02

6666666666666

Yoromi 发表于 2021-2-19 07:35:48

{:10_257:}
页: [1] 2 3
查看完整版本: 爬虫之下载 pdf 和 mp4 文件