推进一本书吧,Python交流,编程语言专区,鱼C论坛

Mike_python小 发表于 2020-6-4 10:07:40

推进一本书吧

这几类（必须是专门讲这个的）

1. 爬虫
2. pygame
3. PIL

哪位大佬给我个链接呀（纸质书（淘宝））{:10_254:}

Mike_python小 发表于 2020-6-4 10:08:35

学生党没钱

贵的不用说{:10_266:}{:10_266:}

眼不看心不烦

Twilight6 发表于 2020-6-4 10:18:47

爬虫进去看大佬推荐的自己选选

《Beginning Game Development with Python and Pygame》Pygame 的书籍

PIL 不知道了没查到有关书籍

赚小钱 发表于 2020-6-4 12:53:56

本帖最后由赚小钱于 2020-6-4 12:57 编辑

印象中，在使用 PIL 的时候，就用过读取长宽像素值。不确定 exif 的信息是不是在 PIL 库。更多的处理，都是使用的 OpenCV。

爬虫分成三类
1. 正则提取(不推荐)
2. css selector 还可以吧，不具有普适性，如果编码能力好，把操作 css selector 的部分，封装成插件，用起来还可以(一般)
3. chrome-headless，phantomjs，比较推荐这类，很多页面，使用了诸如 js 动态加载，iframe 这些前端技术，上面两种方式，就不好用了。还是浏览器类型的好用，尤其是这种，不需要图形界面的浏览器。(强烈推荐)

所以，总结出爬虫可能需要的知识
1. 正则，用的时候要注意使用的标准，posix，pcre，re2 等，有细微差别
2. css selector 去 MDN 学就行
3. 阅读官方文档，和所选语言的库函数文档
此外，还需要
1. 应对反扒机制，比如代理，代理池
2. 作为一个高素质的爬虫开发者，应该遵守 robots.txt 规则，比如，google 是遵守的，baidu 不遵守
3. 单线程，太慢了，就要去学并发编程，如何创建线程，进程
4. 学会并发编程，还要学会控制并发，比如连接池，线程池
5. 线程，进程之间数据交换
6. 爬虫运行过程崩溃了，如何恢复任务
7. 多线程也满足不了性能需求了，考虑多机分布式爬虫
8. 将爬虫从客户端架构，进化为 C/S 架构，或者是 B/S 架构
9. 完成第 8 条改进，就应该可以同时执行多个爬虫任务了，此时就需要考虑调度问题了
10. 允许暂停某个任务，优先执行某些任务，比如爬个图啦
11. 然后就是运维方面，学习 docker k8s 容器化部署
12. 使用 GitLab/GitHub 等平台管理源代码
13. 学习编写单元测试
14. 然后你会发现，单元测试好难写啊，然后，就要去学，如何编写可测试的代码
15. 提交代码，使用 CI 自动完成测试，使用 CD 自动部署代码

以上，是我能想到研究爬虫的发展路线，和所需知识。
爬虫不是任何一本书能讲清楚的。根据自己当前所处的阶段，选择对应的书籍。
上面 1 - 15 个阶段，不清楚的，我都可以推荐资料。
加油。

页: [1]

鱼C论坛's Archiver

推进一本书吧