首先在之前的评论中已经存在了一定的讨论,还是希望再赘述一次,请不要用学习到的技术去为恶。
像是先前九楼提到的,可能其实“爬虫”更能准确的描述你需要学习的技术。你可能在如何捕获传输的数据包并分析其内容的基础上,还需要
- 了解网页前后端架构、 HTTP 协议等基础内容:对需求是否有可能实现、应该从何处切入分析有自己的评估能力
- 熟悉 JavaScript 语言,尤其是对其进行调试的知识:这是目前网页常见的动态脚本语言,可以通过分析网络数据传输的发起和接受后的处理辅助分析数据格式
- 熟悉至少一种脚本语言:大多数情况下会需要实现一定的自动化来进行批量操作等( JavaScript 也是脚本语言,但是可能在这种场景下不太适用,这样考虑的话可能是要熟悉两种……)
- 了解基本的防御手段如反爬机制
- 了解常见内容传输的方式(如现在通常的视频是怎么传输的?是传输整个的 mp4 文件吗?)
分析网页的数据流实际上通常并不需要深入到更底层如 IP 数据包的层面,目前通常的应用中对 HTTP 报文进行捕获和分析就足够了。作为一个小小的建议,如果是出于这样的目的,使用能够让你深入到更加底层的网络通讯内容中的 Wireshark 等工具可能有些大材小用, Charles, brup suite, Fiddler 和 mitmproxy 等或许是更合适的选择。
这是一个相对综合且灵活的内容,处理问题的方式很多,建议在实践中去寻找具体问题的解决方式,补充学习尚未掌握但需要使用的知识。仍然再次,遵纪守法,为善不为恶。