python爬虫技术应该注重哪些基础

foxiangzun · 发表于 2021-10-15 23:18:39

1、敏感信息不要爬取，敏感信息包含：中国公民的姓名、电话、身份证信息、银行卡号、家庭住址
2、每一次爬取的资料不宜过多，否则会大量占用网站的网络资源服务导致网站变卡，影响其运营
3、爬取的时间不宜在白天，白天是大多数用户访问的时间，半夜一般是网站的维护时间段，晚上爬取较为合适（不同类型的网站访问量和活跃性不同，这里只是针对大多数网站）
4、爬取的内容应遵循各网站的机器人协议，协议中明令禁止的目录不访问
5、爬虫运行前，尽量使用 time 包下的 sleep 方法，每爬取一小部分内容休眠一段时间，减少爬虫在单位时间内提交的请求数

以上，个人建议，仅作参考，部分网站不做反爬，且访问量很小，甚至可以直接允许用户上爬虫（请求头都可以不伪装就直接爬内容的），这类网站也尽量悠着点，毕竟这类不活跃的网站，网络资源可能也是有限的，崩溃了会很麻烦

账号		自动登录	找回密码
密码			立即注册

[技术交流] python爬虫技术应该注重哪些基础

浏览过的版块