鱼C论坛

 找回密码
 立即注册
查看: 2920|回复: 5

[技术交流] python爬虫技术应该注重哪些基础

[复制链接]
发表于 2021-10-15 21:19:06 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
下面是本人的一点小问题
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

 楼主| 发表于 2021-10-15 21:19:38 | 显示全部楼层
我是从9月11号开始学习pyhton每天基本都是一节课并且当天完成课后作业,但是学习python是希望可以为我自己服务,我喜欢收集资料,爬资源,但是不知道应该注重哪一些基础内容,希望有大神
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2021-10-15 21:21:17 | 显示全部楼层
注意别进监狱就行了
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2021-10-15 22:11:37 | 显示全部楼层
不要做违法的事情 , 可以找一些任务做一做
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2021-10-15 23:18:39 | 显示全部楼层
1、敏感信息不要爬取,敏感信息包含:中国公民的姓名、电话、身份证信息、银行卡号、家庭住址
2、每一次爬取的资料不宜过多,否则会大量占用网站的网络资源服务导致网站变卡,影响其运营
3、爬取的时间不宜在白天,白天是大多数用户访问的时间,半夜一般是网站的维护时间段,晚上爬取较为合适(不同类型的网站访问量和活跃性不同,这里只是针对大多数网站)
4、爬取的内容应遵循各网站的机器人协议,协议中明令禁止的目录不访问
5、爬虫运行前,尽量使用 time 包下的 sleep 方法,每爬取一小部分内容休眠一段时间,减少爬虫在单位时间内提交的请求数

以上,个人建议,仅作参考,部分网站不做反爬,且访问量很小,甚至可以直接允许用户上爬虫(请求头都可以不伪装就直接爬内容的),这类网站也尽量悠着点,毕竟这类不活跃的网站,网络资源可能也是有限的,崩溃了会很麻烦
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 1 反对 0

使用道具 举报

发表于 2022-5-11 11:34:17 | 显示全部楼层
xpath,xml,js,json,js逆向,正则表达式,线程,html得算是最基础了吧,我刚工作,遇到的所有问题都是和这些有关,其实根本原因还是基础就没学好
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-11-18 10:33

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表