求助 爬取的注意事项
最近做论文 遇到网上查阅论文要么需要好多钱 要么就是各种广告 所以想求助一下 我在爬取文献前需要什么软硬件需求以及程序代码 没有什么软硬件需求,只要会爬就行 首先要看你想爬的网站(网页)是否有你感兴趣的数据(一般都是批量数据,要是一条数据 就不用爬了)其次 观察该网站是否好爬,要是不好爬,你要分析它,是否能破掉它,要是搞不定,就要换网站了 你不会想白嫖吧{:10_256:} 本帖最后由 admintest166 于 2020-4-1 17:31 编辑
1.首先确定你要爬取的网站
2.分析请求和你想要的数据是否有反爬 如果是ajax看一下是否有需要传的加密参数
3.如果有反爬看一下换成手机的user-agent能不能绕过 因为在我爬取的网站中大型的网站对手机端的WEB基本不加反爬
如果是简单的静态网页 也可以考虑上框架 pyspider(这个需要一点学习成本)
硬件要求 很简单 有个电脑就行
软件:有python环境 基本的请求库和解析库 保不齐暴力点上selenium或者pyppeteer
直接去学自动化,selenium,不要求速度,90%的网站都可以攻破 Hello. 发表于 2020-4-1 17:03
你不会想白嫖吧
被您发现了{:10_249:} Hello. 发表于 2020-4-1 17:03
你不会想白嫖吧
被你发现了 嘻嘻
页:
[1]