dingshuang 发表于 2020-4-1 16:56:54

求助 爬取的注意事项

最近做论文 遇到网上查阅论文要么需要好多钱 要么就是各种广告 所以想求助一下 我在爬取文献前需要什么软硬件需求以及程序代码

qiuyouzhi 发表于 2020-4-1 16:58:12

没有什么软硬件需求,只要会爬就行

wp231957 发表于 2020-4-1 17:01:36

首先要看你想爬的网站(网页)是否有你感兴趣的数据(一般都是批量数据,要是一条数据 就不用爬了)
其次 观察该网站是否好爬,要是不好爬,你要分析它,是否能破掉它,要是搞不定,就要换网站了

Hello. 发表于 2020-4-1 17:03:15

你不会想白嫖吧{:10_256:}

admintest166 发表于 2020-4-1 17:29:26

本帖最后由 admintest166 于 2020-4-1 17:31 编辑

1.首先确定你要爬取的网站
2.分析请求和你想要的数据是否有反爬 如果是ajax看一下是否有需要传的加密参数
3.如果有反爬看一下换成手机的user-agent能不能绕过 因为在我爬取的网站中大型的网站对手机端的WEB基本不加反爬

如果是简单的静态网页 也可以考虑上框架 pyspider(这个需要一点学习成本)

硬件要求 很简单 有个电脑就行
软件:有python环境 基本的请求库和解析库 保不齐暴力点上selenium或者pyppeteer

Stubborn 发表于 2020-4-1 23:47:42

直接去学自动化,selenium,不要求速度,90%的网站都可以攻破

dingshuang 发表于 2020-4-11 01:46:07

Hello. 发表于 2020-4-1 17:03
你不会想白嫖吧

被您发现了{:10_249:}

dingshuang 发表于 2020-9-21 23:32:20

Hello. 发表于 2020-4-1 17:03
你不会想白嫖吧

被你发现了 嘻嘻
页: [1]
查看完整版本: 求助 爬取的注意事项