求助爬取的注意事项,Python交流,编程语言专区,鱼C论坛

dingshuang 发表于 2020-4-1 16:56:54

求助爬取的注意事项

最近做论文遇到网上查阅论文要么需要好多钱要么就是各种广告所以想求助一下我在爬取文献前需要什么软硬件需求以及程序代码

qiuyouzhi 发表于 2020-4-1 16:58:12

没有什么软硬件需求，只要会爬就行

wp231957 发表于 2020-4-1 17:01:36

首先要看你想爬的网站（网页）是否有你感兴趣的数据（一般都是批量数据，要是一条数据就不用爬了）
其次观察该网站是否好爬，要是不好爬，你要分析它，是否能破掉它，要是搞不定，就要换网站了

Hello. 发表于 2020-4-1 17:03:15

你不会想白嫖吧{:10_256:}

admintest166 发表于 2020-4-1 17:29:26

本帖最后由 admintest166 于 2020-4-1 17:31 编辑

1.首先确定你要爬取的网站
2.分析请求和你想要的数据是否有反爬如果是ajax看一下是否有需要传的加密参数
3.如果有反爬看一下换成手机的user-agent能不能绕过因为在我爬取的网站中大型的网站对手机端的WEB基本不加反爬

如果是简单的静态网页也可以考虑上框架 pyspider（这个需要一点学习成本）

硬件要求很简单有个电脑就行
软件：有python环境基本的请求库和解析库保不齐暴力点上selenium或者pyppeteer

Stubborn 发表于 2020-4-1 23:47:42

直接去学自动化，selenium,不要求速度，90%的网站都可以攻破

dingshuang 发表于 2020-4-11 01:46:07

Hello. 发表于 2020-4-1 17:03
你不会想白嫖吧

被您发现了{:10_249:}

dingshuang 发表于 2020-9-21 23:32:20

Hello. 发表于 2020-4-1 17:03
你不会想白嫖吧

被你发现了嘻嘻

页: [1]

鱼C论坛's Archiver

求助 爬取的注意事项

求助爬取的注意事项