admintest166 发表于 2020-3-14 23:03:19

反爬虫练习网站

我近期发了几个用pyspider框架爬取妹子图的几个网站

发现有一个网站已经加上了一定的反爬机制了

虽然他的反爬机制是不给别人直接拿走图片

但是加上请求头参数轻松绕过

但是这不经让我陷入思考 一个颜色网站都已经开始弄上一些反爬措施了

那作为爬虫的作者 是不是也要与时俱进学习反反爬的措施和方法呢

隐藏内容中是练习反反爬虫的一个网站 里面的例子基本上是覆盖了一些大型的网站的反爬措施

我还非常不小心的~{:10_297:} 一带顺手的~{:10_254:} 没控几住我自己{:10_264:}把这个反反爬虫的网站给爬下来了

源代码包 我也会发出来 可以直接下载本地直接练习 也可以部署到服务器上 都行

网站的站长是一个出书的作者 练习的内容也是书中的内容
**** Hidden Message *****

Lifesuck33 发表于 2020-3-15 17:51:21

继续学习

skybluepinkshuk 发表于 2020-3-15 23:26:22

:L 这都要隐藏啊……

kaohsing 发表于 2020-3-16 13:17:39

我学习一下

wp231957 发表于 2020-3-16 13:18:41

看看

wp231957 发表于 2020-3-16 18:55:35

我是不是弄错了什么,前三到题目 我除了url不一样其他的代码都是一样的啊
没碰到什么反扒措施呢,最终都能打印网页源码

admintest166 发表于 2020-3-16 22:12:08

wp231957 发表于 2020-3-16 18:55
我是不是弄错了什么,前三到题目 我除了url不一样其他的代码都是一样的啊
没碰到什么反扒措施呢,最终都 ...

第三个 好像是签名爬虫 你爬的是首页把 他有个点击详细 题目给的要求是爬取点击详细页后的内容 不是首页
{:10_254:}

yjsx86 发表于 2020-3-16 23:07:33

看一看

yjsx86 发表于 2020-3-16 23:14:58

我之前练习爬虫 用的是这个网站
http://glidedsky.com

ig123 发表于 2020-3-17 14:59:53

1

wp231957 发表于 2020-3-17 16:22:14

本帖最后由 wp231957 于 2020-3-17 16:26 编辑

第一题第四题第五题   不知道考啥,我换用两款浏览器,点击查看详情都没有反应
以上浏览器均返回304

admintest166 发表于 2020-3-17 16:42:35

本帖最后由 admintest166 于 2020-3-17 16:43 编辑

wp231957 发表于 2020-3-17 16:22
第一题第四题第五题   不知道考啥,我换用两款浏览器,点击查看详情都没有反应
以上浏览器均返回3 ...

第一题就是简单的初级的user-agent爬虫 不加爬取不了数据的(可以无视)

第四题主要是爬那个电话联系人的 但是电话是个图片 所以就叫图片反爬(也很简单)

第五题是CSS偏移给的要求是爬取价格

确实是304 但是爬取的数据正常的 只是加入一些反爬而已

wp231957 发表于 2020-3-17 16:58:15

admintest166 发表于 2020-3-17 16:42
第一题就是简单的初级的user-agent爬虫 不加爬取不了数据的(可以无视)

第四题主要是爬那个电话联 ...

:第四题主要是爬那个电话联系人的 但是电话是个图片 所以就叫图片反爬(也很简单)

是下载图片然后识别图片中的文本字符吗类似ocr   验证码 识别之类的???

jijidebaba 发表于 2020-3-17 17:07:04

学习一下{:10_256:}

admintest166 发表于 2020-3-17 18:56:18

wp231957 发表于 2020-3-17 16:58
:第四题主要是爬那个电话联系人的 但是电话是个图片 所以就叫图片反爬(也很简单)

是下载图片   ...

对的 书上是直接ocr 但是ocr识别率太低了 我是orc+API方式 两种解决方案

alien辰 发表于 2020-3-21 15:36:46

厉害。学习下。{:5_109:}

melo_1 发表于 2020-3-22 20:14:04

学习一下~

luoyuhang 发表于 2020-3-22 20:49:29

2445

幻墨如烟 发表于 2020-3-22 22:21:14

滑稽滑稽

warpgtp 发表于 2020-3-22 23:21:13

没学过爬虫 围观一下
页: [1] 2 3 4 5
查看完整版本: 反爬虫练习网站