反爬虫练习网站,Python交流,编程语言专区,鱼C论坛

admintest166 发表于 2020-3-14 23:03:19

反爬虫练习网站

我近期发了几个用pyspider框架爬取妹子图的几个网站

发现有一个网站已经加上了一定的反爬机制了

虽然他的反爬机制是不给别人直接拿走图片

但是加上请求头参数轻松绕过

但是这不经让我陷入思考一个颜色网站都已经开始弄上一些反爬措施了

那作为爬虫的作者是不是也要与时俱进学习反反爬的措施和方法呢

隐藏内容中是练习反反爬虫的一个网站里面的例子基本上是覆盖了一些大型的网站的反爬措施

我还非常不小心的~{:10_297:} 一带顺手的~{:10_254:} 没控几住我自己{:10_264:}把这个反反爬虫的网站给爬下来了

源代码包我也会发出来可以直接下载本地直接练习也可以部署到服务器上都行

网站的站长是一个出书的作者练习的内容也是书中的内容
**** Hidden Message *****

Lifesuck33 发表于 2020-3-15 17:51:21

继续学习

skybluepinkshuk 发表于 2020-3-15 23:26:22

:L 这都要隐藏啊……

kaohsing 发表于 2020-3-16 13:17:39

我学习一下

wp231957 发表于 2020-3-16 13:18:41

看看

wp231957 发表于 2020-3-16 18:55:35

我是不是弄错了什么，前三到题目我除了url不一样其他的代码都是一样的啊
没碰到什么反扒措施呢，最终都能打印网页源码

admintest166 发表于 2020-3-16 22:12:08

wp231957 发表于 2020-3-16 18:55
我是不是弄错了什么，前三到题目我除了url不一样其他的代码都是一样的啊
没碰到什么反扒措施呢，最终都 ...

第三个好像是签名爬虫你爬的是首页把他有个点击详细题目给的要求是爬取点击详细页后的内容不是首页
{:10_254:}

yjsx86 发表于 2020-3-16 23:07:33

看一看

yjsx86 发表于 2020-3-16 23:14:58

我之前练习爬虫用的是这个网站
http://glidedsky.com

ig123 发表于 2020-3-17 14:59:53

wp231957 发表于 2020-3-17 16:22:14

本帖最后由 wp231957 于 2020-3-17 16:26 编辑

第一题第四题第五题不知道考啥，我换用两款浏览器，点击查看详情都没有反应
以上浏览器均返回304

admintest166 发表于 2020-3-17 16:42:35

本帖最后由 admintest166 于 2020-3-17 16:43 编辑

wp231957 发表于 2020-3-17 16:22
第一题第四题第五题不知道考啥，我换用两款浏览器，点击查看详情都没有反应
以上浏览器均返回3 ...

第一题就是简单的初级的user-agent爬虫不加爬取不了数据的（可以无视）

第四题主要是爬那个电话联系人的但是电话是个图片所以就叫图片反爬（也很简单）

第五题是CSS偏移给的要求是爬取价格

确实是304 但是爬取的数据正常的只是加入一些反爬而已

wp231957 发表于 2020-3-17 16:58:15

admintest166 发表于 2020-3-17 16:42
第一题就是简单的初级的user-agent爬虫不加爬取不了数据的（可以无视）

第四题主要是爬那个电话联 ...

：第四题主要是爬那个电话联系人的但是电话是个图片所以就叫图片反爬（也很简单）

是下载图片然后识别图片中的文本字符吗类似ocr 验证码识别之类的？？？

jijidebaba 发表于 2020-3-17 17:07:04

学习一下{:10_256:}

admintest166 发表于 2020-3-17 18:56:18

wp231957 发表于 2020-3-17 16:58
：第四题主要是爬那个电话联系人的但是电话是个图片所以就叫图片反爬（也很简单）

是下载图片 ...

对的书上是直接ocr 但是ocr识别率太低了我是orc+API方式两种解决方案

alien辰 发表于 2020-3-21 15:36:46

厉害。学习下。{:5_109:}

melo_1 发表于 2020-3-22 20:14:04

学习一下~

luoyuhang 发表于 2020-3-22 20:49:29

2445

幻墨如烟 发表于 2020-3-22 22:21:14

滑稽滑稽

warpgtp 发表于 2020-3-22 23:21:13

没学过爬虫围观一下

页: [1] 2 3 4 5

鱼C论坛's Archiver

反爬虫练习网站