鱼C论坛

 找回密码
 立即注册
查看: 12099|回复: 86

[技术交流] 反爬虫练习网站

[复制链接]
发表于 2020-3-14 23:03:19 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
我近期发了几个用pyspider框架爬取妹子图的几个网站

发现有一个网站已经加上了一定的反爬机制了

虽然他的反爬机制是不给别人直接拿走图片

但是加上请求头参数轻松绕过

但是这不经让我陷入思考 一个颜色网站都已经开始弄上一些反爬措施了

那作为爬虫的作者 是不是也要与时俱进学习反反爬的措施和方法呢

隐藏内容中是练习反反爬虫的一个网站 里面的例子基本上是覆盖了一些大型的网站的反爬措施

我还非常不小心的~ 一带顺手的~ 没控几住我自己  把这个反反爬虫的网站给爬下来了

源代码包 我也会发出来 可以直接下载本地直接练习 也可以部署到服务器上 都行

网站的站长是一个出书的作者 练习的内容也是书中的内容
游客,如果您要查看本帖隐藏内容请回复


www.porters.vip.zip

261.54 KB, 下载次数: 62

售价: 1 鱼币  [记录]

评分

参与人数 1荣誉 +5 鱼币 +5 贡献 +3 收起 理由
v.ki + 5 + 5 + 3 好东西

查看全部评分

想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2020-3-15 17:51:21 | 显示全部楼层
继续学习
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-3-15 23:26:22 | 显示全部楼层
:L 这都要隐藏啊……
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-3-16 13:17:39 From FishC Mobile | 显示全部楼层
我学习一下
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-3-16 13:18:41 From FishC Mobile | 显示全部楼层
看看
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2020-3-16 18:55:35 | 显示全部楼层
我是不是弄错了什么,前三到题目 我除了url不一样  其他的代码都是一样的啊
没碰到什么反扒措施呢,最终都能打印网页源码
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-3-16 22:12:08 | 显示全部楼层
wp231957 发表于 2020-3-16 18:55
我是不是弄错了什么,前三到题目 我除了url不一样  其他的代码都是一样的啊
没碰到什么反扒措施呢,最终都 ...

第三个 好像是签名爬虫 你爬的是首页把 他有个点击详细 题目给的要求是爬取点击详细页后的内容 不是首页
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-3-16 23:07:33 | 显示全部楼层
看一看
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-3-16 23:14:58 | 显示全部楼层
我之前练习爬虫 用的是这个网站
http://glidedsky.com
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-3-17 14:59:53 | 显示全部楼层
1
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2020-3-17 16:22:14 | 显示全部楼层
本帖最后由 wp231957 于 2020-3-17 16:26 编辑

第一题  第四题  第五题   不知道考啥,我换用两款浏览器,点击查看详情  都没有反应  
以上浏览器均返回304  
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-3-17 16:42:35 | 显示全部楼层
本帖最后由 admintest166 于 2020-3-17 16:43 编辑
wp231957 发表于 2020-3-17 16:22
第一题  第四题  第五题   不知道考啥,我换用两款浏览器,点击查看详情  都没有反应  
以上浏览器均返回3 ...


第一题就是简单的初级的user-agent爬虫 不加爬取不了数据的(可以无视)

第四题主要是爬那个电话联系人的 但是电话是个图片 所以就叫图片反爬  (也很简单)

第五题是CSS偏移  给的要求是爬取价格

确实是304 但是爬取的数据正常的 只是加入一些反爬而已
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-3-17 16:58:15 | 显示全部楼层
admintest166 发表于 2020-3-17 16:42
第一题就是简单的初级的user-agent爬虫 不加爬取不了数据的(可以无视)

第四题主要是爬那个电话联 ...


第四题主要是爬那个电话联系人的 但是电话是个图片 所以就叫图片反爬  (也很简单

是下载图片  然后识别图片中的文本字符吗  类似ocr   验证码 识别之类的???
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-3-17 17:07:04 | 显示全部楼层
学习一下
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-3-17 18:56:18 | 显示全部楼层
wp231957 发表于 2020-3-17 16:58
:第四题主要是爬那个电话联系人的 但是电话是个图片 所以就叫图片反爬  (也很简单)

是下载图片   ...

对的 书上是直接ocr 但是ocr识别率太低了 我是orc+API方式 两种解决方案
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-3-21 15:36:46 | 显示全部楼层
厉害。学习下。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-3-22 20:14:04 | 显示全部楼层
学习一下~
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-3-22 20:49:29 | 显示全部楼层
2445
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2020-3-22 22:21:14 | 显示全部楼层
滑稽滑稽
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-3-22 23:21:13 | 显示全部楼层
没学过爬虫 围观一下
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-12-22 19:26

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表