鱼C论坛

 找回密码
 立即注册
查看: 2272|回复: 10

爬取网页照片

[复制链接]
发表于 2017-5-4 15:48:41 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
这是网页审查元素看到的信息
2.png
这是我爬取的网页信息,为什么关于照片的信息不见了
1.png
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2017-5-4 16:13:42 | 显示全部楼层
那元素可能是用后端代码加上去的
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2017-5-4 16:19:55 | 显示全部楼层
alltolove 发表于 2017-5-4 16:13
那元素可能是用后端代码加上去的

现在的网页反爬虫也是狠啊,那怎么做?有什么解决办法吗
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2017-5-4 16:22:10 | 显示全部楼层
sunshine似我 发表于 2017-5-4 16:19
现在的网页反爬虫也是狠啊,那怎么做?有什么解决办法吗

1,链接可能是JS中,这种好说,找对API就行
2,加载出来的,那就只能用模拟浏览器的爬虫工具了,selenium之类的
你把你要爬的网页发过来,我看看到底是什么类型
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2017-5-4 16:26:03 | 显示全部楼层
gopythoner 发表于 2017-5-4 16:22
1,链接可能是JS中,这种好说,找对API就行
2,加载出来的,那就只能用模拟浏览器的爬虫工具了,seleniu ...

http://pic.sogou.com/d?query=%BF%E2%C0%EF%B1%DA%D6%BD&mode=1&did=1#did0
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2017-5-4 16:39:13 | 显示全部楼层
本帖最后由 gopythoner 于 2017-5-4 16:43 编辑
gopythoner 发表于 2017-5-4 16:22
1,链接可能是JS中,这种好说,找对API就行
2,加载出来的,那就只能用模拟浏览器的爬虫工具了,seleniu ...


你的请求连接是这种吧
http://pic.sogou.com/d?query=%BF%E2%C0%EF%B1%DA%D6%BD&mode=1&did=1
换成这种
http://pic.sogou.com/pics?query=%BF%E2%C0%EF%B1%DA%D6%BD&did=1&mode=1&start=0&reqType=ajax&tn=0&reqFrom=detail

链接前后不变,变动的是query=%BF%E2%C0%EF%B1%DA%D6%BD这部分,即使你搜索的关键词的url编码格式,这一串字符你不用去编码,可以用中文代替,比如query=库里
我只是打开网页看了一下,没有用代码去试,你可以自己去试
网页请求到的应该是一个字典类型的格式(json格式)
要提取图片很简单,用正则表达式就行
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2017-5-4 16:49:12 | 显示全部楼层
应该不是在源码里的吧,我也不是很清楚,这种应该要抓包。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2017-5-4 17:16:52 | 显示全部楼层
gopythoner 发表于 2017-5-4 16:39
你的请求连接是这种吧

换成这种

你的方法我大概看了下可行,不过为什么链接要这样改动,不太明白
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2017-5-4 17:20:39 | 显示全部楼层
sunshine似我 发表于 2017-5-4 17:16
你的方法我大概看了下可行,不过为什么链接要这样改动,不太明白

这不是改,而是找到API接口,其实就是我上面说的第一种情况
无非就是在JS或者XHR中找链接,这个网站的链接在XHR中,你自己可以看的
这种还算简单,很容易找到,而且不需要构造链接,爬虫写多了自然就很快能分析出网页的信息了
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2017-5-4 17:24:31 | 显示全部楼层
gopythoner 发表于 2017-5-4 17:20
这不是改,而是找到API接口,其实就是我上面说的第一种情况
无非就是在JS或者XHR中找链接,这个网站的链 ...

你说的这些我还不太懂,刚开始学好心累
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2017-5-5 10:17:26 | 显示全部楼层
hai yaoxuexi
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-10-7 22:28

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表