鱼C论坛

 找回密码
 立即注册
查看: 2205|回复: 7

[已解决]爬虫进阶

[复制链接]
发表于 2017-7-12 09:45:27 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
现在的网站越来越溜了,各种异步加载,JS渲染
各位大神,来练练手呗
题目:抓取  http://www.huanmusic.com/playlists  歌单信息及点击跳转的url,找到翻页的真正网址请求,
PS:该网站的能爬到的html都被设定
最佳答案
2017-7-12 13:37:49
本帖最后由 gopythoner 于 2017-7-12 13:39 编辑

目测所有的歌单链接都在这个链接里面http://net.huanmusic.com/g_v1_20170712
看样子这个链接是按照时间日期来变动的
不过直接用浏览器请求链接得到的大部分是乱码(但是依然能够看出来是一个JSON文件,而且比较规范,歌单的信息是一个列表)
但是似乎不妨碍,可以从这些乱码中提取到歌单的链接构成部分
例如http://www.huanmusic.com/playlist/56fce82671442f0e1229004a这个歌单,其中最后一部分都能从上面那个链接的网页中找到
然后把链接改成这样http://www.huanmusic.com/playlist/music/56fce82671442f0e1229004a
就是请求每个歌单里面歌曲的链接了

以上是我用浏览器看到的分析过程
每个请求都是POST,所以只要POST的信息正确(但是我并没有发现有需要提交的表单啊),就能够获取所有歌单的信息了
回去我去试试,

想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

 楼主| 发表于 2017-7-12 09:51:41 | 显示全部楼层
点击下一页则会出现如图所示,一种异步加载
用selenium+phantomjs得不到想要的网页信息
gedan.png
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2017-7-12 11:10:17 | 显示全部楼层
代码呢?
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2017-7-12 11:19:31 | 显示全部楼层

还没有搞定,所以发上来看看有高手解惑没
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2017-7-12 12:23:30 | 显示全部楼层
连C币也省了。起码也得1000C币吧。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2017-7-12 13:37:49 | 显示全部楼层    本楼为最佳答案   
本帖最后由 gopythoner 于 2017-7-12 13:39 编辑

目测所有的歌单链接都在这个链接里面http://net.huanmusic.com/g_v1_20170712
看样子这个链接是按照时间日期来变动的
不过直接用浏览器请求链接得到的大部分是乱码(但是依然能够看出来是一个JSON文件,而且比较规范,歌单的信息是一个列表)
但是似乎不妨碍,可以从这些乱码中提取到歌单的链接构成部分
例如http://www.huanmusic.com/playlist/56fce82671442f0e1229004a这个歌单,其中最后一部分都能从上面那个链接的网页中找到
然后把链接改成这样http://www.huanmusic.com/playlist/music/56fce82671442f0e1229004a
就是请求每个歌单里面歌曲的链接了

以上是我用浏览器看到的分析过程
每个请求都是POST,所以只要POST的信息正确(但是我并没有发现有需要提交的表单啊),就能够获取所有歌单的信息了
回去我去试试,

想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2017-7-12 13:46:13 | 显示全部楼层
旋转风 发表于 2017-7-12 09:51
点击下一页则会出现如图所示,一种异步加载
用selenium+phantomjs得不到想要的网页信息

其实你想的复杂了,这个歌单根本不需要翻页的
总共5页,所有的歌单都在http://net.huanmusic.com/g_v1_20170712这个链接里面
不信你随便复制一个歌单去这个链接里面搜索,都能搜到的
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2017-7-12 14:09:58 | 显示全部楼层
gopythoner 发表于 2017-7-12 13:37
目测所有的歌单链接都在这个链接里面http://net.huanmusic.com/g_v1_20170712
看样子这个链接是按照时间日 ...

恩,我也发现了这个链接,可能是我用360浏览器的原因吧,打开就是一个下载提示,下载一个复杂的json文件,
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-5-18 06:52

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表