鱼C论坛

 找回密码
 立即注册
查看: 7174|回复: 71

[作品展示] 动态网页爬虫----懒人听书

[复制链接]
发表于 2019-4-14 17:54:29 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
本帖最后由 Stubborn 于 2019-4-15 14:40 编辑

过程懒得说,有想知道的鱼友下面留言
游客,如果您要查看本帖隐藏内容请回复


  1. {'mp4_name': '第001集_得到奇遇,英雄救美', 'mp4_id': '648111514', 'url_data': 'http://www.lrts.me/ajax/path/4/35799/648111514', 'mp4_url': 'http://vb.wting.info/fiction/dushi/hzyx/9y2hagwy.mp3?token=rgSRi8GkjMJuj8Sm5DapaY2QwU8-txmdiXWxaIT3iNxBvrdOhc4Vzw**&e=1555235589722&t=2&res=648111514&sign=203bd17b508acd2793aa9c8874e092bd'}
  2. {'mp4_name': '第002集_庸医', 'mp4_id': '650111188', 'url_data': 'http://www.lrts.me/ajax/path/4/35799/650111188', 'mp4_url': 'http://vb.wting.info/fiction/dushi/hzyx/k2pur14h.mp3?token=rgSRi8GkjMJuj8Sm5DapaY2QwU8-txmdiXWxaIT3iNxBvrdOhc4Vzw**&e=1555235589805&t=2&res=650111188&sign=b0be416a4ca9631cf1d3fce9336eb5b2'}
  3. {'mp4_name': '第003集_癞蛤蟆想吃天鹅肉', 'mp4_id': '651731628', 'url_data': 'http://www.lrts.me/ajax/path/4/35799/651731628', 'mp4_url': 'http://vb.wting.info/fiction/dushi/hzyx/i6blsav2.mp3?token=rgSRi8GkjMJuj8Sm5DapaY2QwU8-txmdiXWxaIT3iNxBvrdOhc4Vzw**&e=1555235589878&t=2&res=651731628&sign=966a0f60480e0fc99cf323d4c38851b0'}
  4. {'mp4_name': '第004集_劫匪', 'mp4_id': '653151605', 'url_data': 'http://www.lrts.me/ajax/path/4/35799/653151605', 'mp4_url': 'http://vb.wting.info/fiction/dushi/hzyx/rz8fkmsu.mp3?token=rgSRi8GkjMJuj8Sm5DapaY2QwU8-txmdiXWxaIT3iNxBvrdOhc4Vzw**&e=1555235589969&t=2&res=653151605&sign=04d4a253894d987ad1cc73f237028932'}
  5. {'mp4_name': '第005集_暴打富二代', 'mp4_id': '654441920', 'url_data': 'http://www.lrts.me/ajax/path/4/35799/654441920', 'mp4_url': 'http://vb.wting.info/fiction/dushi/hzyx/mwscrz5s.mp3?token=rgSRi8GkjMJuj8Sm5DapaY2QwU8-txmdiXWxaIT3iNxBvrdOhc4Vzw**&e=1555235590033&t=2&res=654441920&sign=d29d8eb9ace76b11389d8d104c6a2367'}
  6. {'mp4_name': '第006集_帮我买卫生巾', 'mp4_id': '656241257', 'url_data': 'http://www.lrts.me/ajax/path/4/35799/656241257', 'mp4_url': 'http://vb.wting.info/fiction/dushi/hzyx/trdcxd36.mp3?token=rgSRi8GkjMJuj8Sm5DapaY2QwU8-txmdiXWxaIT3iNxBvrdOhc4Vzw**&e=1555235590112&t=2&res=656241257&sign=41479b28630d23a029b1980ed6e73a31'}
  7. {'mp4_name': '第007集_智斗大富豪', 'mp4_id': '658191914', 'url_data': 'http://www.lrts.me/ajax/path/4/35799/658191914', 'mp4_url': 'http://vb.wting.info/fiction/dushi/hzyx/ghtyfm3r.mp3?token=rgSRi8GkjMJuj8Sm5DapaY2QwU8-txmdiXWxaIT3iNxBvrdOhc4Vzw**&e=1555235590181&t=2&res=658191914&sign=a68e81fbc118eb270b82255d3783c926'}
  8. {'mp4_name': '第008集_慕情雪', 'mp4_id': '658521735', 'url_data': 'http://www.lrts.me/ajax/path/4/35799/658521735', 'mp4_url': 'http://vb.wting.info/fiction/dushi/hzyx/byqvgjai.mp3?token=rgSRi8GkjMJuj8Sm5DapaY2QwU8-txmdiXWxaIT3iNxBvrdOhc4Vzw**&e=1555235590260&t=2&res=658521735&sign=d10a09ce8903a0516c33174a8c6ee4b8'}
  9. {'mp4_name': '第009集_韩风出手', 'mp4_id': '658991082', 'url_data': 'http://www.lrts.me/ajax/path/4/35799/658991082', 'mp4_url': 'http://vb.wting.info/fiction/dushi/hzyx/vxaq9kcy.mp3?token=rgSRi8GkjMJuj8Sm5DapaY2QwU8-txmdiXWxaIT3iNxBvrdOhc4Vzw**&e=1555235590323&t=2&res=658991082&sign=2caf0917fdbebd6e151393d9a642c96b'}
  10. {'mp4_name': '第010集_道歉的诚意', 'mp4_id': '661251735', 'url_data': 'http://www.lrts.me/ajax/path/4/35799/661251735', 'mp4_url': 'http://vb.wting.info/fiction/dushi/hzyx/88f2n3oc.mp3?token=rgSRi8GkjMJuj8Sm5DapaY2QwU8-txmdiXWxaIT3iNxBvrdOhc4Vzw**&e=1555235590395&t=2&res=661251735&sign=d9425073b31f34a1cd778f8cf90c8261'}
复制代码

本帖被以下淘专辑推荐:

想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2019-4-14 18:38:12 | 显示全部楼层
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2019-4-14 21:12:39 From FishC Mobile | 显示全部楼层
感谢,抽空仔细看看
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2019-4-14 21:34:26 | 显示全部楼层
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2019-4-15 10:04:09 | 显示全部楼层
  1. # coding: utf-8
  2. import requests
  3. from lxml import etree


  4. if __name__ == '__main__':
  5.     item = {}
  6.     url = 'http://www.lrts.me/ajax/playlist/2/35799/1/next'
  7.     response = etree.HTML(requests.get(url=url).text)
  8.     li_list = response.xpath("//div[@class='section']/li")
  9.     for li in li_list:
  10.       item['mp4_name'] = li.xpath("./div/span/text()")[0]
  11.       item['url_data'] = 'http://www.lrts.me/ajax/path/4/35799/' + li.xpath('.//input[4]/@value')[0]
  12.       response = requests.get(item['url_data']).json()
  13.       mp4_url = response['data']
  14.       print(mp4_url)
  15.    
  16. #我不会写类代码,所以在你的代码基础上修改了以下,从最后打印的MP4_url来看  我代码改的貌似没啥问题       
  17. #有一些疑问 见下面注释       
  18. '''
  19. http://www.lrts.me/ajax/playlist/2/35799/1/next  翻页
  20. http://www.lrts.me/ajax/playlist/2/35799/10/next
  21. http://www.lrts.me/ajax/playlist/2/35799/19/next

  22. 01 集    http://www.lrts.me/ajax/path/4/35799/648111514  

  23. 问题1、这些url 是从哪弄的  是用神马工具吗
  24. 问题2、 li_list = response.xpath("//div[@class='section']/li")
  25.         li.xpath('.//input[4]/@value')[0]
  26.                 这两个xpath 不是很理解
  27. 问题3、最核心的两句代码 也不理解
  28.         response = requests.get(item['url_data']).json()
  29.         mp4_url = response['data']       
  30. 这些东西究竟是需要神马工具呢 还是需要神马储备知识呢

  31. '''               
复制代码
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 1 反对 0

使用道具 举报

发表于 2019-4-15 10:38:27 | 显示全部楼层
牛逼啊
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2019-4-15 13:53:12 | 显示全部楼层
本帖最后由 Stubborn 于 2019-4-15 14:11 编辑


问题1:url谷歌直接抓包,翻页是点击第九集还是第十集,才有翻页请求出来。就是最后一集,点击后,会进行翻页。
问题 2:xapth就是取数据,不理解我也解释不清楚。说下第一个吧,取所有目录下面的div标签,属性的class等于section,然后再取所有的li标签。
问题3:这个你没有看响应吗?返会的一个json串,里面包含了mp4的url
还有,我没有设置翻页,偏移量是9,自己可以设置翻页,爬取全部的
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2019-4-15 14:17:17 | 显示全部楼层
Stubborn 发表于 2019-4-15 13:53
问题1:url谷歌直接抓包,翻页是点击第九集还是第十集,才有翻页请求出来。就是最后一集,点击后,会进 ...

我也是用谷歌的 是F12吗 还是右键查看网页源代码

问题3:这个你没有看响应吗?返会的一个json串,里面包含了mp4的url  就是这个我不知道咋看啊
你能说以下具体步骤吗 是不是也是用谷歌啊
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2019-4-15 14:41:37 | 显示全部楼层
wp231957 发表于 2019-4-15 14:17
我也是用谷歌的 是F12吗 还是右键查看网页源代码

问题3:这个你没有看响应吗?返会的一个json串,里面 ...

我发了图片在帖子了,你可以自己看下
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2019-4-15 15:09:31 | 显示全部楼层
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2019-4-15 18:44:23 | 显示全部楼层
不错,学习下
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2019-4-16 00:28:52 From FishC Mobile | 显示全部楼层
666666
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2019-4-16 08:37:24 | 显示全部楼层
Stubborn 发表于 2019-4-15 14:41
我发了图片在帖子了,你可以自己看下

你的chrome是哪个版本的  为什么我的界面和你的不一样呢
批注 2019-04-16 083445.png
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2019-4-16 14:25:07 | 显示全部楼层
wp231957 发表于 2019-4-16 08:37
你的chrome是哪个版本的  为什么我的界面和你的不一样呢

Google Chrome 已是最新版本
版本 73.0.3683.103(正式版本) (64 位)
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2019-4-16 14:55:02 | 显示全部楼层
Stubborn 发表于 2019-4-16 14:25
Google Chrome 已是最新版本
版本 73.0.3683.103(正式版本) (64 位)

恩,倒是能发现你说的那几个url了,不过你是否知道如何让F12显示的窗口在屏幕的下半部显示呢
我的都是在右半部显示  看着不怎么方便
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2019-4-16 15:15:31 | 显示全部楼层
不用了  知道那个窗口咋调了
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2019-4-16 15:44:29 | 显示全部楼层
我无法完全还原你的图片上面显示的内容
我打开某一集的页面之后,按F12  network  里面啥都没有  
实在没办法  F5刷一下,确实能刷出来   但是和你的不一样

6666.png
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2019-4-16 16:01:17 | 显示全部楼层
..................
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2019-4-17 21:24:40 | 显示全部楼层
厉害
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2019-4-22 10:15:10 | 显示全部楼层
史蒂芬森发
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-4-20 16:48

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表