鱼C论坛

 找回密码
 立即注册
查看: 6402|回复: 32

[学习笔记] 写了一个特别简单的爬取鱼c视频资源下载地址的py

[复制链接]
发表于 2018-2-1 21:28:59 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
本帖最后由 int_lyc 于 2018-2-2 15:16 编辑

刚接触鱼C,看了小甲鱼的,从零开始学python,感觉发现了新大陆

小甲鱼讲课讲得太好了有木有

今天看了python爬虫的几个视频,发现上面讲的例子现在都不能爬了

于是乎——我打起了爬鱼C的主意,发现鱼C可以任意爬

由于鱼C视频资源只有vip能打包下载,普通用户只能一个一个视频下,太慢了有木有

但由于是个穷学生,近期的零花钱被我花光,暂时无法加入鱼Cvip大家庭

于是乎,就想怎么能方便下载到视频资源,想到我可以爬鱼C的视频下载地址啊

然后我就在各视频网页之间找规律,也确实找到了,规律太简单了有木有

目前只有百度云下载地址能用,就得保存3条数据,标题、链接地址和密码

输入的是范围,在网页找到一类的某一个地址,然后按这个扩大范围输入,应该就能找到这一类的地址

保存在文件,同时在屏幕上打印出来


更新:

加入了关键字搜索,输出标题中含有关键字的下载地址

代码已更新


再次更新:

修复了新出的视频地址找不到的Bug

代码已更新



                               
登录/注册后可看大图


以下是效果:

草图.png



                               
登录/注册后可看大图


附上杂乱无章,我自己看着都难受的代码:

  1. import urllib.request as ur

  2. def _print_(html,file,mod):

  3.     asd = html.split('<title>')[:]

  4.     title = asd[1].split('| 鱼C工作室</title>')[:][0]

  5.     if '&#8211' in title:

  6.         tit = title.split('–')[:][0] + "-" + title.split('–')[:][1]

  7.     else:
  8.         tit = title

  9.     if mod in tit:

  10.         add = html.split('密码:')[:]

  11.         password = add[1][:4]

  12.         address = add[0][-60:]

  13.         ad = address.split("href="")[:]

  14.         radd = ad[1][:].split("" target="")[0]

  15.         file.write('%-34s%-7s%s\n'%(radd,password,tit))

  16.         print('%-34s%-7s%s'%(radd,password,tit))

  17. with open("test.txt","w") as f:

  18.     low = int(input("输入最低数值(>0):"))

  19.     high = int(input("输入最高数值(<7000):"))

  20.     mod = input("输入要搜索的关键字:")

  21.     for i in range(low,high):

  22.         try:
  23.             url = 'http://blog.fishc.com/'+str(i)+'.html#prettyPhoto/0/'

  24.             resp = ur.urlopen(url)

  25.             html = resp.read().decode('utf-8')

  26.             if "密码:" in html:

  27.                 _print_(html,f,mod)

  28.             else:
  29.                 url = 'http://blog.fishc.com/'+str(i)+'.html/2#prettyPhoto/0/'

  30.                 resp = ur.urlopen(url)

  31.                 html = resp.read().decode('utf-8')

  32.                 if "密码:" in html:

  33.                     _print_(html,f,mod)

  34.                 else:
  35.                     continue

  36.         except:
  37.             continue
复制代码

附上我爬取的视频地址集:


游客,如果您要查看本帖隐藏内容请回复

本帖被以下淘专辑推荐:

想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2018-2-1 22:11:25 | 显示全部楼层
小心点别让甲鱼老师看到~
贿赂我吧,不然举报你
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2018-2-1 22:16:42 | 显示全部楼层
新手·ing 发表于 2018-2-1 22:11
小心点别让甲鱼老师看到~
贿赂我吧,不然举报你

想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 0 反对 1

使用道具 举报

发表于 2018-2-1 23:17:27 | 显示全部楼层

现在都是直接用request模块 适配python3     urllib  这种模块感觉...emmmmm  适合python2    顺便说一句,我也缺鱼B啊......
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2018-2-2 15:17:46 | 显示全部楼层
更新了更新了
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-2-5 20:20:53 | 显示全部楼层
支持!
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2018-2-5 20:29:27 | 显示全部楼层
希望能自动把视频下载下来(虽然我觉得不太可能)
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-2-5 21:34:24 | 显示全部楼层
好棒
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

 楼主| 发表于 2018-2-6 10:42:40 | 显示全部楼层
lapo_Mu 发表于 2018-2-5 20:29
希望能自动把视频下载下来(虽然我觉得不太可能)

现在的水平还不够
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-2-22 19:14:24 | 显示全部楼层
int_lyc 发表于 2018-2-6 10:42
现在的水平还不够

用第三方库selenium说不定行
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2018-2-22 21:44:54 | 显示全部楼层
lapo_Mu 发表于 2018-2-22 19:14
用第三方库selenium说不定行

等有时间学学
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-2-23 17:44:41 | 显示全部楼层
厉害了
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-2-25 23:28:35 | 显示全部楼层
厲害,剛開始學python,不知道啥時才能寫爬蟲
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-2-26 08:27:23 | 显示全部楼层
kankan
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-3-1 11:33:29 | 显示全部楼层
想下载鱼C的视频集跟着学习,只可惜不会爬虫,这里即有视频合集又怎能错过,且进去打包带走。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-3-1 13:12:07 | 显示全部楼层
厉害厉害,正在学习爬虫中....
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-3-3 07:56:29 From FishC Mobile | 显示全部楼层
高人,太牛了666。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-3-3 16:49:28 | 显示全部楼层
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2018-6-7 15:41:46 | 显示全部楼层
支持
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2018-6-8 12:54:38 | 显示全部楼层
学以致用  厉害了
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-4-28 04:25

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表