写了一个特别简单的爬取鱼c视频资源下载地址的py
本帖最后由 int_lyc 于 2018-2-2 15:16 编辑刚接触鱼C,看了小甲鱼的,从零开始学python,感觉发现了新大陆{:10_297:}
小甲鱼讲课讲得太好了有木有{:10_256:}
今天看了python爬虫的几个视频,发现上面讲的例子现在都不能爬了{:10_269:}
于是乎——我打起了爬鱼C的主意,发现鱼C可以任意爬{:10_334:}
由于鱼C视频资源只有vip能打包下载,普通用户只能一个一个视频下,太慢了有木有
但由于是个穷学生,近期的零花钱被我花光,暂时无法加入鱼Cvip大家庭{:10_243:}
于是乎,就想怎么能方便下载到视频资源,想到我可以爬鱼C的视频下载地址啊{:10_297:}
然后我就在各视频网页之间找规律,也确实找到了,规律太简单了有木有{:10_256:}
目前只有百度云下载地址能用,就得保存3条数据,标题、链接地址和密码
输入的是范围,在网页找到一类的某一个地址,然后按这个扩大范围输入,应该就能找到这一类的地址
保存在文件,同时在屏幕上打印出来
更新:
加入了关键字搜索,输出标题中含有关键字的下载地址
代码已更新
再次更新:
修复了新出的视频地址找不到的Bug
代码已更新
static/image/hrline/man.gif
以下是效果:
static/image/hrline/man.gif
附上杂乱无章,我自己看着都难受的代码:{:10_299:}
import urllib.request as ur
def _print_(html,file,mod):
asd = html.split('<title>')[:]
title = asd.split('| 鱼C工作室</title>')[:]
if '–' in title:
tit = title.split('–')[:] + "-" + title.split('–')[:]
else:
tit = title
if mod in tit:
add = html.split('密码:')[:]
password = add[:4]
address = add[-60:]
ad = address.split("href=\"")[:]
radd = ad[:].split("\" target=\"")
file.write('%-34s%-7s%s\n'%(radd,password,tit))
print('%-34s%-7s%s'%(radd,password,tit))
with open("test.txt","w") as f:
low = int(input("输入最低数值(>0):"))
high = int(input("输入最高数值(<7000):"))
mod = input("输入要搜索的关键字:")
for i in range(low,high):
try:
url = 'http://blog.fishc.com/'+str(i)+'.html#prettyPhoto/0/'
resp = ur.urlopen(url)
html = resp.read().decode('utf-8')
if "密码:" in html:
_print_(html,f,mod)
else:
url = 'http://blog.fishc.com/'+str(i)+'.html/2#prettyPhoto/0/'
resp = ur.urlopen(url)
html = resp.read().decode('utf-8')
if "密码:" in html:
_print_(html,f,mod)
else:
continue
except:
continue
附上我爬取的视频地址集:
**** Hidden Message *****
小心点别让甲鱼老师看到~
{:10_256:}贿赂我吧,不然举报你 新手·ing 发表于 2018-2-1 22:11
小心点别让甲鱼老师看到~
贿赂我吧,不然举报你
{:10_336:} int_lyc 发表于 2018-2-1 22:16
现在都是直接用request模块 适配python3 urllib这种模块感觉...emmmmm适合python2 顺便说一句,我也缺鱼B啊...... 更新了更新了{:10_340:} 支持! 希望能自动把视频下载下来(虽然我觉得不太可能) 好棒 lapo_Mu 发表于 2018-2-5 20:29
希望能自动把视频下载下来(虽然我觉得不太可能)
现在的水平还不够 int_lyc 发表于 2018-2-6 10:42
现在的水平还不够
用第三方库selenium说不定行 lapo_Mu 发表于 2018-2-22 19:14
用第三方库selenium说不定行
等有时间学学 厉害了 厲害,剛開始學python,不知道啥時才能寫爬蟲 kankan 想下载鱼C的视频集跟着学习,只可惜不会爬虫,这里即有视频合集又怎能错过,且进去打包带走。{:10_279:} {:10_266:}厉害厉害,正在学习爬虫中.... 高人,太牛了666。 {:7_113:}{:7_113:} 支持
学以致用厉害了{:5_109:}
页:
[1]
2