int_lyc 发表于 2018-2-1 21:28:59

写了一个特别简单的爬取鱼c视频资源下载地址的py

本帖最后由 int_lyc 于 2018-2-2 15:16 编辑

刚接触鱼C,看了小甲鱼的,从零开始学python,感觉发现了新大陆{:10_297:}
小甲鱼讲课讲得太好了有木有{:10_256:}
今天看了python爬虫的几个视频,发现上面讲的例子现在都不能爬了{:10_269:}
于是乎——我打起了爬鱼C的主意,发现鱼C可以任意爬{:10_334:}
由于鱼C视频资源只有vip能打包下载,普通用户只能一个一个视频下,太慢了有木有
但由于是个穷学生,近期的零花钱被我花光,暂时无法加入鱼Cvip大家庭{:10_243:}
于是乎,就想怎么能方便下载到视频资源,想到我可以爬鱼C的视频下载地址啊{:10_297:}
然后我就在各视频网页之间找规律,也确实找到了,规律太简单了有木有{:10_256:}
目前只有百度云下载地址能用,就得保存3条数据,标题、链接地址和密码
输入的是范围,在网页找到一类的某一个地址,然后按这个扩大范围输入,应该就能找到这一类的地址
保存在文件,同时在屏幕上打印出来

更新:
加入了关键字搜索,输出标题中含有关键字的下载地址
代码已更新

再次更新:
修复了新出的视频地址找不到的Bug
代码已更新

static/image/hrline/man.gif

以下是效果:



static/image/hrline/man.gif

附上杂乱无章,我自己看着都难受的代码:{:10_299:}
import urllib.request as ur

def _print_(html,file,mod):

    asd = html.split('<title>')[:]

    title = asd.split('| 鱼C工作室</title>')[:]

    if '&#8211' in title:

      tit = title.split('–')[:] + "-" + title.split('–')[:]

    else:
      tit = title

    if mod in tit:

      add = html.split('密码:')[:]

      password = add[:4]

      address = add[-60:]

      ad = address.split("href=\"")[:]

      radd = ad[:].split("\" target=\"")

      file.write('%-34s%-7s%s\n'%(radd,password,tit))

      print('%-34s%-7s%s'%(radd,password,tit))

with open("test.txt","w") as f:

    low = int(input("输入最低数值(>0):"))

    high = int(input("输入最高数值(<7000):"))

    mod = input("输入要搜索的关键字:")

    for i in range(low,high):

      try:
            url = 'http://blog.fishc.com/'+str(i)+'.html#prettyPhoto/0/'

            resp = ur.urlopen(url)

            html = resp.read().decode('utf-8')

            if "密码:" in html:

                _print_(html,f,mod)

            else:
                url = 'http://blog.fishc.com/'+str(i)+'.html/2#prettyPhoto/0/'

                resp = ur.urlopen(url)

                html = resp.read().decode('utf-8')

                if "密码:" in html:

                  _print_(html,f,mod)

                else:
                  continue

      except:
            continue
附上我爬取的视频地址集:

**** Hidden Message *****

新手·ing 发表于 2018-2-1 22:11:25

小心点别让甲鱼老师看到~
{:10_256:}贿赂我吧,不然举报你

int_lyc 发表于 2018-2-1 22:16:42

新手·ing 发表于 2018-2-1 22:11
小心点别让甲鱼老师看到~
贿赂我吧,不然举报你

{:10_336:}

孤独的嫖客 发表于 2018-2-1 23:17:27

int_lyc 发表于 2018-2-1 22:16


现在都是直接用request模块 适配python3   urllib这种模块感觉...emmmmm适合python2    顺便说一句,我也缺鱼B啊......

int_lyc 发表于 2018-2-2 15:17:46

更新了更新了{:10_340:}

lapo_Mu 发表于 2018-2-5 20:20:53

支持!

lapo_Mu 发表于 2018-2-5 20:29:27

希望能自动把视频下载下来(虽然我觉得不太可能)

被翻红浪 发表于 2018-2-5 21:34:24

好棒

int_lyc 发表于 2018-2-6 10:42:40

lapo_Mu 发表于 2018-2-5 20:29
希望能自动把视频下载下来(虽然我觉得不太可能)

现在的水平还不够

lapo_Mu 发表于 2018-2-22 19:14:24

int_lyc 发表于 2018-2-6 10:42
现在的水平还不够

用第三方库selenium说不定行

int_lyc 发表于 2018-2-22 21:44:54

lapo_Mu 发表于 2018-2-22 19:14
用第三方库selenium说不定行

等有时间学学

蒂斯朵朵 发表于 2018-2-23 17:44:41

厉害了

jerry800416 发表于 2018-2-25 23:28:35

厲害,剛開始學python,不知道啥時才能寫爬蟲

chijiahao 发表于 2018-2-26 08:27:23

kankan

Helen-00 发表于 2018-3-1 11:33:29

想下载鱼C的视频集跟着学习,只可惜不会爬虫,这里即有视频合集又怎能错过,且进去打包带走。{:10_279:}

carl777zzz 发表于 2018-3-1 13:12:07

{:10_266:}厉害厉害,正在学习爬虫中....

Python26 发表于 2018-3-3 07:56:29

高人,太牛了666。

yuyang182 发表于 2018-3-3 16:49:28

{:7_113:}{:7_113:}

redss 发表于 2018-6-7 15:41:46

支持

江南大侠 发表于 2018-6-8 12:54:38

学以致用厉害了{:5_109:}
页: [1] 2
查看完整版本: 写了一个特别简单的爬取鱼c视频资源下载地址的py