请问这个爬虫的逻辑和正则表达式是否有问题

wangxin1190 · 发表于 2016-4-23 18:00:16

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

本帖最后由 wangxin1190 于 2016-4-23 22:22 编辑

输入一个网址后，一直卡着不动。

#coding=utf-8
import re
import urllib
def getHtml(url):
page = urllib.urlopen(url)
html = page.read()
return html
def getvideo(html):
r=r"a href='(.*?\[.]mp4.*$)'"
re_video=re.compile(r)
videolist = re.findall(re_video, html)
filename=1
for videourl in videolist:
      urllib.urlretrieve(videourl,"%s.mp4" %filename)
      print  'file "%s.mp4" done' %filename
      filename+=1
url=input("please input the source url:")
html = getHtml(url)
getvideo(html)

wangxin1190 · 发表于 2016-4-23 22:21:50

不是格式的问题，一直下载不下来，应该是连接权限问题，加一个 getcode()就可以了如果是200就可以下载。
应该继续优化下，加下if判断。

账号		自动登录	找回密码
密码			立即注册