|
|
马上注册,结交更多好友,享用更多功能^_^
您需要 登录 才可以下载或查看,没有账号?立即注册
x
本帖最后由 天冰 于 2016-8-28 12:15 编辑
代码
from bs4 import BeautifulSoup
import urllib2
import urllib
import re
#获得网址
def geturl():
url='XXXX'
return url
#正则到链接列表
def getcontent(url):
request=urllib2.Request(url)
response=urllib2.urlopen(request)
content = response.read().decode('utf-8')
pattern=re.compile('<span class="STab">.*?href="(.*?)" target=".*?" title=".*?">(.*?)</a>',re.S)
contenturl=re.findall(pattern,content)
return contenturl
#正则二级内容
def getcontent_2(content):
for k,j in content:
url=K
request=urllib2.Request(url)
response=urllib2.urlopen(request)
content = response.read().decode('utf-8')
soup = BeautifulSoup(content)
print soup.select('a[href="XXXXX"]')
#输出链接列表
def printindex():
url=geturl()
content=getcontent(url)
content_2=getcontent_2(content)
printindex()
错误:global name 'K' is not defined
K不是全局变量,怎么改请人指导
|
|