|
马上注册,结交更多好友,享用更多功能^_^
您需要 登录 才可以下载或查看,没有账号?立即注册
x
这段代码是用来爬去CSDN链接的,虽然已经爬取成功,但是为什么会出现元组类型呢?求帮忙指点。
import re
import urllib.request
def getlink( url ):
#模拟浏览器
headers = ( 'User-Agent', 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36')
opener = urllib.request.build_opener( )
opener.addheaders = [ headers ]
urllib.request.install_opener( opener )
data = urllib.request.urlopen( url ).read( )
#print( data )
data = str( data )
#根据需求构建链接正则表达式
#pattern = r'(https?://[^\s";]+\.((\w|/)*)
pattern = r'(https?://[^\s)";]+\.(\w|/)*)'
link = re.compile( pattern ).findall( data )
#print( link )
#通过set去除掉重复元素
#link = list( set(link))
return link
url = 'http://blog.csdn.net/'
linklist = getlink( url )
for link in linklist:
print( link )
|
|