爬链接中的小问题

Shawn_Python · 发表于 2017-6-5 19:32:56

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

这段代码是用来爬去CSDN链接的，虽然已经爬取成功，但是为什么会出现元组类型呢？求帮忙指点。
import re
import urllib.request
def getlink( url ):
#模拟浏览器
headers = ( 'User-Agent', 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36')
opener = urllib.request.build_opener( )
opener.addheaders = [ headers ]
urllib.request.install_opener( opener )
data = urllib.request.urlopen( url ).read( )
#print( data )
data = str( data )
#根据需求构建链接正则表达式
#pattern = r'(https?://[^\s";]+\.((\w|/)*)
pattern = r'(https?://[^\s)";]+\.(\w|/)*)'
link = re.compile( pattern ).findall( data )
#print( link )
#通过set去除掉重复元素
#link = list( set(link))
return link
url = 'http://blog.csdn.net/'
linklist = getlink( url )
for link in linklist:
print( link )

ooxx7788 · 发表于 2017-6-5 19:44:40

因为re.findall返回的就是列表中间一个个元组

Shawn_Python · 发表于 2017-6-5 20:16:12

ooxx7788 发表于 2017-6-5 19:44
因为re.findall返回的就是列表中间一个个元组

那为什么是这种呢？列表中的每一个元素（即元组）中的第二个元素，都是第一个元素最后一个字符呢？能帮忙解释下吗谢谢

ooxx7788 · 发表于 2017-6-5 20:49:53

Shawn_Python 发表于 2017-6-5 20:16
那为什么是这种呢？列表中的每一个元素（即元组）中的第二个元素，都是第一个元素最后一个字符呢？能帮忙 ...

对不起，我对正则表达式不怎么了解。
不过，我改成pattern = r'(https?://[^\s)";]+\w)'这样以后，爬到的链接比你多。也就不会多一个字母出来。

账号		自动登录	找回密码
密码			立即注册