|
|
马上注册,结交更多好友,享用更多功能^_^
您需要 登录 才可以下载或查看,没有账号?立即注册
x
# _*_ coding:utf-8 _*_
import xlwt
import re
import urllib.request
def getdate():
for i in range(1,20):
url = 'http://furhr.com/?page={}'.format(i)#获取网页多页
try:
html=urllib.request.urlopen(url).read().decode('utf-8')#打开网页并获取源码
#print(html)
page_list=re.findall(r"<tr><td>\d+</td><td>\d+</td><td>(.*?)</td><td>852-280-162-180</td><td>(.*?)</td></tr>",html)#正则
print(page_list)
except Exception as e :
print (e)
print (getdate())
为什么只打印的以下一行?
[('(香港地区)国家开发银行股份有限公司香港分行', '香港中环港景街一号国际金融中心一期三十三楼3307-15室')]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
None
正则表达式错误,你这个正则里面的电话号码是只有第1页的第1条才是这个,其他都不是,当然匹配不到了
改成这样 - <tr><td>\d+?</td><td>\d+?</td><td>(.*?)</td><td>.*?</td><td>(.*?)</td></tr>
复制代码
|
|