[已解决]Python爬虫问题

67889876 · 发表于 2017-5-14 10:58:46

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

# _*_ coding:utf-8 _*_
import xlwt
import re
import urllib.request

def getdate():
for i in range(1,20):
   url = 'http://furhr.com/?page={}'.format(i)#获取网页多页
   try:
      html=urllib.request.urlopen(url).read().decode('utf-8')#打开网页并获取源码
      #print(html)
      page_list=re.findall(r"<tr><td>\d+</td><td>\d+</td><td>(.*?)</td><td>852-280-162-180</td><td>(.*?)</td></tr>",html)#正则
      print(page_list)
   except Exception as e :
      print (e)
print (getdate())

为什么只打印的以下一行？
[('(香港地区)国家开发银行股份有限公司香港分行', '香港中环港景街一号国际金融中心一期三十三楼3307-15室')]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
None

最佳答案

月排行榜 / 总排行榜

gopythoner

2017-5-14 12:49:02

正则表达式错误，你这个正则里面的电话号码是只有第1页的第1条才是这个，其他都不是，当然匹配不到了
改成这样

<tr><td>\d+?</td><td>\d+?</td><td>(.*?)</td><td>.*?</td><td>(.*?)</td></tr>

复制代码

跳转到最佳答案楼层

67889876 · 发表于 2017-5-14 11:09:59

急。。有人吗？？？

67889876 · 发表于 2017-5-14 11:20:27

额是Python3，windows7

gopythoner · 发表于 2017-5-14 12:49:02

这个最佳答案由 gopythoner 给出，感谢 gopythoner 的回答。

单击隐藏图章

正则表达式错误，你这个正则里面的电话号码是只有第1页的第1条才是这个，其他都不是，当然匹配不到了
改成这样

<tr><td>\d+?</td><td>\d+?</td><td>(.*?)</td><td>.*?</td><td>(.*?)</td></tr>

复制代码

账号		自动登录	找回密码
密码			立即注册

[已解决]Python爬虫问题

马上注册，结交更多好友，享用更多功能^_^

浏览过的版块