|
马上注册,结交更多好友,享用更多功能^_^
您需要 登录 才可以下载或查看,没有账号?立即注册
x
import urllib.request as ur
from bs4 import BeautifulSoup
import re
#抓取网页
url=r'http://www.100ppi.com/sf/day-2017-01-04.html'
header={'User-Agent':'Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.221 Safari/537.36 SE 2.X MetaSr 1.0'}
req=ur.Request(url=url,headers=header)
html=ur.urlopen(req).read().decode('utf-8')
soup=BeautifulSoup(html,'html.parser')
#取出表格
tab=soup.find_all('table')
trs=soup.find_all('tr',align='center')
trs1=str(trs)
#根据正则表达式抓取表格内容
res2=r'''<td><a style="color:#21469f;" target="_blank">(.*)</a></td>\n<td>(.*)</td>\n<td>(.*)</td>\n<td>(.*)</td>\n<td>\n<table width="100%"><tr><td align="center" width="50%"><font color=.*>(.*)</font></td><td align="center" width="50%"><font color=.*>(.*)</font></td></tr></table>\n</td>\n<td>(.*)</td>\n<td>(.*)</td>\n<td>\n<table width="100%"><tr><td align="center" width="50%"><font color=.*>(.*)</font></td><td align="center" width="50%"><font color=.*>(.*)</font></td></tr></table>\n</td>\n</tr>, <tr align="center" bgcolor="#fafdff">'''
l=re.findall(res2,trs1,re.S|re.M)
最后结果
求问大神如何更改,我觉得是不是我正则表达式太复杂了 |
|