鱼C论坛

 找回密码
 立即注册
查看: 2651|回复: 2

求助爬虫的一个问题

[复制链接]
发表于 2018-4-9 23:21:51 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
import urllib.request as ur
from bs4 import BeautifulSoup
import re
#抓取网页
url=r'http://www.100ppi.com/sf/day-2017-01-04.html'
header={'User-Agent':'Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.221 Safari/537.36 SE 2.X MetaSr 1.0'}
req=ur.Request(url=url,headers=header)
html=ur.urlopen(req).read().decode('utf-8')
soup=BeautifulSoup(html,'html.parser')
#取出表格
tab=soup.find_all('table')
trs=soup.find_all('tr',align='center')
trs1=str(trs)
#根据正则表达式抓取表格内容
res2=r'''<td><a  style="color:#21469f;" target="_blank">(.*)</a></td>\n<td>(.*)</td>\n<td>(.*)</td>\n<td>(.*)</td>\n<td>\n<table width="100%"><tr><td align="center" width="50%"><font color=.*>(.*)</font></td><td align="center" width="50%"><font color=.*>(.*)</font></td></tr></table>\n</td>\n<td>(.*)</td>\n<td>(.*)</td>\n<td>\n<table width="100%"><tr><td align="center" width="50%"><font color=.*>(.*)</font></td><td align="center" width="50%"><font color=.*>(.*)</font></td></tr></table>\n</td>\n</tr>, <tr align="center" bgcolor="#fafdff">'''
l=re.findall(res2,trs1,re.S|re.M)
最后结果
1.png
求问大神如何更改,我觉得是不是我正则表达式太复杂了
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

 楼主| 发表于 2018-4-10 00:22:42 | 显示全部楼层
额。已解决
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-4-12 11:45:44 | 显示全部楼层

怎么解决的?
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2025-5-14 17:33

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表