鱼C论坛

 找回密码
 立即注册
查看: 2023|回复: 1

关于正则再爬虫当中的使用

[复制链接]
发表于 2017-10-30 18:48:11 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
最近想结合专业做一个爬虫,就去找和古文相关的网站,不过在爬取书本章节内容的时候出了点问题,正则表达式匹配不上相关内容,返回一个空列表给我。还请各位帮一下忙,看看哪里出了问题?
爬虫2.jpg
爬虫1.jpg
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

 楼主| 发表于 2017-10-30 18:49:51 | 显示全部楼层
上面的附件是要爬网站的代码,我写的正则是:
reg = r'<p><span class="s3">.*?</span></div><p></p><P align=left>(.*?)</P><P></P><P>'
reg = re.compile(reg,re.S)
chapterContent = re.findall(reg,html)
不知道怎么修改
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2025-12-25 15:27

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表