鱼C论坛

 找回密码
 立即注册
查看: 616|回复: 2

[已解决]大佬来看看代码出错在哪

[复制链接]
发表于 2019-4-7 13:04:57 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
想从本地html源代码中提取想要的内容,写个爬虫
                <div class="am-u-lg-6 am-u-md-12 am-u-sm-12 blog-entry-text">

                    <span><a href="" class="blog-color">article &nbsp;</a></span>

                    <span>2018/10/22</span>

                    <h1><a href="">我本楚狂人,凤歌笑孔丘</a></h1>

                    <p>我们一直在坚持着,不是为了改变这个世界,而是希望不被这个世界所改变。

                    </p>

                    <p><a href="" class="blog-continue">continue reading</a></p>

                </div>
就比如这段中,想提取<p>到</p>中的文字
pattern = re.compile(r'<div.*?class="am-u-lg-6 am-u-md-12 am-u-sm-12 blog-entry-text">(.*?)</div>',re.S)
find= pattern.match('<p>')
  find要怎么写,然后怎么爬出p中的内容
最佳答案
2019-4-7 13:13:12
本帖最后由 凌九霄 于 2019-4-7 13:19 编辑

建议使用bs4.
上面这段findall要用正则的话:<p>([^<]+)</p>  取分组
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2019-4-7 13:13:12 | 显示全部楼层    本楼为最佳答案   
本帖最后由 凌九霄 于 2019-4-7 13:19 编辑

建议使用bs4.
上面这段findall要用正则的话:<p>([^<]+)</p>  取分组
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2019-4-7 13:24:37 | 显示全部楼层
本帖最后由 Ayluc 于 2019-4-8 14:51 编辑

0
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-5-18 04:43

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表