[已解决]大佬来看看代码出错在哪

Ayluc · 发表于 2019-4-7 13:04:57

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

想从本地html源代码中提取想要的内容，写个爬虫
            <div class="am-u-lg-6 am-u-md-12 am-u-sm-12 blog-entry-text">

                  <span><a href="" class="blog-color">article  </a></span>

                  <span>2018/10/22</span>

                  <h1><a href="">我本楚狂人，凤歌笑孔丘</a></h1>

                  <p>我们一直在坚持着，不是为了改变这个世界，而是希望不被这个世界所改变。

                  </p>

                  <p><a href="" class="blog-continue">continue reading</a></p>

            </div>
就比如这段中，想提取<p>到</p>中的文字
pattern = re.compile(r'<div.*?class="am-u-lg-6 am-u-md-12 am-u-sm-12 blog-entry-text">(.*?)</div>',re.S)
find= pattern.match('<p>')
  find要怎么写，然后怎么爬出p中的内容

最佳答案

月排行榜 / 总排行榜

凌九霄

2019-4-7 13:13:12

本帖最后由凌九霄于 2019-4-7 13:19 编辑

建议使用bs4.
上面这段findall要用正则的话：<p>([^<]+)</p> 取分组

跳转到最佳答案楼层

凌九霄 · 发表于 2019-4-7 13:13:12

本帖最后由凌九霄于 2019-4-7 13:19 编辑

建议使用bs4.
上面这段findall要用正则的话：<p>([^<]+)</p> 取分组

Ayluc · 发表于 2019-4-7 13:24:37

本帖最后由 Ayluc 于 2019-4-8 14:51 编辑

0

账号		自动登录	找回密码
密码			立即注册

[已解决]大佬来看看代码出错在哪

马上注册，结交更多好友，享用更多功能^_^

浏览过的版块