[已解决]BeautifulSoup的问题

zf1013751835 · 发表于 2017-9-16 16:20:57

您需要登录才可以下载或查看，没有账号？立即注册

x

本帖最后由 zf1013751835 于 2017-9-16 16:30 编辑

复制代码

这段代码为什么没有输出去而且也没有报错

bsObj = BeautifulSoup(html, "html.parser")这个后面"html.parser”这是BeautifulSoup解析器么
求各位DALAO帮助

最佳答案

Teagle

2017-9-16 17:37:14

第一个问题：

这是你爬取页面的图片的源码
而你的正则如下：

复制代码

后面这个img*表示的是匹配img字符0-n次
而网站中img后面加的是图片的序号，仅以一个img
所以你需要在img与*中间加上.（点），

复制代码

你输出为空是因为没有匹配到东西
第二个问题：
html.parser是python的内置的解析器，用于解析html代码
执行速度适中，文档容错能力强，但是在python2.7.3或者3.2.2前的版本容错能力差
推荐使用lxml作为解析器，速度快容错能力强，需要自己安装

大佬给俺一个最佳回答可好，没有过，不知道啥样子

Teagle · 发表于 2017-9-16 17:37:14

第一个问题：

这是你爬取页面的图片的源码
而你的正则如下：

复制代码

后面这个img*表示的是匹配img字符0-n次
而网站中img后面加的是图片的序号，仅以一个img
所以你需要在img与*中间加上.（点），

复制代码

你输出为空是因为没有匹配到东西
第二个问题：
html.parser是python的内置的解析器，用于解析html代码
执行速度适中，文档容错能力强，但是在python2.7.3或者3.2.2前的版本容错能力差
推荐使用lxml作为解析器，速度快容错能力强，需要自己安装

大佬给俺一个最佳回答可好，没有过，不知道啥样子

zf1013751835 · 发表于 2017-9-17 09:37:54

Teagle 发表于 2017-9-16 17:37
第一个问题：

这是你爬取页面的图片的源码

感谢给我的帮助。灰常感谢

账号		自动登录	找回密码
密码			立即注册