[已解决]用parse读取html文件出现的问题

HDP1008 · 发表于 2020-7-4 10:15:56

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

我建了一个文件hello.html ：

<div>
<ul>
<li class="item-0"><a href="link1.html">first item</a></li>
<li class="item-1"><a href="link2.html">second item</a></li>
<li class="item-inactive"><a href="link3.html">third item</a></li>
<li class="item-1"><a href="link4.html">fourth item</a></li>
<li class="item-0"><a href="link5.html">fifth item</a>
</ul>
</div

复制代码

读取文件，代码：

from lxml import etree
html = etree.parse("hello.html")
result = etree.tostring(html,pretty_print = ture)
print(result)

复制代码

为什么会出现以下错误呢?

Traceback (most recent call last):
File "C:/Users/Administrator/AppData/Local/Programs/Python/Python38/爬虫学习5.py", line 2, in <module>
html = etree.parse("hello.html")
File "src\lxml\etree.pyx", line 3521, in lxml.etree.parse
File "src\lxml\parser.pxi", line 1839, in lxml.etree._parseDocument
File "src\lxml\parser.pxi", line 1865, in lxml.etree._parseDocumentFromURL
File "src\lxml\parser.pxi", line 1769, in lxml.etree._parseDocFromFile
File "src\lxml\parser.pxi", line 1163, in lxml.etree._BaseParser._parseDocFromFile
File "src\lxml\parser.pxi", line 601, in lxml.etree._ParserContext._handleParseResultDoc
File "src\lxml\parser.pxi", line 711, in lxml.etree._handleParseResult
File "src\lxml\parser.pxi", line 640, in lxml.etree._raiseParseError
File "hello.html", line 8
lxml.etree.XMLSyntaxError: Opening and ending tag mismatch: li line 7 and ul, line 8, column 11

复制代码

最佳答案

月排行榜 / 总排行榜

Twilight6

2020-7-4 10:19:01

本帖最后由 Twilight6 于 2020-7-4 10:21 编辑

起始标签和末尾标签不匹配，第07 行和 09 行分别少了 </li> 和 >

<div>

<ul>

      <li class="item-0"><a href="link1.html">first item</a></li>

      <li class="item-1"><a href="link2.html">second item</a></li>

      <li class="item-inactive"><a href="link3.html">third item</a></li>

      <li class="item-1"><a href="link4.html">fourth item</a></li>

      <li class="item-0"><a href="link5.html">fifth item</a></li>

   </ul>

</div>

复制代码

而且代码中的 ture 应该改成 True 吧？

跳转到最佳答案楼层

Twilight6 · 发表于 2020-7-4 10:19:01

这个最佳答案由 Twilight6 给出，感谢 Twilight6 的回答。

单击隐藏图章

本帖最后由 Twilight6 于 2020-7-4 10:21 编辑

起始标签和末尾标签不匹配，第07 行和 09 行分别少了 </li> 和 >

<div>

<ul>

      <li class="item-0"><a href="link1.html">first item</a></li>

      <li class="item-1"><a href="link2.html">second item</a></li>

      <li class="item-inactive"><a href="link3.html">third item</a></li>

      <li class="item-1"><a href="link4.html">fourth item</a></li>

      <li class="item-0"><a href="link5.html">fifth item</a></li>

   </ul>

</div>

复制代码

而且代码中的 ture 应该改成 True 吧？

HDP1008 · 发表于 2020-7-4 10:28:08

Twilight6 发表于 2020-7-4 10:19
起始标签和末尾标签不匹配，第07 行和 09 行分别少了和 >

可以了，原来如此

为什么最后运行代码感觉好乱，不整齐呢

b'<div>\n <ul>\n <li class="item-0"><a href="link1.html">first item</a></li>\n <li class="item-1"><a href="link2.html">second item</a></li>\n <li class="item-inactive"><a href="link3.html"><span class="bold">third item</span></a></li>\n <li class="item-1"><a href="link4.html">fourth item</a></li>\n <li class="item-0"><a href="link5.html">fifth item</a></li>\n </ul>\n </div>\n'

复制代码

还有True是规定首字母大写么

Twilight6 · 发表于 2020-7-4 10:30:40

HDP1008 发表于 2020-7-4 10:28
可以了，原来如此
为什么最后运行代码感觉好乱，不整齐呢

加上这个就好了：

.decode('utf-8')
复制代码

Python 是严格区分大小写的，而且你 ture 字母顺序也错了哈

HDP1008 · 发表于 2020-7-4 10:34:24

Twilight6 发表于 2020-7-4 10:30
加上这个就好了：

Python 是严格区分大小写的，而且你 ture 字母顺序也错了哈

噢噢
代码加在哪个位置

HDP1008 · 发表于 2020-7-4 10:37:09

HDP1008 发表于 2020-7-4 10:34
噢噢
代码加在哪个位置

可以啦，不错

HDP1008 · 发表于 2020-7-4 10:39:44

HDP1008 发表于 2020-7-4 10:37
可以啦，不错

就是不懂什么原理

qiuyouzhi · 发表于 2020-7-4 11:08:27

HDP1008 发表于 2020-7-4 10:39
就是不懂什么原理

看见字符串前面有个b吗，那代表byte类型，得用decode方法解码成正常的字符串。

HDP1008 · 发表于 2020-7-4 11:15:39

qiuyouzhi 发表于 2020-7-4 11:08
看见字符串前面有个b吗，那代表byte类型，得用decode方法解码成正常的字符串。

搜嘎

账号		自动登录	找回密码
密码			立即注册