[已解决]爬房价时出现They don't have html5lib installed错误

黑色光亮 · 发表于 2019-9-18 00:43:26

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

本帖最后由黑色光亮于 2019-9-18 16:42 编辑

import requests
import bs4
def open_url(url):
headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36"}
res = requests.get(url,headers = headers)
return res
def find_data(res):
soup = bs4.BeautifulSoup(res.text,"html.parser")
content = soup.find(id = "Cnt-Main-Article-QQ")
target = content.find_all("p",style = "TEXT-INDENT:2em")
for each in target:
print(each.text)
def main():
url = "http://news.house.qq.com/a/20170702/003985.htm"
res = open_url(url)
find_data(res)
if __name__ == "__main__":
main()

复制代码

import bs4
 File "C:\Users\hp\AppData\Local\Programs\Python\Python37\lib\site-packages\bs4\__init__.py", line 30, in <module>
from .builder import builder_registry, ParserRejectedMarkup
 File "C:\Users\hp\AppData\Local\Programs\Python\Python37\lib\site-packages\bs4\builder\__init__.py", line 321
'''from . import _html5lib
register_treebuilders_from(_html5lib)
except ImportError:
# They don't have html5lib installed.
pass
try:
from . import _lxml
register_treebuilders_from(_lxml)
except ImportError:
# They don't have lxml installed.
pass










 ^
SyntaxError: EOF while scanning triple-quoted string literal

IDLE报的错误如上，百度了也没有搜到解决办法，求助呀

最佳答案

月排行榜 / 总排行榜

yuweb

2019-9-18 17:40:21

本帖最后由 yuweb 于 2019-9-18 17:43 编辑

如果还不行试试把
soup = bs4.BeautifulSoup(res.text,"html.parser")
改成
soup = bs4.BeautifulSoup(res.text,"lxml")
还有你target里面不匹配，少了个空格，应该是（下边的这个2em之前）
target = content.find_all("p",style = "TEXT-INDENT: 2em")

它的源代码有空格的
最新房价工资排名出炉！

跳转到最佳答案楼层

yuweb · 发表于 2019-9-18 11:36:36

本帖最后由 yuweb 于 2019-9-18 11:37 编辑

包没安装或者导入（html5lib 、lxml ）
# They don't have html5lib installed.
和# They don't have lxml installed.

wp231957 · 发表于 2019-9-18 12:09:14

只贴错误信息，不贴源码吗

塔利班 · 发表于 2019-9-18 12:21:20

重新安装bs4

黑色光亮 · 发表于 2019-9-18 16:45:25

wp231957 发表于 2019-9-18 12:09
只贴错误信息，不贴源码吗

不好意思，这就贴

黑色光亮 · 发表于 2019-9-18 17:02:42

yuweb 发表于 2019-9-18 11:36
包没安装或者导入（html5lib 、lxml ）
# They don't have html5lib installed.
和# They don't have lxm ...

用pip安装了lxml和html5lib呀

yuweb · 发表于 2019-9-18 17:26:51

那按4楼的兄弟说的重安下bs4，这边测试了你的代码是并没有报错

yuweb · 发表于 2019-9-18 17:40:21

本帖最后由 yuweb 于 2019-9-18 17:43 编辑

如果还不行试试把
soup = bs4.BeautifulSoup(res.text,"html.parser")
改成
soup = bs4.BeautifulSoup(res.text,"lxml")
还有你target里面不匹配，少了个空格，应该是（下边的这个2em之前）
target = content.find_all("p",style = "TEXT-INDENT: 2em")

它的源代码有空格的
最新房价工资排名出炉！

yuweb · 发表于 2019-9-18 17:51:18

import requests
import bs4
def open_url(url):
headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36"}
res = requests.get(url,headers = headers)
return res
def find_data(res):
soup = bs4.BeautifulSoup(res.text,"lxml")
content = soup.find(id = "Cnt-Main-Article-QQ")
target = content.find_all("p",style = "TEXT-INDENT: 2em")
file_name = 'house.txt'
with open(file_name,'w') as file_obj:
for each in target:
file_obj.write(each.text+'\n')
def main():
url = "http://news.house.qq.com/a/20170702/003985.htm"
res = open_url(url)
find_data(res)
if __name__ == "__main__":
main()

复制代码

黑色光亮 · 发表于 2019-9-19 23:23:36

yuweb 发表于 2019-9-18 17:51

谢谢老哥，我再试试

黑色光亮 · 发表于 2019-9-20 00:06:52

塔利班发表于 2019-9-18 12:21
重新安装bs4

谢谢，还是不大行，我重装python试试

kaohsing · 发表于 2019-9-20 07:30:10

黑色光亮发表于 2019-9-20 00:06
谢谢，还是不大行，我重装python试试

源码里冒号后面是有空格的。你的没有，所以匹配不到数据。

黑色光亮 · 发表于 2019-9-20 20:37:14

kaohsing 发表于 2019-9-20 07:30
源码里冒号后面是有空格的。你的没有，所以匹配不到数据。

好的，谢谢指出

账号		自动登录	找回密码
密码			立即注册

[已解决]爬房价时出现They don't have html5lib installed错误

马上注册，结交更多好友，享用更多功能^_^

浏览过的版块