鱼C论坛

 找回密码
 立即注册
查看: 1356|回复: 12

[已解决]爬房价时出现They don't have html5lib installed错误

[复制链接]
发表于 2019-9-18 00:43:26 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
本帖最后由 黑色光亮 于 2019-9-18 16:42 编辑
  1. import requests
  2. import bs4

  3. def open_url(url):
  4.     headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36"}
  5.     res = requests.get(url,headers = headers)

  6.     return res

  7. def find_data(res):
  8.     soup = bs4.BeautifulSoup(res.text,"html.parser")
  9.     content = soup.find(id = "Cnt-Main-Article-QQ")
  10.     target = content.find_all("p",style = "TEXT-INDENT:2em")
  11.    
  12.     for each in target:
  13.         print(each.text)

  14. def main():
  15.     url = "http://news.house.qq.com/a/20170702/003985.htm"
  16.     res = open_url(url)
  17.     find_data(res)


  18. if __name__ == "__main__":
  19.     main()
复制代码


    import bs4
  File "C:\Users\hp\AppData\Local\Programs\Python\Python37\lib\site-packages\bs4\__init__.py", line 30, in <module>
    from .builder import builder_registry, ParserRejectedMarkup
  File "C:\Users\hp\AppData\Local\Programs\Python\Python37\lib\site-packages\bs4\builder\__init__.py", line 321
    '''from . import _html5lib
    register_treebuilders_from(_html5lib)
except ImportError:
    # They don't have html5lib installed.
    pass
try:
    from . import _lxml
    register_treebuilders_from(_lxml)
except ImportError:
    # They don't have lxml installed.
    pass
                              
                                         
                  
                                         
        
   
                       
                                    
                  
                                    
       ^
SyntaxError: EOF while scanning triple-quoted string literal

IDLE报的错误如上,百度了也没有搜到解决办法,求助呀
最佳答案
2019-9-18 17:40:21
本帖最后由 yuweb 于 2019-9-18 17:43 编辑

如果还不行试试把
soup = bs4.BeautifulSoup(res.text,"html.parser")
改成
soup = bs4.BeautifulSoup(res.text,"lxml")
还有你target里面不匹配,少了个空格,应该是 (下边的这个2em之前)
target = content.find_all("p",style = "TEXT-INDENT: 2em")

它的源代码有空格的
<P style="TEXT-INDENT: 2em" class=text><STRONG>最新房价工资排名出炉!</STRONG></P>
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2019-9-18 11:36:36 | 显示全部楼层
本帖最后由 yuweb 于 2019-9-18 11:37 编辑

包没安装或者导入(html5lib 、lxml )
# They don't have html5lib installed.
和# They don't have lxml installed.
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2019-9-18 12:09:14 From FishC Mobile | 显示全部楼层
只贴错误信息,不贴源码吗
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2019-9-18 12:21:20 | 显示全部楼层
重新安装bs4
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2019-9-18 16:45:25 | 显示全部楼层
wp231957 发表于 2019-9-18 12:09
只贴错误信息,不贴源码吗

不好意思,这就贴
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2019-9-18 17:02:42 | 显示全部楼层
yuweb 发表于 2019-9-18 11:36
包没安装或者导入(html5lib 、lxml )
# They don't have html5lib installed.
和# They don't have lxm ...

用pip安装了lxml和html5lib呀
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2019-9-18 17:26:51 | 显示全部楼层
那按4楼的兄弟说的重安下bs4,这边测试了你的代码是并没有报错
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2019-9-18 17:40:21 | 显示全部楼层    本楼为最佳答案   
本帖最后由 yuweb 于 2019-9-18 17:43 编辑

如果还不行试试把
soup = bs4.BeautifulSoup(res.text,"html.parser")
改成
soup = bs4.BeautifulSoup(res.text,"lxml")
还有你target里面不匹配,少了个空格,应该是 (下边的这个2em之前)
target = content.find_all("p",style = "TEXT-INDENT: 2em")

它的源代码有空格的
<P style="TEXT-INDENT: 2em" class=text><STRONG>最新房价工资排名出炉!</STRONG></P>
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2019-9-18 17:51:18 | 显示全部楼层
  1. import requests
  2. import bs4

  3. def open_url(url):
  4.     headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36"}
  5.     res = requests.get(url,headers = headers)

  6.     return res

  7. def find_data(res):
  8.     soup = bs4.BeautifulSoup(res.text,"lxml")
  9.     content = soup.find(id = "Cnt-Main-Article-QQ")
  10.     target = content.find_all("p",style = "TEXT-INDENT: 2em")

  11.     file_name = 'house.txt'
  12.     with open(file_name,'w') as file_obj:
  13.         for each in target:
  14.             file_obj.write(each.text+'\n')

  15. def main():
  16.     url = "http://news.house.qq.com/a/20170702/003985.htm"
  17.     res = open_url(url)
  18.     find_data(res)


  19. if __name__ == "__main__":
  20.     main()
复制代码
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2019-9-19 23:23:36 | 显示全部楼层

谢谢老哥,我再试试
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2019-9-20 00:06:52 | 显示全部楼层

谢谢,还是不大行,我重装python试试
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2019-9-20 07:30:10 | 显示全部楼层
黑色光亮 发表于 2019-9-20 00:06
谢谢,还是不大行,我重装python试试

1.png

源码里冒号后面是有空格的。你的没有,所以匹配不到数据。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2019-9-20 20:37:14 | 显示全部楼层
kaohsing 发表于 2019-9-20 07:30
源码里冒号后面是有空格的。你的没有,所以匹配不到数据。

好的,谢谢指出
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-5-18 16:48

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表