鱼C论坛

 找回密码
 立即注册
查看: 826|回复: 6

[已解决]求助如何获取本地html文件里面的全部文本

[复制链接]
发表于 2019-6-19 22:17:03 | 显示全部楼层 |阅读模式
15鱼币
本帖最后由 xue11 于 2019-6-19 22:20 编辑

不支持上传html文件,故截下图。
个人想获取本地html文件里面的全部文本,试着用beautifulsoup解析再提取发现不行。例如截图中360首页文件,其他本地html文件均可;请教各位如何获取全部文本,非常感谢
最佳答案
2019-6-19 22:17:04
temp1.png

我也来蹭悬赏了
1234.JPG

最佳答案

查看完整内容

我也来蹭悬赏了
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2019-6-19 22:17:04 | 显示全部楼层    本楼为最佳答案   
temp1.png

我也来蹭悬赏了
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2019-6-19 22:25:09 | 显示全部楼层
html 本就是 文本文件。
直接操用txt来操作就是了
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

 楼主| 发表于 2019-6-19 22:49:48 | 显示全部楼层
ba21 发表于 2019-6-19 22:25
html 本就是 文本文件。
直接操用txt来操作就是了

初学者,能否举个例子,谢谢
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2019-6-20 00:22:07 | 显示全部楼层
xue11 发表于 2019-6-19 22:49
初学者,能否举个例子,谢谢

既然是初学者就先学着,就算我给你举例读写文本文件,其它的你也不见得会。
    with open(r"pass.txt","r") as f: # .txt 改 .html
        for each_line in f:
                print(each_line)
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2019-6-21 17:05:07 | 显示全部楼层
先读取文本 然后匹配出来自己要的东西
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2019-6-21 18:14:47 | 显示全部楼层
1.先用文件open读成html字符串
2.再用Beautifulsoup将读取的html字符串转化成可解析的Beautifulsoup对象
3.进行解析,获取需要的数据
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-4-20 20:02

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表