鱼C论坛

 找回密码
 立即注册
查看: 3136|回复: 2

[已解决]网页提取信息(内容挺简单的)

[复制链接]
发表于 2022-4-11 17:57:21 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
 <li
                        id="35360006"
                        class="list-item hidden"
                        data-title="玛纳斯人之失落的秘境"
                        data-score="0"
                        data-star="00"
                        data-release="2022"
                        data-duration="90分钟"
                        data-region="中国大陆"
                        data-director="布一贤"
                        data-actors="路宏 / 杨凯迪 / 王双宝"
                        data-category="nowplaying"
                        data-enough="False"
                        data-showed="True"
                        data-votecount="102"
                        data-subject="35360006"
                    >
像这种类型的网页怎么提取像data-title=之后的信息啊,大家看看呗,能不能写出来看看?
谢谢谢谢啦
最佳答案
2022-4-11 18:01:04
本帖最后由 isdkz 于 2022-4-11 18:02 编辑

python:
import re
pattern = re.compile(r'data-title="([^"]*)"')
s = '''
 <li
                        id="35360006"
                        class="list-item hidden"
                        data-title="玛纳斯人之失落的秘境"
                        data-score="0"
                        data-star="00"
                        data-release="2022"
                        data-duration="90分钟"
                        data-region="中国大陆"
                        data-director="布一贤"
                        data-actors="路宏 / 杨凯迪 / 王双宝"
                        data-category="nowplaying"
                        data-enough="False"
                        data-showed="True"
                        data-votecount="102"
                        data-subject="35360006"
                    >
'''
for i in pattern.findall(s):
    print(i)
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2022-4-11 18:01:04 | 显示全部楼层    本楼为最佳答案   
本帖最后由 isdkz 于 2022-4-11 18:02 编辑

python:
import re
pattern = re.compile(r'data-title="([^"]*)"')
s = '''
 <li
                        id="35360006"
                        class="list-item hidden"
                        data-title="玛纳斯人之失落的秘境"
                        data-score="0"
                        data-star="00"
                        data-release="2022"
                        data-duration="90分钟"
                        data-region="中国大陆"
                        data-director="布一贤"
                        data-actors="路宏 / 杨凯迪 / 王双宝"
                        data-category="nowplaying"
                        data-enough="False"
                        data-showed="True"
                        data-votecount="102"
                        data-subject="35360006"
                    >
'''
for i in pattern.findall(s):
    print(i)
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2022-4-11 18:25:29 | 显示全部楼层
我刚刚试了一下,我发现如果我要提取所有的data-的内容,像下面那样写不行,有没有什么改进方法呢,谢谢了
import re
pattern = re.compile(r'data-title="([^"]*)"'
                     r'data-score="([^"]*)"'
                     r'data-duration="([^"]*)"'
                     r'data-region="([^"]*)"')
s = '''
 <li
                        id="35360006"
                        class="list-item hidden"
                        data-title="玛纳斯人之失落的秘境"
                        data-score="0"
                        data-star="00"
                        data-release="2022"
                        data-duration="90分钟"
                        data-region="中国大陆"
                        data-director="布一贤"
                        data-actors="路宏 / 杨凯迪 / 王双宝"
                        data-category="nowplaying"
                        data-enough="False"
                        data-showed="True"
                        data-votecount="102"
                        data-subject="35360006"
                    >
'''
for i in pattern.finditer(s):
    print(i.group())
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-12-28 01:25

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表