柠檬冲冲冲 发表于 2022-4-11 17:57:21

网页提取信息(内容挺简单的)

<li
                        id="35360006"
                        class="list-item hidden"
                        data-title="玛纳斯人之失落的秘境"
                        data-score="0"
                        data-star="00"
                        data-release="2022"
                        data-duration="90分钟"
                        data-region="中国大陆"
                        data-director="布一贤"
                        data-actors="路宏 / 杨凯迪 / 王双宝"
                        data-category="nowplaying"
                        data-enough="False"
                        data-showed="True"
                        data-votecount="102"
                        data-subject="35360006"
                  >
像这种类型的网页怎么提取像data-title=之后的信息啊,大家看看呗,能不能写出来看看?
谢谢谢谢啦

isdkz 发表于 2022-4-11 18:01:04

本帖最后由 isdkz 于 2022-4-11 18:02 编辑

python:

import re
pattern = re.compile(r'data-title="([^"]*)"')
s = '''
<li
                        id="35360006"
                        class="list-item hidden"
                        data-title="玛纳斯人之失落的秘境"
                        data-score="0"
                        data-star="00"
                        data-release="2022"
                        data-duration="90分钟"
                        data-region="中国大陆"
                        data-director="布一贤"
                        data-actors="路宏 / 杨凯迪 / 王双宝"
                        data-category="nowplaying"
                        data-enough="False"
                        data-showed="True"
                        data-votecount="102"
                        data-subject="35360006"
                  >
'''
for i in pattern.findall(s):
    print(i)

柠檬冲冲冲 发表于 2022-4-11 18:25:29

我刚刚试了一下,我发现如果我要提取所有的data-的内容,像下面那样写不行,有没有什么改进方法呢,谢谢了

import re
pattern = re.compile(r'data-title="([^"]*)"'
                     r'data-score="([^"]*)"'
                     r'data-duration="([^"]*)"'
                     r'data-region="([^"]*)"')
s = '''
<li
                        id="35360006"
                        class="list-item hidden"
                        data-title="玛纳斯人之失落的秘境"
                        data-score="0"
                        data-star="00"
                        data-release="2022"
                        data-duration="90分钟"
                        data-region="中国大陆"
                        data-director="布一贤"
                        data-actors="路宏 / 杨凯迪 / 王双宝"
                        data-category="nowplaying"
                        data-enough="False"
                        data-showed="True"
                        data-votecount="102"
                        data-subject="35360006"
                  >
'''
for i in pattern.finditer(s):
    print(i.group())
页: [1]
查看完整版本: 网页提取信息(内容挺简单的)