网页提取信息（内容挺简单的）,萌新交流区,萌新训练营,鱼C论坛

柠檬冲冲冲 发表于 2022-4-11 17:57:21

网页提取信息（内容挺简单的）

<li
                     id="35360006"
                     class="list-item hidden"
                     data-title="玛纳斯人之失落的秘境"
                     data-score="0"
                     data-star="00"
                     data-release="2022"
                     data-duration="90分钟"
                     data-region="中国大陆"
                     data-director="布一贤"
                     data-actors="路宏 / 杨凯迪 / 王双宝"
                     data-category="nowplaying"
                     data-enough="False"
                     data-showed="True"
                     data-votecount="102"
                     data-subject="35360006"
               >
像这种类型的网页怎么提取像data-title=之后的信息啊，大家看看呗，能不能写出来看看？
谢谢谢谢啦

isdkz 发表于 2022-4-11 18:01:04

本帖最后由 isdkz 于 2022-4-11 18:02 编辑

python:

import re
pattern = re.compile(r'data-title="([^"]*)"')
s = '''
<li
                     id="35360006"
                     class="list-item hidden"
                     data-title="玛纳斯人之失落的秘境"
                     data-score="0"
                     data-star="00"
                     data-release="2022"
                     data-duration="90分钟"
                     data-region="中国大陆"
                     data-director="布一贤"
                     data-actors="路宏 / 杨凯迪 / 王双宝"
                     data-category="nowplaying"
                     data-enough="False"
                     data-showed="True"
                     data-votecount="102"
                     data-subject="35360006"
               >
'''
for i in pattern.findall(s):
print(i)

柠檬冲冲冲 发表于 2022-4-11 18:25:29

我刚刚试了一下，我发现如果我要提取所有的data-的内容，像下面那样写不行，有没有什么改进方法呢，谢谢了

import re
pattern = re.compile(r'data-title="([^"]*)"'
                  r'data-score="([^"]*)"'
                  r'data-duration="([^"]*)"'
                  r'data-region="([^"]*)"')
s = '''
<li
                     id="35360006"
                     class="list-item hidden"
                     data-title="玛纳斯人之失落的秘境"
                     data-score="0"
                     data-star="00"
                     data-release="2022"
                     data-duration="90分钟"
                     data-region="中国大陆"
                     data-director="布一贤"
                     data-actors="路宏 / 杨凯迪 / 王双宝"
                     data-category="nowplaying"
                     data-enough="False"
                     data-showed="True"
                     data-votecount="102"
                     data-subject="35360006"
               >
'''
for i in pattern.finditer(s):
print(i.group())

页: [1]

鱼C论坛's Archiver

网页提取信息（内容挺简单的）