网页提取信息(内容挺简单的)
<liid="35360006"
class="list-item hidden"
data-title="玛纳斯人之失落的秘境"
data-score="0"
data-star="00"
data-release="2022"
data-duration="90分钟"
data-region="中国大陆"
data-director="布一贤"
data-actors="路宏 / 杨凯迪 / 王双宝"
data-category="nowplaying"
data-enough="False"
data-showed="True"
data-votecount="102"
data-subject="35360006"
>
像这种类型的网页怎么提取像data-title=之后的信息啊,大家看看呗,能不能写出来看看?
谢谢谢谢啦 本帖最后由 isdkz 于 2022-4-11 18:02 编辑
python:
import re
pattern = re.compile(r'data-title="([^"]*)"')
s = '''
<li
id="35360006"
class="list-item hidden"
data-title="玛纳斯人之失落的秘境"
data-score="0"
data-star="00"
data-release="2022"
data-duration="90分钟"
data-region="中国大陆"
data-director="布一贤"
data-actors="路宏 / 杨凯迪 / 王双宝"
data-category="nowplaying"
data-enough="False"
data-showed="True"
data-votecount="102"
data-subject="35360006"
>
'''
for i in pattern.findall(s):
print(i) 我刚刚试了一下,我发现如果我要提取所有的data-的内容,像下面那样写不行,有没有什么改进方法呢,谢谢了
import re
pattern = re.compile(r'data-title="([^"]*)"'
r'data-score="([^"]*)"'
r'data-duration="([^"]*)"'
r'data-region="([^"]*)"')
s = '''
<li
id="35360006"
class="list-item hidden"
data-title="玛纳斯人之失落的秘境"
data-score="0"
data-star="00"
data-release="2022"
data-duration="90分钟"
data-region="中国大陆"
data-director="布一贤"
data-actors="路宏 / 杨凯迪 / 王双宝"
data-category="nowplaying"
data-enough="False"
data-showed="True"
data-votecount="102"
data-subject="35360006"
>
'''
for i in pattern.finditer(s):
print(i.group())
页:
[1]