鱼C论坛

 找回密码
 立即注册
查看: 3491|回复: 2

[已解决]网页提取信息(内容挺简单的)

[复制链接]
发表于 2022-4-11 17:57:21 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
  1. <li
  2.                         id="35360006"
  3.                         class="list-item hidden"
  4.                         data-title="玛纳斯人之失落的秘境"
  5.                         data-score="0"
  6.                         data-star="00"
  7.                         data-release="2022"
  8.                         data-duration="90分钟"
  9.                         data-region="中国大陆"
  10.                         data-director="布一贤"
  11.                         data-actors="路宏 / 杨凯迪 / 王双宝"
  12.                         data-category="nowplaying"
  13.                         data-enough="False"
  14.                         data-showed="True"
  15.                         data-votecount="102"
  16.                         data-subject="35360006"
  17.                     >
复制代码

像这种类型的网页怎么提取像data-title=之后的信息啊,大家看看呗,能不能写出来看看?
谢谢谢谢啦
最佳答案
2022-4-11 18:01:04
本帖最后由 isdkz 于 2022-4-11 18:02 编辑

python:

  1. import re
  2. pattern = re.compile(r'data-title="([^"]*)"')
  3. s = '''
  4. <li
  5.                         id="35360006"
  6.                         class="list-item hidden"
  7.                         data-title="玛纳斯人之失落的秘境"
  8.                         data-score="0"
  9.                         data-star="00"
  10.                         data-release="2022"
  11.                         data-duration="90分钟"
  12.                         data-region="中国大陆"
  13.                         data-director="布一贤"
  14.                         data-actors="路宏 / 杨凯迪 / 王双宝"
  15.                         data-category="nowplaying"
  16.                         data-enough="False"
  17.                         data-showed="True"
  18.                         data-votecount="102"
  19.                         data-subject="35360006"
  20.                     >
  21. '''
  22. for i in pattern.findall(s):
  23.     print(i)
复制代码
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

发表于 2022-4-11 18:01:04 | 显示全部楼层    本楼为最佳答案   
本帖最后由 isdkz 于 2022-4-11 18:02 编辑

python:

  1. import re
  2. pattern = re.compile(r'data-title="([^"]*)"')
  3. s = '''
  4. <li
  5.                         id="35360006"
  6.                         class="list-item hidden"
  7.                         data-title="玛纳斯人之失落的秘境"
  8.                         data-score="0"
  9.                         data-star="00"
  10.                         data-release="2022"
  11.                         data-duration="90分钟"
  12.                         data-region="中国大陆"
  13.                         data-director="布一贤"
  14.                         data-actors="路宏 / 杨凯迪 / 王双宝"
  15.                         data-category="nowplaying"
  16.                         data-enough="False"
  17.                         data-showed="True"
  18.                         data-votecount="102"
  19.                         data-subject="35360006"
  20.                     >
  21. '''
  22. for i in pattern.findall(s):
  23.     print(i)
复制代码
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2022-4-11 18:25:29 | 显示全部楼层
我刚刚试了一下,我发现如果我要提取所有的data-的内容,像下面那样写不行,有没有什么改进方法呢,谢谢了

  1. import re
  2. pattern = re.compile(r'data-title="([^"]*)"'
  3.                      r'data-score="([^"]*)"'
  4.                      r'data-duration="([^"]*)"'
  5.                      r'data-region="([^"]*)"')
  6. s = '''
  7. <li
  8.                         id="35360006"
  9.                         class="list-item hidden"
  10.                         data-title="玛纳斯人之失落的秘境"
  11.                         data-score="0"
  12.                         data-star="00"
  13.                         data-release="2022"
  14.                         data-duration="90分钟"
  15.                         data-region="中国大陆"
  16.                         data-director="布一贤"
  17.                         data-actors="路宏 / 杨凯迪 / 王双宝"
  18.                         data-category="nowplaying"
  19.                         data-enough="False"
  20.                         data-showed="True"
  21.                         data-votecount="102"
  22.                         data-subject="35360006"
  23.                     >
  24. '''
  25. for i in pattern.finditer(s):
  26.     print(i.group())
复制代码
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2025-4-24 09:13

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表