鱼C论坛

 找回密码
 立即注册
查看: 2900|回复: 6

爬虫正则

[复制链接]
发表于 2023-11-7 21:35:57 | 显示全部楼层
isdkz 发表于 2023-11-6 21:27
代码中存在几个问题,导致无法正确提取目标数据。

首先,正则表达式中的  部分是不正确的,因为网页源码 ...

试了下,跑不出数据。
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2023-11-7 21:38:54 | 显示全部楼层
你参考一下你的正则

  1. import re

  2. html = '''这里是包含电影top250信息的HTML代码'''

  3. pattern = r'<img src="(.*?)" alt="(.*?)" />\s*<p class="title">(.*?)</p>\s*<p class="author">(.*?)</p>\s*<p class="rating">评分:(.*?)</p>\s*<p class="likes">点赞数:(.*?)</p>'
  4. movies = re.findall(pattern, html, re.S)

  5. for movie in movies:
  6.     img_url, title, author, rating, likes = movie
  7.     print(f'图片链接:{img_url}
  8. 标题:{title}
  9. 作者:{author}
  10. 评分:{rating}
  11. 点赞数:{likes}
  12. ')
复制代码
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2025-9-29 05:10

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表