设为首页收藏本站

切换到窄版

鱼C论坛»论坛 › 编程语言专区 › Python交流 › 爬虫正则

发新帖

查看: 2900|回复: 6

爬虫正则

发表于 2023-11-7 21:35:57 | 显示全部楼层

isdkz 发表于 2023-11-6 21:27
代码中存在几个问题，导致无法正确提取目标数据。

首先，正则表达式中的部分是不正确的，因为网页源码 ...

试了下，跑不出数据。

小甲鱼最新课程 -> https://ilovefishc.com

回复支持反对

使用道具举报

发表于 2023-11-7 21:38:54 | 显示全部楼层

你参考一下你的正则

import re
html = '''这里是包含电影top250信息的HTML代码'''
pattern = r'<img src="(.*?)" alt="(.*?)" />\s*<p class="title">(.*?)</p>\s*<p class="author">(.*?)</p>\s*<p class="rating">评分：(.*?)</p>\s*<p class="likes">点赞数：(.*?)</p>'
movies = re.findall(pattern, html, re.S)
for movie in movies:
img_url, title, author, rating, likes = movie
print(f'图片链接：{img_url}
标题：{title}
作者：{author}
评分：{rating}
点赞数：{likes}
')

复制代码

小甲鱼最新课程 -> https://ilovefishc.com

回复支持反对

使用道具举报

发新帖

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2025-9-29 05:10

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表