鱼C论坛

 找回密码
 立即注册
查看: 1044|回复: 7

Python爬虫正则表达式相关问题

[复制链接]
发表于 2019-4-3 16:43:38 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
请问一下各位大佬,我想在html字符串中,用re.search检索相关字符串(如图)。我尝试了一些表达式,但都不能完整得检索出来,请问问题出在哪了。
正则表达式.png
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

发表于 2019-4-3 17:00:36 | 显示全部楼层
虽然正则写的很生 但已经匹配到了啊
re.search只搜1个就停了 返回的是个re.match对象
要看匹配到的内容就用re.search.group()

这个情况看起来是要把这类的url都找出来 至少也用re.findall吧
更推荐使用bs4处理网页源码
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2019-4-3 17:02:06 | 显示全部楼层
XPATH  比较靠谱
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2019-4-3 17:38:24 From FishC Mobile | 显示全部楼层
ietar 发表于 2019-4-3 17:00
虽然正则写的很生 但已经匹配到了啊
re.search只搜1个就停了 返回的是个re.match对象
要看匹配到的内容就 ...

第一次写正则表达式,不太熟练,我的疑问是,确实匹配到了,但是为什么没有匹配完全呢?
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2019-4-3 17:39:32 From FishC Mobile | 显示全部楼层
ietar 发表于 2019-4-3 17:00
虽然正则写的很生 但已经匹配到了啊
re.search只搜1个就停了 返回的是个re.match对象
要看匹配到的内容就 ...

为什么匹配到p25就结束了呢?后面的字符为啥没了呢
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2019-4-3 17:40:50 From FishC Mobile | 显示全部楼层
Pax 发表于 2019-4-3 17:02
XPATH  比较靠谱

emmm,我第一次学习这方面知识,不太懂你说的内容,能帮我解释一下为什么匹配到p25就不匹配了呢?
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2019-4-3 18:04:26 | 显示全部楼层
上文本内容  不要上图片 图片仅做补充说明就好了
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2019-4-3 19:06:58 | 显示全部楼层
Ru1 发表于 2019-4-3 17:39
为什么匹配到p25就结束了呢?后面的字符为啥没了呢

nop.png

我没重现你那个问题
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2026-1-15 00:57

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表