鱼C论坛

 找回密码
 立即注册
查看: 893|回复: 1

求助正则表达式匹配问题

[复制链接]
发表于 2018-12-28 14:29:58 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
当前正在学习正则表达式的匹配方式,有点吃不透的地方,请各位指教。

第一个小目标是将某论坛的分页号储存为listurl变量,这部分已经写好并正常抓取,但是在获取帖子名时候出现问题,本意是要获取帖子名,存为title变量,实际写出来是这样的:
  1. title = '<a href="\w+/\w+/\w+/\w+\.html" id="a_ajax_\d+">\[\d+.\d+\] ([^\x00-\xff])+\[\d+P]'
复制代码
这部分的源码为:<a href="htm_data/15/1812/1863554.html" id="a_ajax_1863554">[12.27] 小甲鱼,让变成改变世界[26P]</a>

在测试器中可以匹配成功,可是实际跑起来是报错的。oserror提示语法错误,那么就是创建@title时候出错。
print(title)以后,发现title完全没有抓取到,@title依然是代码,以下是shell报错信息:

OSError: [WinError 123] 文件名、目录名或卷标语法不正确。: '<a href="\\w+/\\w+/\\w+/\\w+\\.html" id="a_ajax_\\d+">\\[\\d+.\\d+\\] ([^\x00-&#255;])+\\[\\d+P]'

why?!我的中文部分难道不应该是被匹配好了吗?这个“[^\x00-&#255;]”又是什么鬼?

在此,怀疑自己对正则表达式的理解出现问题,肯定各位大神指点。谢谢!
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

 楼主| 发表于 2018-12-28 19:05:49 | 显示全部楼层
俺这个求助似乎下去了,俺来顶一下。
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2026-1-12 16:36

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表