|
|
马上注册,结交更多好友,享用更多功能^_^
您需要 登录 才可以下载或查看,没有账号?立即注册
x
当前正在学习正则表达式的匹配方式,有点吃不透的地方,请各位指教。
第一个小目标是将某论坛的分页号储存为listurl变量,这部分已经写好并正常抓取,但是在获取帖子名时候出现问题,本意是要获取帖子名,存为title变量,实际写出来是这样的:- title = '<a href="\w+/\w+/\w+/\w+\.html" id="a_ajax_\d+">\[\d+.\d+\] ([^\x00-\xff])+\[\d+P]'
复制代码 这部分的源码为:<a href="htm_data/15/1812/1863554.html" id="a_ajax_1863554">[12.27] 小甲鱼,让变成改变世界[26P]</a>
在测试器中可以匹配成功,可是实际跑起来是报错的。oserror提示语法错误,那么就是创建@title时候出错。
print(title)以后,发现title完全没有抓取到,@title依然是代码,以下是shell报错信息:
OSError: [WinError 123] 文件名、目录名或卷标语法不正确。: '<a href="\\w+/\\w+/\\w+/\\w+\\.html" id="a_ajax_\\d+">\\[\\d+.\\d+\\] ([^\x00-ÿ])+\\[\\d+P]'
why?!我的中文部分难道不应该是被匹配好了吗?这个“[^\x00-ÿ]”又是什么鬼?
在此,怀疑自己对正则表达式的理解出现问题,肯定各位大神指点。谢谢!
|
|