鱼C论坛

 找回密码
 立即注册
查看: 1879|回复: 2

已经解决------好好的正则对这页就不行了,找不出问题。

[复制链接]
发表于 2023-5-17 08:33:56 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
本帖最后由 blackantt 于 2023-5-17 09:35 编辑

数据+py 见附件   47的正则错在哪.zip (36.24 KB, 下载次数: 0) 47.jpg
#        data-id="1166"  download="Sight

#下面这个短的正则正常ok
#a1 = re.findall('<a class="read_online".*?data-srcset="(.*?)(\.jpg|\.png).*?<div class="book_header">.*?">(.*?)</a></h2>.*?Categories:.*?(Age \d{1,2}-\d{1,2} [Yy]ears)<.*?<p class="description">\n\t\t  <p>(.*?)</p>\n<table class="rw-rating-table.*?data-id="\d{4,6}"', txt, re.S)  #ok 

#  下面这个一旦加入   href="(https://books.org/.*?\.pdf{0,1})" download   就不对了
a1 = re.findall('<a class="read_online".*?data-srcset="(.*?)(\.jpg|\.png).*?<div class="book_header">.*?">(.*?)</a></h2>.*?Categories:.*?(Age \d{1,2}-\d{1,2} [Yy]ears)<.*?<p class="description">\n\t\t  <p>(.*?)</p>\n<table class="rw-rating-table.*?data-id="\d{4,6}" href="(https://books.org/.*?\.pdf{0,1})" download', txt, re.S)  #ok 带缩略图,故事名,介绍, 注意有的dpf下载名是pd,需要后期补全



print(a1, type(a1))


sorry, 好像是 data-id 的位数不够,改为 1,6 就行了。奇怪
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2023-5-17 08:34:20 | 显示全部楼层
这段代码中的正则表达式有一个问题,即 href="(https://books.org/.*?\.pdf{0,1})" download 中的 download 应该被移到 <a> 标签的后面,变成 <a href="(https://books.org/.*?\.pdf{0,1})" download> 。因为 download 是一个HTML5属性,而不是一个正则表达式匹配的内容。所以,正确的正则表达式应该是:
a1 = re.findall('<a class="read_online".*?data-srcset="(.*?)(\.jpg|\.png).*?<div class="book_header">.*?">(.*?)</a></h2>.*?Categories:.*?(Age \d{1,2}-\d{1,2} [Yy]ears)<.*?<p class="description">\n\t\t  <p>(.*?)</p>\n<table class="rw-rating-table.*?data-id="\d{4,6}".*?href="(https://books.org/.*?\.pdf{0,1})"', txt, re.S)
这样就可以正确地匹配带有 href 和 download 属性的 <a> 标签了。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2023-5-17 08:37:59 | 显示全部楼层
isdkz 发表于 2023-5-17 08:34
这段代码中的正则表达式有一个问题,即 href="(https://books.org/.*?\.pdf{0,1})" download 中的 download ...

好像还是不行。
有54个页面,前46个没问题。 到第47页,就执行不了
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-9-23 05:20

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表