马上注册,结交更多好友,享用更多功能^_^
您需要 登录 才可以下载或查看,没有账号?立即注册
x
本帖最后由 blackantt 于 2023-5-17 09:35 编辑
数据+py 见附件
47的正则错在哪.zip
(36.24 KB, 下载次数: 0)
# data-id="1166" download="Sight
#下面这个短的正则正常ok
#a1 = re.findall('<a class="read_online".*?data-srcset="(.*?)(\.jpg|\.png).*?<div class="book_header">.*?">(.*?)</a></h2>.*?Categories:.*?(Age \d{1,2}-\d{1,2} [Yy]ears)<.*?<p class="description">\n\t\t <p>(.*?)</p>\n<table class="rw-rating-table.*?data-id="\d{4,6}"', txt, re.S) #ok
# 下面这个一旦加入 href="(https://books.org/.*?\.pdf{0,1})" download 就不对了
a1 = re.findall('<a class="read_online".*?data-srcset="(.*?)(\.jpg|\.png).*?<div class="book_header">.*?">(.*?)</a></h2>.*?Categories:.*?(Age \d{1,2}-\d{1,2} [Yy]ears)<.*?<p class="description">\n\t\t <p>(.*?)</p>\n<table class="rw-rating-table.*?data-id="\d{4,6}" href="(https://books.org/.*?\.pdf{0,1})" download', txt, re.S) #ok 带缩略图,故事名,介绍, 注意有的dpf下载名是pd,需要后期补全
print(a1, type(a1))
sorry, 好像是 data-id 的位数不够,改为 1,6 就行了。奇怪 |