正则表达式问题，待解决

Peanut丶酱 · 发表于 2018-5-18 16:37:00

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

import requests
import re
content=requests.get('https://book.douban.com/').text
# print(content)
pattern=re.compile('<li.*?cover.*?href="(.*?)".*?title="(.*?)".*?more-meta.*?author">(.*?)</span>.*?year">(.*?)</span>.*?</li>',re.S)
# pattern=re.compile('<li.*?"cover".*?href="(.*?)".*?</li>',re.S)
results=re.findall(pattern,content)
# print(results)
# print("ok")
for result in results:
# url,name,author,date=result
# author=re.sub('\s','',author)
# date=re.sub('\s','',date)
# print(url,name,author.date)
print(result.strip())

帮帮看看这个代码，有什么问题？谢谢

为什么跑不出来东西。。？

alltolove · 发表于 2018-5-18 16:44:24

这中文编码忒难弄，好多网站都不好爬了

wwwww1wwwww · 发表于 2018-5-18 23:09:53

import requests,re
content=requests.get('https://book.douban.com/').text
# print(content)
#pattern=re.compile('<li.*?cover.*?href="(.*?)".*?title="(.*?)".*?more-meta.*?author">(.*?)</span>.*?year">(.*?)</span>.*?</li>',re.S)
pattern = re.compile(r'''<div class=".*?">
<div class="title">
<a class="" href="(.*?)"
title=".*?">(.*?)</a>.*?<div class="author">
(.*?)
</div>.*?<span class="year">
(.*?)
</span>''',re.S)
results =re.findall(pattern,content)
# print(results)
# print("ok")
for result in results:
url,name,author,date=result
author=re.sub('\s','',author)
#date=re.sub('\s','',date)
#print(url,name,author.date)
print(result)

复制代码

应该是可以跑出来吧，就是很慢很慢，正则还是不要写的这么省略吧，
新手代码，勿喷

账号		自动登录	找回密码
密码			立即注册