为什么这段简单的爬取网页内容运行不出结果呢？

yuanyangxin · 发表于 2017-8-15 21:58:07

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

from urllib import urlopen
import re
p=re.compile('<h3><a .*?><a .*? href="(.*?)">(.*?)</a>')
text=urlopen('https://www.python.org/jobs').read()
for url,name in p.findall(text):
print '%s (%s)' %(name,url)

复制代码

网页是可以打开的：https://www.python.org/jobs
但是运行时没有结果

秋名86 · 发表于 2017-8-16 05:01:46

本帖最后由秋名86 于 2017-8-16 05:11 编辑

如果是python3，可能报跟我一样的这个错误
https://zhidao.baidu.com/question/501477313.html

然后是str的pattern对象不能匹配bytes，我查了一下可以这么写
text=urlopen('https://www.python.org/jobs').read().decode('utf-8')

最后我匹配出来的内容为空，你可以再研究一下你的正则表达式

949898050 · 发表于 2017-8-16 09:38:13

from urllib.request import urlopen

账号		自动登录	找回密码
密码			立即注册