用正则来取妹子图，出现HTTP Error403？？？

不想呆在桂平 · 发表于 2018-3-1 20:18:17

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

用正则表达式来取煎蛋网的妹子图：
代码如下：
import urllib.request
import re
url = 'http://jandan.net/ooxx/page-58#comments'
req = urllib.request.Request(url)
req.add_header('User-Agent','Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36')
page = urllib.request.urlopen(url)
html = page.read().decode('utf-8')

p = r'<img src="[^"]+\.jpg"'
imglist = re.findall(p,html)
print(imglist) #此处是想测试下我的正则表达式是否真的拿到了图
for each in imglist:
prin(each)

结果出现错误：如下
提问1.png

我想这个错误应该是访问的问题，是否应该换一个header？
之前直接用urlopen是没有问题的呀

qiuyouzhi · 发表于 2018-3-1 20:25:22

我也是，估计煎蛋的有反爬虫

°蓝鲤歌蓝 · 发表于 2018-3-1 20:33:07

加密好久了。

不想呆在桂平 · 发表于 2018-3-1 21:40:51

°蓝鲤歌蓝发表于 2018-3-1 20:33
加密好久了。

我用google 的浏览器出来的header可以访问了，就是我写的正则没有办法读取到图片地址

waitforlove · 发表于 2018-3-1 21:46:38

兄弟们爬尤果网，随便爬

不想呆在桂平 · 发表于 2018-3-1 21:46:49

°蓝鲤歌蓝发表于 2018-3-1 20:33
加密好久了。

我刚开始学python ，能给个微信号吗？有好多疑惑像向你咨询一下~[em:9:]

°蓝鲤歌蓝 · 发表于 2018-3-1 21:54:09

不想呆在桂平发表于 2018-3-1 21:46
我刚开始学python ，能给个微信号吗？有好多疑惑像向你咨询一下~[em:9:]

加我好友，私聊。

不想呆在桂平 · 发表于 2018-3-1 22:01:13

°蓝鲤歌蓝发表于 2018-3-1 21:54
加我好友，私聊。

我还没有权限加好友。。你直接加我微信可以么~
18777552065

月亮下的么么哒 · 发表于 2018-3-2 12:04:16

首先手动打开浏览器访问煎蛋，若浏览器可以正确访问到数据，则排除是自身网络问题限制，之后建议构造完整的访问请求头，然后再去访问

诠小谋 · 发表于 2018-3-3 19:41:16

waitforlove 发表于 2018-3-1 21:46
兄弟们爬尤果网，随便爬

兄弟我去爬了尤果网，出现HTTP Error 405: Not Allowed怎么办

诠小谋 · 发表于 2018-3-3 20:30:35

诠小谋发表于 2018-3-3 19:41
兄弟我去爬了尤果网，出现HTTP Error 405: Not Allowed怎么办

搞定了，不能post，直接访问就可以取图了

綉氣 · 发表于 2018-3-3 20:36:31

http://bbs.fishc.com/thread-105450-1-1.html

waitforlove · 发表于 2018-3-3 21:01:30

诠小谋发表于 2018-3-3 20:30
搞定了，不能post，直接访问就可以取图了

有个别网页打不开跳过

账号		自动登录	找回密码
密码			立即注册