鱼C论坛

 找回密码
 立即注册
查看: 1575|回复: 10

关于403错误

[复制链接]
发表于 2018-9-2 22:45:01 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
萌新最近想试着爬 p站 里的图片,就先用了小甲鱼视频中最开始下载猫的图的简单爬虫试试。但是出现了403错误无法解决,换User-Agent的方法已经用过了,仍然无法使用,之前怀疑是没登陆所以不能爬,但我看了一些别人写的爬虫貌似也没有登陆??另外我试着同样要登陆的人人网也没有任何问题,,,附上图片,,求解啊啊 啊啊,被这403折腾死了
LN3}@OFBYW{T6J]3M]H5@S0.png
58@(A`~SXNS@BXJDB)9)%HJ.png
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

发表于 2018-9-2 22:45:44 | 显示全部楼层
上代码
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2018-9-2 22:48:30 | 显示全部楼层

import urllib.request


url = 'https://i.pximg.net/img-master/img/2018/08/29/00/15/36/70434228_p0_master1200.jpg'

req = urllib.request.Request(url)
req.add_header('User-Agent','Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36')
response = urllib.request.urlopen(req)
img = response.read()


with open('1.jpg','wb')as f:
    f.write(img)
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-9-2 22:50:46 | 显示全部楼层
直接在浏览器中输入地址 https://i.pximg.net/img-master/i ... 8_p0_master1200.jpg 也是403
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2018-9-2 22:54:16 | 显示全部楼层
冬雪雪冬 发表于 2018-9-2 22:50
直接在浏览器中输入地址 https://i.pximg.net/img-master/img/2018/08/29/00/15/36/70434228_p0_master1200 ...

我可以进去,,,哦,p站被软墙了。我改了host才可以上去的,,可能是这个原因
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2018-9-2 22:57:12 | 显示全部楼层
冬雪雪冬 发表于 2018-9-2 22:50
直接在浏览器中输入地址 https://i.pximg.net/img-master/img/2018/08/29/00/15/36/70434228_p0_master1200 ...

这种被软墙的网站能爬吗,大佬
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-9-2 23:00:42 From FishC Mobile | 显示全部楼层
绊axs 发表于 2018-9-2 22:57
这种被软墙的网站能爬吗,大佬

用代理应该能爬
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-9-3 05:32:57 From FishC Mobile | 显示全部楼层
绊axs 发表于 2018-9-2 22:57
这种被软墙的网站能爬吗,大佬

P站不登录好像爬不了吧,我就好奇楼主这么看懂审查元素里面图片的标签。
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2018-9-3 12:37:50 | 显示全部楼层
拉了盏灯 发表于 2018-9-3 05:32
P站不登录好像爬不了吧,我就好奇楼主这么看懂审查元素里面图片的标签。

一开始我也觉得,尝试了一些方法后就不觉得了。。。图片标签是啥?链接地址?
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-9-4 13:29:45 | 显示全部楼层
那个网站上能显示图片,就能爬取
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2018-9-4 22:36:37 | 显示全部楼层
waitforlove 发表于 2018-9-4 13:29
那个网站上能显示图片,就能爬取

呃,这个情况有点特殊??我不清楚python上网原理,,这个网站被墙了,我电脑改了hosts游览器才能打开,别人的电脑和python打开就是403错误,在苦恼该怎么解决,vpn也不是很想用。。。。
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2026-1-1 23:01

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表