鱼C论坛

 找回密码
 立即注册
查看: 1174|回复: 12

[已解决]为什么我在浏览器上可以访问得到斗图网 但是用python执行访问却404了(我有加请求头)

[复制链接]
发表于 2020-5-29 21:50:59 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
本帖最后由 风尘岁月 于 2020-5-30 05:41 编辑

斗图网网址:https://www.doutula.com/photo/list/
因为没权限发图片 所以我直接把字给弄下来了
表情包蜘蛛.py
1
import requests
2
import parser
3
4
base_ urL = ' https :/ /www。doutula。com/photo/list/'
headers = {'Users -Agent':  'Mozilla/5.0 (Windows. NT 6.1: WOW64) AppLeWebKit/537 .36 (KHTML, like Gecko) Chrome/70.0.....
8
nesponse = requests.get(urL = base_ urL, headers. = headers)
print (response)
0
11
Run:表情包蜘蛛
D: \python . exe C:/Users/ Administrator/Desktop/开发工具/python/ python成果/爬取表情包/表情包蜘蛛. py
<Response [404]>
Process finished with exit code 0

我后面的请求头没有全部截取
最佳答案
2020-5-30 13:55:49
本帖最后由 suchocolate 于 2020-5-30 13:57 编辑

看上去你贴的网站没什么问题,我用这个代码可以滤出图片URL
import requests
from lxml import etree

url = 'https://www.doutula.com/photo/list/'
headers = {'user-agent': 'firefox'}
r = requests.get(url, headers=headers)
html = etree.HTML(r.text)
result = html.xpath('//img/@data-original')
print(result)
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

 楼主| 发表于 2020-5-29 21:55:39 | 显示全部楼层
本帖最后由 风尘岁月 于 2020-5-29 21:57 编辑

想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

 楼主| 发表于 2020-5-29 22:01:54 | 显示全部楼层
因为使用的是QQ的文字截取 所以可能会有点不一样
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-5-30 09:51:46 | 显示全部楼层
它是图片,你用审查元素+正则表达式照着书上模仿
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-5-30 10:04:24 | 显示全部楼层
柿子饼同学 发表于 2020-5-30 09:51
它是图片,你用审查元素+正则表达式照着书上模仿

关键是 我的在浏览器上可以访问https://www.doutula.com/photo/list?/page=1这个网页 但是弄到python就404
无论是IDLE 还是SHELL 还是pycharm都这个样子
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-5-30 10:05:03 | 显示全部楼层
重点是我不知道为什么我请求斗图啦这个网站就404(浏览器可以)
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-5-30 10:09:01 | 显示全部楼层
况且我的模块和环境没有问题
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-5-30 10:11:08 | 显示全部楼层
柿子饼同学 发表于 2020-5-30 09:51
它是图片,你用审查元素+正则表达式照着书上模仿

不是我不想发图片 是我没有权限发图片
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-5-30 10:59:22 | 显示全部楼层
我还是去重装一下pycharm和python吧
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-5-30 12:23:48 From FishC Mobile | 显示全部楼层
本帖最后由 xiaosi4081 于 2020-5-30 12:25 编辑
风尘岁月 发表于 2020-5-30 10:59
我还是去重装一下pycharm和python吧


headers有误
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-5-30 13:55:49 | 显示全部楼层    本楼为最佳答案   
本帖最后由 suchocolate 于 2020-5-30 13:57 编辑

看上去你贴的网站没什么问题,我用这个代码可以滤出图片URL
import requests
from lxml import etree

url = 'https://www.doutula.com/photo/list/'
headers = {'user-agent': 'firefox'}
r = requests.get(url, headers=headers)
html = etree.HTML(r.text)
result = html.xpath('//img/@data-original')
print(result)
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-5-30 15:51:15 | 显示全部楼层
suchocolate 发表于 2020-5-30 13:55
看上去你贴的网站没什么问题,我用这个代码可以滤出图片URL

谢谢 可以用了 换了个浏览器 就行了
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-6-4 10:50:42 | 显示全部楼层
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2025-1-21 00:57

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表