[已解决]为什么我在浏览器上可以访问得到斗图网但是用python执行访问却404了(我有加请求头)

风尘岁月 · 发表于 2020-5-29 21:50:59

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

本帖最后由风尘岁月于 2020-5-30 05:41 编辑

斗图网网址:https://www.doutula.com/photo/list/
因为没权限发图片所以我直接把字给弄下来了
表情包蜘蛛.py
1
import requests
2
import parser
3
4
base_ urL = ' https :/ /www。doutula。com/photo/list/'
headers = {'Users -Agent': 'Mozilla/5.0 (Windows. NT 6.1: WOW64) AppLeWebKit/537 .36 (KHTML， like Gecko) Chrome/70.0.....
8
nesponse = requests.get(urL = base_ urL, headers. = headers)
print (response)
0
11
Run:表情包蜘蛛
D: \python . exe C:/Users/ Administrator/Desktop/开发工具/python/ python成果/爬取表情包/表情包蜘蛛. py
<Response [404]>
Process finished with exit code 0

我后面的请求头没有全部截取

最佳答案

月排行榜 / 总排行榜

suchocolate

2020-5-30 13:55:49

本帖最后由 suchocolate 于 2020-5-30 13:57 编辑

看上去你贴的网站没什么问题，我用这个代码可以滤出图片URL

import requests
from lxml import etree
url = 'https://www.doutula.com/photo/list/'
headers = {'user-agent': 'firefox'}
r = requests.get(url, headers=headers)
html = etree.HTML(r.text)
result = html.xpath('//img/@data-original')
print(result)

复制代码

跳转到最佳答案楼层

风尘岁月 · 发表于 2020-5-29 21:55:39

本帖最后由风尘岁月于 2020-5-29 21:57 编辑

风尘岁月 · 发表于 2020-5-29 22:01:54

因为使用的是QQ的文字截取所以可能会有点不一样

柿子饼同学 · 发表于 2020-5-30 09:51:46

它是图片，你用审查元素+正则表达式照着书上模仿

风尘岁月 · 发表于 2020-5-30 10:04:24

柿子饼同学发表于 2020-5-30 09:51
它是图片，你用审查元素+正则表达式照着书上模仿

关键是我的在浏览器上可以访问https://www.doutula.com/photo/list?/page=1这个网页但是弄到python就404
无论是IDLE 还是SHELL 还是pycharm都这个样子

风尘岁月 · 发表于 2020-5-30 10:05:03

重点是我不知道为什么我请求斗图啦这个网站就404（浏览器可以）

风尘岁月 · 发表于 2020-5-30 10:09:01

况且我的模块和环境没有问题

风尘岁月 · 发表于 2020-5-30 10:11:08

柿子饼同学发表于 2020-5-30 09:51
它是图片，你用审查元素+正则表达式照着书上模仿

不是我不想发图片是我没有权限发图片

风尘岁月 · 发表于 2020-5-30 10:59:22

我还是去重装一下pycharm和python吧

xiaosi4081 · 发表于 2020-5-30 12:23:48

本帖最后由 xiaosi4081 于 2020-5-30 12:25 编辑

风尘岁月发表于 2020-5-30 10:59
我还是去重装一下pycharm和python吧

headers有误

suchocolate · 发表于 2020-5-30 13:55:49

这个最佳答案由 suchocolate 给出，感谢 suchocolate 的回答。

单击隐藏图章

本帖最后由 suchocolate 于 2020-5-30 13:57 编辑

看上去你贴的网站没什么问题，我用这个代码可以滤出图片URL

import requests
from lxml import etree
url = 'https://www.doutula.com/photo/list/'
headers = {'user-agent': 'firefox'}
r = requests.get(url, headers=headers)
html = etree.HTML(r.text)
result = html.xpath('//img/@data-original')
print(result)

复制代码

风尘岁月 · 发表于 2020-5-30 15:51:15

suchocolate 发表于 2020-5-30 13:55
看上去你贴的网站没什么问题，我用这个代码可以滤出图片URL

谢谢可以用了换了个浏览器就行了

zwhe · 发表于 2020-6-4 10:50:42

账号		自动登录	找回密码
密码			立即注册

[已解决]为什么我在浏览器上可以访问得到斗图网 但是用python执行访问却404了(我有加请求头)

马上注册，结交更多好友，享用更多功能^_^

浏览过的版块

[已解决]为什么我在浏览器上可以访问得到斗图网但是用python执行访问却404了(我有加请求头)