风尘岁月 发表于 2020-5-29 21:50:59

为什么我在浏览器上可以访问得到斗图网 但是用python执行访问却404了(我有加请求头)

本帖最后由 风尘岁月 于 2020-5-30 05:41 编辑

斗图网网址:https://www.doutula.com/photo/list/
因为没权限发图片 所以我直接把字给弄下来了
表情包蜘蛛.py
1
import requests
2
import parser
3
4
base_ urL = ' https :/ /www。doutula。com/photo/list/'
headers = {'Users -Agent':'Mozilla/5.0 (Windows. NT 6.1: WOW64) AppLeWebKit/537 .36 (KHTML, like Gecko) Chrome/70.0.....
8
nesponse = requests.get(urL = base_ urL, headers. = headers)
print (response)
0
11
Run:表情包蜘蛛
D: \python . exe C:/Users/ Administrator/Desktop/开发工具/python/ python成果/爬取表情包/表情包蜘蛛. py
<Response >
Process finished with exit code 0

我后面的请求头没有全部截取

风尘岁月 发表于 2020-5-29 21:55:39

本帖最后由 风尘岁月 于 2020-5-29 21:57 编辑

{:10_243:}

风尘岁月 发表于 2020-5-29 22:01:54

因为使用的是QQ的文字截取 所以可能会有点不一样

柿子饼同学 发表于 2020-5-30 09:51:46

它是图片,你用审查元素+正则表达式照着书上模仿
{:10_277:}

风尘岁月 发表于 2020-5-30 10:04:24

柿子饼同学 发表于 2020-5-30 09:51
它是图片,你用审查元素+正则表达式照着书上模仿

关键是 我的在浏览器上可以访问https://www.doutula.com/photo/list?/page=1这个网页 但是弄到python就404
无论是IDLE 还是SHELL 还是pycharm都这个样子{:10_266:}

风尘岁月 发表于 2020-5-30 10:05:03

重点是我不知道为什么我请求斗图啦这个网站就404(浏览器可以)

风尘岁月 发表于 2020-5-30 10:09:01

况且我的模块和环境没有问题

风尘岁月 发表于 2020-5-30 10:11:08

柿子饼同学 发表于 2020-5-30 09:51
它是图片,你用审查元素+正则表达式照着书上模仿

不是我不想发图片 是我没有权限发图片

风尘岁月 发表于 2020-5-30 10:59:22

我还是去重装一下pycharm和python吧

xiaosi4081 发表于 2020-5-30 12:23:48

本帖最后由 xiaosi4081 于 2020-5-30 12:25 编辑

风尘岁月 发表于 2020-5-30 10:59
我还是去重装一下pycharm和python吧

headers有误

suchocolate 发表于 2020-5-30 13:55:49

本帖最后由 suchocolate 于 2020-5-30 13:57 编辑

看上去你贴的网站没什么问题,我用这个代码可以滤出图片URL

import requests
from lxml import etree

url = 'https://www.doutula.com/photo/list/'
headers = {'user-agent': 'firefox'}
r = requests.get(url, headers=headers)
html = etree.HTML(r.text)
result = html.xpath('//img/@data-original')
print(result)

风尘岁月 发表于 2020-5-30 15:51:15

suchocolate 发表于 2020-5-30 13:55
看上去你贴的网站没什么问题,我用这个代码可以滤出图片URL

谢谢 可以用了 换了个浏览器 就行了

zwhe 发表于 2020-6-4 10:50:42

{:10_256:}
页: [1]
查看完整版本: 为什么我在浏览器上可以访问得到斗图网 但是用python执行访问却404了(我有加请求头)