为什么我在浏览器上可以访问得到斗图网 但是用python执行访问却404了(我有加请求头)
本帖最后由 风尘岁月 于 2020-5-30 05:41 编辑斗图网网址:https://www.doutula.com/photo/list/
因为没权限发图片 所以我直接把字给弄下来了
表情包蜘蛛.py
1
import requests
2
import parser
3
4
base_ urL = ' https :/ /www。doutula。com/photo/list/'
headers = {'Users -Agent':'Mozilla/5.0 (Windows. NT 6.1: WOW64) AppLeWebKit/537 .36 (KHTML, like Gecko) Chrome/70.0.....
8
nesponse = requests.get(urL = base_ urL, headers. = headers)
print (response)
0
11
Run:表情包蜘蛛
D: \python . exe C:/Users/ Administrator/Desktop/开发工具/python/ python成果/爬取表情包/表情包蜘蛛. py
<Response >
Process finished with exit code 0
我后面的请求头没有全部截取 本帖最后由 风尘岁月 于 2020-5-29 21:57 编辑
{:10_243:} 因为使用的是QQ的文字截取 所以可能会有点不一样 它是图片,你用审查元素+正则表达式照着书上模仿
{:10_277:} 柿子饼同学 发表于 2020-5-30 09:51
它是图片,你用审查元素+正则表达式照着书上模仿
关键是 我的在浏览器上可以访问https://www.doutula.com/photo/list?/page=1这个网页 但是弄到python就404
无论是IDLE 还是SHELL 还是pycharm都这个样子{:10_266:} 重点是我不知道为什么我请求斗图啦这个网站就404(浏览器可以) 况且我的模块和环境没有问题
柿子饼同学 发表于 2020-5-30 09:51
它是图片,你用审查元素+正则表达式照着书上模仿
不是我不想发图片 是我没有权限发图片 我还是去重装一下pycharm和python吧 本帖最后由 xiaosi4081 于 2020-5-30 12:25 编辑
风尘岁月 发表于 2020-5-30 10:59
我还是去重装一下pycharm和python吧
headers有误 本帖最后由 suchocolate 于 2020-5-30 13:57 编辑
看上去你贴的网站没什么问题,我用这个代码可以滤出图片URL
import requests
from lxml import etree
url = 'https://www.doutula.com/photo/list/'
headers = {'user-agent': 'firefox'}
r = requests.get(url, headers=headers)
html = etree.HTML(r.text)
result = html.xpath('//img/@data-original')
print(result) suchocolate 发表于 2020-5-30 13:55
看上去你贴的网站没什么问题,我用这个代码可以滤出图片URL
谢谢 可以用了 换了个浏览器 就行了 {:10_256:}
页:
[1]