[已解决]为什么爬取的不是想要的

YUANxin · 发表于 2018-11-9 01:01:50

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

import requests
import re
import os
#访问网页
def url_open(url):
#伪装成浏览器
header = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/44.0.2403.157 Safari/537.36'}
response = requests.get(url,headers = header)
return response

#打印网页请求函数
def HTTPS(response,A):
if A==1:
      print(response.status_code)  # 打印状态码
if A==2:
      print(response.url)       # 打印请求url
if A==3:
      print(response.headers)    # 打印头信息
if A==4:
      print(response.cookies)    # 打印cookie信息
if A==5:
      print(response.text)  #以文本形式打印网页源码
if A==6:
      print(response.content) #以字节流形式打印
if A==7:
      print(response.encoding)#打印编码格式
#输入网址调用函数
n=1
n+=1

c="http://m.mm131.com/xinggan/4505_%d.html"%n
http=url_open(c)
print(HTTPS(http,5))

ouputs=http.text
q=r'alt=.*\)'#图片名字正则
p = r'src=".*?.jpg'#图片正则
img = re.search(p,ouputs).group()#匹配到的字符串
imgs=img[5:]#图片地址html
name = re.search(q,ouputs).group()#匹配到的字符串
names = img[5:]#图片名字
jpg=url_open(imgs).content

with open('/storage/emulated/0/Python/miui.jpg', 'wb') as f:
f.write(jpg)
f.close()

最佳答案

月排行榜 / 总排行榜

wongyusing

2018-11-9 16:48:34

不出意外的话是缺了refer参数

跳转到最佳答案楼层

wongyusing · 发表于 2018-11-9 09:47:58

请求头不够，简单来说403错误

wongyusing · 发表于 2018-11-9 16:48:34

这个最佳答案由 wongyusing 给出，感谢 wongyusing 的回答。

单击隐藏图章

不出意外的话是缺了refer参数

账号		自动登录	找回密码
密码			立即注册