简单爬虫问题，爬取图片出现HTTP Error 403: Forbidden

qq1046764742 · 发表于 2019-10-7 21:47:12

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

import urllib.request
import urllib.error
import re

def read_url(url):

'''
req = urllib.request.Request(url)
req.add_header("User-Agent","Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36")
req.add_header("Referer","https://www.ilemiss.net")
'''

header = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.75 Safari/537.36","Referer":"https://www.ilemiss.net"}
req = urllib.request.Request(url,headers=header)
date = urllib.request.urlopen(req).read().decode("utf-8","ignore")
return date

def download_picture(url):
date = read_url(url)
last = re.findall(r'<a href="\d{4}_(\d{2}).html">尾页',date)[0]
name = re.findall(r'<a href="(\d{4})_\d{2}.html">尾页',date)[0]
fist = re.search(r'https://pic.ilemiss.net/\d{4}/1\.jpg',date).group()

for i in range(1,int(last)+1):
      scr = fist.split("1.jpg")[0]
      pic_name = name+str(i)+".jpg"
      urllib.request.urlretrieve(scr,pic_name)

for i in range(2,10):
url = "https://www.ilemiss.net/sexy/index_"+str(i)+".html"
date = read_url(url)
pic_list = re.findall(r'class="imbtxt"><p><a href="(.*?\.html)" ',date)
for each in pic_list:
      print(each)
      try:
         download_picture(each)
      except Exception as e:
         print(e)

qq1046764742 · 发表于 2019-10-7 21:47:43

求各位大神帮忙解决，谢谢

qq1046764742 · 发表于 2019-10-8 12:30:40

自己顶

彩虹七号 · 发表于 2019-10-8 16:37:07

可能被反爬了，设置代理试一试

qq1046764742 · 发表于 2019-10-9 13:19:41

代理IP吗，也不行啊

qq1046764742 · 发表于 2019-10-9 13:22:04

这个应该和代理没什么关系，因为网页爬取没有问题，只是图片无法下载

qq1046764742 · 发表于 2019-10-11 13:35:52

qq1046764742 · 发表于 2019-10-13 20:11:45

竟然无人回答，是太简单了吗

snaker · 发表于 2019-10-14 10:57:12

修改一下代码，可以爬，但是服务器有反爬

import urllib.request
import urllib.error
import re
def read_url(url):
'''
req = urllib.request.Request(url)
req.add_header("User-Agent","Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36")
req.add_header("Referer","https://www.ilemiss.net")
'''
header = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.75 Safari/537.36","Referer":"https://www.ilemiss.net"}
req = urllib.request.Request(url,headers=header)
date = urllib.request.urlopen(req).read().decode("utf-8","ignore")
return date
def download_picture(url):
date = read_url(url)
last = re.findall(r'<a href="\d{4}_(\d{2}).html">尾页',date)[0]
name = re.findall(r'<a href="(\d{4})_\d{2}.html">尾页',date)[0]
fist = re.search(r'http://img.qincns.com/\d{4}/1\.jpg',date).group() #修改
for i in range(1,int(last)+1):
scr = fist.split("1.jpg")[0]
pic_url = scr+str(i)+".jpg" #修改
pic_name = name+"-"+str(i)+".jpg" #修改
urllib.request.urlretrieve(pic_url,pic_name) #修改
for i in range(2,10):
url = "https://www.ilemiss.net/sexy/index_"+str(i)+".html"
date = read_url(url)
pic_list = re.findall(r'class="imbtxt"><p><a href="(.*?\.html)" ',date)
for each in pic_list:
print(each)
try:
download_picture(each)
except Exception as e:
print(e)

复制代码

登录/注册后可看大图

superfishme · 发表于 2020-1-9 18:04:36

解决了吗

账号		自动登录	找回密码
密码			立即注册

简单爬虫问题，爬取图片出现HTTP Error 403: Forbidden

马上注册，结交更多好友，享用更多功能^_^

浏览过的版块