爬虫问题 urllib.error.HTTPError: HTTP Error 403: Forbidden

天使不在线 · 发表于 2017-12-10 21:34:27

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

为什么家里user-Agent  还是会提示403
import urllib.request
import os

def get_page(url):
req=urllib.request.Request(url)
req.add_header('User-Agent','Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/61.0.3163.100 Safari/537.36')
response=urllib.request.urlopen(url)
html=response.read().decode('utf-8')
a=html.find('current-comment-page')+23
b=html.find(']',a)
print(html[a:b])
def find_imgs(url):
pass

def save_imge(file,img_addrs):
pass
def xz_mm(file="OOXX",pages=10):
os.mkdir(file)
os.chdir(file)
url="http://jandan.net/ooxx"
page_num=int(get_page(url))

for i in range(pages):
      page_num-=i
      page_url=url+'page-'+str(page_num)+'#comments'
      img_addrs = find_imgs(page_url)
      save_imge(img_addrs)
if __name__=='__main__':
xz_mm()

chakyam · 发表于 2017-12-10 21:41:31

response=urllib.request.urlopen(req)

天使不在线 · 发表于 2017-12-13 21:58:22

chakyam 发表于 2017-12-10 21:41
response=urllib.request.urlopen(req)

好像是网页爬不不好了

°蓝鲤歌蓝 · 发表于 2017-12-13 21:59:47

天使不在线发表于 2017-12-13 21:58
好像是网页爬不不好了

对，加密了。这个论坛爬这个网站的人太多了。换个网站吧。

ド゛゜范 · 发表于 2017-12-18 22:35:14

爬别的网站吧

账号		自动登录	找回密码
密码			立即注册

爬虫问题 urllib.error.HTTPError: HTTP Error 403: Forbidden

马上注册，结交更多好友，享用更多功能^_^

浏览过的版块