鱼C论坛

 找回密码
 立即注册
查看: 2793|回复: 2

urllib.error.HTTPError: HTTP Error 403: Forbidden怎么弄

[复制链接]
发表于 2018-5-9 21:07:40 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
import urllib.request
import os

def get_page(url):
    req = urllib.request.Request(url)
    req.add_header('User-Agent','Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:52.0) Gecko/20100101 Firefox/52.0')
    response = urllib.request.urlopen(url)
    html = response.read().decode('utf-8')

    a = html.find('current-comment-page') + 23
    b = html.find(']',a)

    print(html[a:b])

def  find_imgs(url):
    pass

def save_imgs(folder,img_addrs):
    pass

def download_mm(folder='ooxx',pages=30):
    os.mkdir(folder)
    os.chdir(folder)

    url = "http://jandan.net/ooxx"
    page_num = int(get_page(url))

    for i in range(pages):
        pages_num -= 1
        page_url = url + 'page-' + str(page_num) + '#comments'
        img_addrs = find_imgs(page_url)
        save_imgs(folder,img_addrs)


if __name__ == '__main__':
    download_mm()
还是出现
Traceback (most recent call last):
  File "E:\PPPPP\新建文件夹\meizitu.py", line 36, in <module>
    download_mm()
  File "E:\PPPPP\新建文件夹\meizitu.py", line 26, in download_mm
    page_num = int(get_page(url))
  File "E:\PPPPP\新建文件夹\meizitu.py", line 7, in get_page
    response = urllib.request.urlopen(url)
  File "C:\Users\123\AppData\Local\Programs\Python\Python35\lib\urllib\request.py", line 163, in urlopen
    return opener.open(url, data, timeout)
  File "C:\Users\123\AppData\Local\Programs\Python\Python35\lib\urllib\request.py", line 472, in open
    response = meth(req, response)
  File "C:\Users\123\AppData\Local\Programs\Python\Python35\lib\urllib\request.py", line 582, in http_response
    'http', request, response, code, msg, hdrs)
  File "C:\Users\123\AppData\Local\Programs\Python\Python35\lib\urllib\request.py", line 510, in error
    return self._call_chain(*args)
  File "C:\Users\123\AppData\Local\Programs\Python\Python35\lib\urllib\request.py", line 444, in _call_chain
    result = func(*args)
  File "C:\Users\123\AppData\Local\Programs\Python\Python35\lib\urllib\request.py", line 590, in http_error_default
    raise HTTPError(req.full_url, code, msg, hdrs, fp)
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

发表于 2018-5-9 22:01:17 | 显示全部楼层
403
          
Forbidden
服务器已经理解请求,但是拒绝执行它。

煎蛋网md5加密就是因为看小甲鱼老师视频课程的人太多然后爬的人太多
网站加密了

最新煎蛋网爬虫,xxoo妹子图,解密反爬虫机制,带源码
http://bbs.fishc.com/thread-107034-1-1.html
(出处: 鱼C论坛)

要么你就爬一些小网站就好了
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 1 反对 1

使用道具 举报

发表于 2018-5-11 01:09:38 | 显示全部楼层
403 是禁止访问了 ,反扒了。构造header时候把cookie也构造一个,然后代码间加上time.sleep(2),伪装成人
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2025-12-30 02:31

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表