鱼C论坛

 找回密码
 立即注册
查看: 2262|回复: 3

python 爬虫 老是出错,快来帮我看看

[复制链接]
发表于 2016-12-4 16:38:43 | 显示全部楼层 |阅读模式
10鱼币
本帖最后由 箜白 于 2016-12-4 16:40 编辑
  1. import urllib.request
  2. import os

  3. def get_page(url):
  4.     req = urllib.request.Request(url)
  5.     req.add_header('User-Agent', 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36')
  6.     response = urllib.request.urlopen(url)
  7.     html = response.read().decode('utf-8')

  8.     a = html.find('current-comment-page') + 23
  9.     b = html.find(']', a)
  10.     print(html[a:b])
  11.    
  12. def find_imgs(url):
  13.     pass

  14. def save_imgs(folder, img_addrs):
  15.     pass

  16. def download_mm(folder = 'OOXX', pages = 10):
  17. ##    os.mkdir(folder)
  18.     os.chdir(folder)

  19.     url = 'http://jandan.net/ooxx'
  20.     page_num = int(get_page(url))

  21.     for i in range(pages):
  22.         page_num -= i
  23.         page_url = url + 'page-' + str(page_num) + '#comments'
  24.         img_addrs = find_img(page_url)
  25.         save_imgs(folder, img_addrs)

  26. if __name__ == '__main__':
  27.     download_mm()

复制代码
QQ截图20161204163935.png

最佳答案

查看完整内容

这是证书出错,加上以下代码: import ssl ssl._create_default_https_context = ssl._create_unverified_context 望采纳
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

发表于 2016-12-4 16:38:44 | 显示全部楼层
这是证书出错,加上以下代码:
import ssl

ssl._create_default_https_context = ssl._create_unverified_context

望采纳

评分

参与人数 1荣誉 +3 鱼币 +3 贡献 +3 收起 理由
箜白 + 3 + 3 + 3 热爱鱼C^_^

查看全部评分

小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

发表于 2016-12-4 18:02:37 | 显示全部楼层
我也是刚看到这里,调了半天才找到的解决方法
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

发表于 2016-12-4 19:47:09 | 显示全部楼层
这里的response = urllib.request.urlopen(url),改为response = urllib.request.urlopen(req)

评分

参与人数 1荣誉 +2 鱼币 +2 贡献 +2 收起 理由
箜白 + 2 + 2 + 2 对, 这里也写错了

查看全部评分

小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2026-2-24 08:19

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表