鱼C论坛

 找回密码
 立即注册
查看: 2457|回复: 11

[已解决]抓取妹子图的header怎么会是语法错误

[复制链接]
发表于 2017-4-20 16:25:37 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
  1. import urllib.request
  2. import os

  3. def url_open(url):
  4.         req = urllib.request.Request(url)
  5.         req.add_header("User-Agent", "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/57.0.2987.133 Safari/537.36")
  6.         response = urllib.request.urlopen(url)
  7.         html = response.read()

  8.         return html

  9. #获取网页地址
  10. def get_page(url):
  11.         html = url_open(url).decode("utf-8")
  12.         a = html.find("current-comment-page") + 23
  13.         b = html.find("]", a)

  14.         return html[a:b]

  15. #图片地址循环
  16. def find_imgs(url):
  17.         html = url_open(url).decode("utf-8")
  18.         img_addrs = []

  19.         a = html.find("img src=")

  20.         while a != -1:
  21.                 b = html.find(".jpg", a, a+255)
  22.                 if b != -1:
  23.                         img_addrs.append(html[a+9:b+4])
  24.                 else:
  25.                         b = a + 9

  26.                 a = html.find("img src=", b)
  27.         return img_addrs




  28. def save_imgs(folder, img_addrs):
  29.         for each in img_addrs:
  30.                 filename = each.split("/")[-1]
  31.                 with open(filename, "wb") as f:
  32.                         img = url_open(each)
  33.                         f.write(img)

  34. def download_mm(folder = "OOXX", pages=10):
  35.         os.mkdir(folder)
  36.         os.chdir(folder)

  37.         url = "http://jandan.net/ooxx/"
  38.         page_num = int(get_page(url))

  39.         for i in range(pages):
  40.                 page_num -= i
  41.                 page_url = url + "page" + str(page_num) + "#comments"
  42.                 img_addrs = find_imgs(page_url)
  43.                 save_imgs(folder, img_addrs)


  44. if __name__ == "__main__":
  45.         download_mm()
复制代码

header那里显示语法错误是什么情况
最佳答案
2017-4-20 17:48:14
本帖最后由 gopythoner 于 2017-4-20 17:50 编辑

看到这句了么?
ValueError: unknown url type: '//wx4.sinaimg.cn/mw600/0062c4iGgy1fet7b5v8vwj30p50zk400.jpg'
你的图片地址是无效的,当然就会报错了
这个图片前面应该加上"http:"
这个就是在你获取了图片链接之后不要直接拿去用,应该先加上"http:"之后再拿去请求
看懂报错的提示很重要啊
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

 楼主| 发表于 2017-4-20 16:58:50 | 显示全部楼层
现在有变成
  1. response = urllib.request.urlopen(url)
复制代码
这一行出错了
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2017-4-20 17:00:59 | 显示全部楼层
  1. Traceback (most recent call last):
  2.   File "D:\spider\download_mm.py", line 60, in <module>
  3.     download_mm()
  4.   File "D:\spider\download_mm.py", line 56, in download_mm
  5.     save_imgs(folder, img_addrs)
  6.   File "D:\spider\download_mm.py", line 42, in save_imgs
  7.     img = url_open(each)
  8.   File "D:\spider\download_mm.py", line 5, in url_open
  9.     req = urllib.request.Request(url)
  10.   File "C:\Users\Administrator\AppData\Local\Programs\Python\Python36\lib\urllib\request.py", line 329, in __init__
  11.     self.full_url = url
  12.   File "C:\Users\Administrator\AppData\Local\Programs\Python\Python36\lib\urllib\request.py", line 355, in full_url
  13.     self._parse()
  14.   File "C:\Users\Administrator\AppData\Local\Programs\Python\Python36\lib\urllib\request.py", line 384, in _parse
  15.     raise ValueError("unknown url type: %r" % self.full_url)
  16. ValueError: unknown url type: '//wx4.sinaimg.cn/mw600/0062c4iGgy1fet7b5v8vwj30p50zk400.jpg'
  17. >>>
复制代码
错误代码
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2017-4-20 17:01:31 | 显示全部楼层
把你的错误也发上来最好截图,用你的代码是有另一个错误,headers并没有问题
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2017-4-20 17:09:17 | 显示全部楼层
lumber2388779 发表于 2017-4-20 17:01
把你的错误也发上来最好截图,用你的代码是有另一个错误,headers并没有问题
  1. import urllib.request
  2. import os

  3. def url_open(url):
  4.         req = urllib.request.Request(url)
  5.         req.add_header("User-Agent", "Mozilla/5.0 (Windows NT 6.1; WOW64; rv:52.0) Gecko/20100101 Firefox/52.0")
  6.         response = urllib.request.urlopen(url)
  7.         html = response.read()
  8.         return html

  9. #获取网页地址
  10. def get_page(url):
  11.         html = url_open(url).decode("utf-8")
  12.         a = html.find("current-comment-page") + 23
  13.         b = html.find("]", a)
  14.         return html[a:b]

  15. #图片地址循环
  16. def find_imgs(url):
  17.         html = url_open(url).decode("utf-8")
  18.         img_addrs = []
  19.         a = html.find("img src=")

  20.         while a != -1:
  21.                 b = html.find(".jpg", a, a+255)
  22.                 if b != -1:
  23.                         img_addrs.append(html[a+9:b+4])
  24.                 else:
  25.                         b = a + 9

  26.                 a = html.find("img src=", b)
  27.         return img_addrs


  28. def save_imgs(folder, img_addrs):
  29.         for each in img_addrs:
  30.                 filename = each.split("/")[-1]
  31.                 with open(filename, "wb") as f:
  32.                         img = url_open(each)
  33.                         f.write(img)

  34. def download_mm(folder = "OOXX", pages=10):
  35.         os.mkdir(folder)
  36.         os.chdir(folder)
  37.         url = "http://jandan.net/ooxx/"
  38.         page_num = int(get_page(url))

  39.         for i in range(pages):
  40.                 page_num -= i
  41.                 page_url = url + "page" + str(page_num) + "#comments"
  42.                 img_addrs = find_imgs(page_url)
  43.                 save_imgs(folder, img_addrs)

  44. if __name__ == "__main__":
  45.         download_mm()
复制代码

谢谢大神
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2017-4-20 17:10:30 | 显示全部楼层
lumber2388779 发表于 2017-4-20 17:01
把你的错误也发上来最好截图,用你的代码是有另一个错误,headers并没有问题
  1. Traceback (most recent call last):
  2.   File "D:\spider\download_mm.py", line 55, in <module>
  3.     download_mm()
  4.   File "D:\spider\download_mm.py", line 52, in download_mm
  5.     save_imgs(folder, img_addrs)
  6.   File "D:\spider\download_mm.py", line 39, in save_imgs
  7.     img = url_open(each)
  8.   File "D:\spider\download_mm.py", line 5, in url_open
  9.     req = urllib.request.Request(url)
  10.   File "C:\Users\Administrator\AppData\Local\Programs\Python\Python36\lib\urllib\request.py", line 329, in __init__
  11.     self.full_url = url
  12.   File "C:\Users\Administrator\AppData\Local\Programs\Python\Python36\lib\urllib\request.py", line 355, in full_url
  13.     self._parse()
  14.   File "C:\Users\Administrator\AppData\Local\Programs\Python\Python36\lib\urllib\request.py", line 384, in _parse
  15.     raise ValueError("unknown url type: %r" % self.full_url)
  16. ValueError: unknown url type: '//ww4.sinaimg.cn/mw600/a82b014bjw1exriw96jdqj20m80m8ae7.jpg'
复制代码

这是错误提示
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2017-4-20 17:20:48 | 显示全部楼层
lumber2388779 发表于 2017-4-20 17:01
把你的错误也发上来最好截图,用你的代码是有另一个错误,headers并没有问题

大神  帮忙看一下吧
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2017-4-20 17:46:47 | 显示全部楼层
网站有问题
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2017-4-20 17:48:14 | 显示全部楼层    本楼为最佳答案   
本帖最后由 gopythoner 于 2017-4-20 17:50 编辑

看到这句了么?
ValueError: unknown url type: '//wx4.sinaimg.cn/mw600/0062c4iGgy1fet7b5v8vwj30p50zk400.jpg'
你的图片地址是无效的,当然就会报错了
这个图片前面应该加上"http:"
这个就是在你获取了图片链接之后不要直接拿去用,应该先加上"http:"之后再拿去请求
看懂报错的提示很重要啊
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2017-4-20 17:48:47 | 显示全部楼层

你不觉得你获取到的网址少了http吗,在获取路径后自己要在路径前边加上http:
不然肯定报错,自己看下错误提示很容易看出来的 错误提示第16行
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2017-4-21 04:01:41 | 显示全部楼层
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2017-4-21 12:37:42 | 显示全部楼层

网站地址出现了问题,前面加一个http:
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2026-2-27 01:42

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表