[已解决]抓取妹子图的header怎么会是语法错误

刘英超 · 发表于 2017-4-20 16:25:37

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

import urllib.request
import os
def url_open(url):
req = urllib.request.Request(url)
req.add_header("User-Agent", "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/57.0.2987.133 Safari/537.36")
response = urllib.request.urlopen(url)
html = response.read()
return html
#获取网页地址
def get_page(url):
html = url_open(url).decode("utf-8")
a = html.find("current-comment-page") + 23
b = html.find("]", a)
return html[a:b]
#图片地址循环
def find_imgs(url):
html = url_open(url).decode("utf-8")
img_addrs = []
a = html.find("img src=")
while a != -1:
b = html.find(".jpg", a, a+255)
if b != -1:
img_addrs.append(html[a+9:b+4])
else:
b = a + 9
a = html.find("img src=", b)
return img_addrs
def save_imgs(folder, img_addrs):
for each in img_addrs:
filename = each.split("/")[-1]
with open(filename, "wb") as f:
img = url_open(each)
f.write(img)
def download_mm(folder = "OOXX", pages=10):
os.mkdir(folder)
os.chdir(folder)
url = "http://jandan.net/ooxx/"
page_num = int(get_page(url))
for i in range(pages):
page_num -= i
page_url = url + "page" + str(page_num) + "#comments"
img_addrs = find_imgs(page_url)
save_imgs(folder, img_addrs)
if __name__ == "__main__":
download_mm()

复制代码

header那里显示语法错误是什么情况

最佳答案

月排行榜 / 总排行榜

gopythoner

2017-4-20 17:48:14

本帖最后由 gopythoner 于 2017-4-20 17:50 编辑

看到这句了么？
ValueError: unknown url type: '//wx4.sinaimg.cn/mw600/0062c4iGgy1fet7b5v8vwj30p50zk400.jpg'
你的图片地址是无效的，当然就会报错了
这个图片前面应该加上"http:"
这个就是在你获取了图片链接之后不要直接拿去用，应该先加上"http:"之后再拿去请求
看懂报错的提示很重要啊

跳转到最佳答案楼层

刘英超 · 发表于 2017-4-20 16:58:50

现在有变成

response = urllib.request.urlopen(url)

复制代码

这一行出错了

刘英超 · 发表于 2017-4-20 17:00:59

Traceback (most recent call last):
File "D:\spider\download_mm.py", line 60, in <module>
download_mm()
File "D:\spider\download_mm.py", line 56, in download_mm
save_imgs(folder, img_addrs)
File "D:\spider\download_mm.py", line 42, in save_imgs
img = url_open(each)
File "D:\spider\download_mm.py", line 5, in url_open
req = urllib.request.Request(url)
File "C:\Users\Administrator\AppData\Local\Programs\Python\Python36\lib\urllib\request.py", line 329, in __init__
self.full_url = url
File "C:\Users\Administrator\AppData\Local\Programs\Python\Python36\lib\urllib\request.py", line 355, in full_url
self._parse()
File "C:\Users\Administrator\AppData\Local\Programs\Python\Python36\lib\urllib\request.py", line 384, in _parse
raise ValueError("unknown url type: %r" % self.full_url)
ValueError: unknown url type: '//wx4.sinaimg.cn/mw600/0062c4iGgy1fet7b5v8vwj30p50zk400.jpg'
>>>

复制代码

错误代码

lumber2388779 · 发表于 2017-4-20 17:01:31

把你的错误也发上来最好截图，用你的代码是有另一个错误，headers并没有问题

刘英超 · 发表于 2017-4-20 17:09:17

lumber2388779 发表于 2017-4-20 17:01
把你的错误也发上来最好截图，用你的代码是有另一个错误，headers并没有问题

import urllib.request
import os
def url_open(url):
req = urllib.request.Request(url)
req.add_header("User-Agent", "Mozilla/5.0 (Windows NT 6.1; WOW64; rv:52.0) Gecko/20100101 Firefox/52.0")
response = urllib.request.urlopen(url)
html = response.read()
return html
#获取网页地址
def get_page(url):
html = url_open(url).decode("utf-8")
a = html.find("current-comment-page") + 23
b = html.find("]", a)
return html[a:b]
#图片地址循环
def find_imgs(url):
html = url_open(url).decode("utf-8")
img_addrs = []
a = html.find("img src=")
while a != -1:
b = html.find(".jpg", a, a+255)
if b != -1:
img_addrs.append(html[a+9:b+4])
else:
b = a + 9
a = html.find("img src=", b)
return img_addrs
def save_imgs(folder, img_addrs):
for each in img_addrs:
filename = each.split("/")[-1]
with open(filename, "wb") as f:
img = url_open(each)
f.write(img)
def download_mm(folder = "OOXX", pages=10):
os.mkdir(folder)
os.chdir(folder)
url = "http://jandan.net/ooxx/"
page_num = int(get_page(url))
for i in range(pages):
page_num -= i
page_url = url + "page" + str(page_num) + "#comments"
img_addrs = find_imgs(page_url)
save_imgs(folder, img_addrs)
if __name__ == "__main__":
download_mm()

复制代码

谢谢大神

刘英超 · 发表于 2017-4-20 17:10:30

lumber2388779 发表于 2017-4-20 17:01
把你的错误也发上来最好截图，用你的代码是有另一个错误，headers并没有问题

Traceback (most recent call last):
File "D:\spider\download_mm.py", line 55, in <module>
download_mm()
File "D:\spider\download_mm.py", line 52, in download_mm
save_imgs(folder, img_addrs)
File "D:\spider\download_mm.py", line 39, in save_imgs
img = url_open(each)
File "D:\spider\download_mm.py", line 5, in url_open
req = urllib.request.Request(url)
File "C:\Users\Administrator\AppData\Local\Programs\Python\Python36\lib\urllib\request.py", line 329, in __init__
self.full_url = url
File "C:\Users\Administrator\AppData\Local\Programs\Python\Python36\lib\urllib\request.py", line 355, in full_url
self._parse()
File "C:\Users\Administrator\AppData\Local\Programs\Python\Python36\lib\urllib\request.py", line 384, in _parse
raise ValueError("unknown url type: %r" % self.full_url)
ValueError: unknown url type: '//ww4.sinaimg.cn/mw600/a82b014bjw1exriw96jdqj20m80m8ae7.jpg'

复制代码

这是错误提示

刘英超 · 发表于 2017-4-20 17:20:48

lumber2388779 发表于 2017-4-20 17:01
把你的错误也发上来最好截图，用你的代码是有另一个错误，headers并没有问题

大神帮忙看一下吧

新手·ing · 发表于 2017-4-20 17:46:47

网站有问题

gopythoner · 发表于 2017-4-20 17:48:14

这个最佳答案由 gopythoner 给出，感谢 gopythoner 的回答。

单击隐藏图章

本帖最后由 gopythoner 于 2017-4-20 17:50 编辑

看到这句了么？
ValueError: unknown url type: '//wx4.sinaimg.cn/mw600/0062c4iGgy1fet7b5v8vwj30p50zk400.jpg'
你的图片地址是无效的，当然就会报错了
这个图片前面应该加上"http:"
这个就是在你获取了图片链接之后不要直接拿去用，应该先加上"http:"之后再拿去请求
看懂报错的提示很重要啊

lumber2388779 · 发表于 2017-4-20 17:48:47

刘英超发表于 2017-4-20 17:10
这是错误提示

你不觉得你获取到的网址少了http吗，在获取路径后自己要在路径前边加上http:
不然肯定报错，自己看下错误提示很容易看出来的错误提示第16行

SixPy · 发表于 2017-4-21 04:01:41

http://bbs.fishc.com/forum.php?mod=redirect&goto=findpost&ptid=85547&pid=2860577

白色帕森 · 发表于 2017-4-21 12:37:42

刘英超发表于 2017-4-20 17:00
错误代码

网站地址出现了问题，前面加一个http:

账号		自动登录	找回密码
密码			立即注册