[已解决]在小甲鱼Python视频中的56论一只爬虫的修养中，我运行后只能下载十几张图片，然后....

蜡笔星子 · 发表于 2015-12-28 10:20:23

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

然后就报出这个错误：OSError: [Errno 22] Invalid argument: 'script>\r\n\t\t\t\t<script>\r\nvar str=new Array("1.jpg'
不知这是什么错误，望知道的鱼友给我剖析剖析:loveliness:代码如下：

import urllib.request
import os
def url_open(url):
req = urllib.request.Request(url)
req.add_header('User-Agent','Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.101 Safari/537.36')
#req.add_header('User-Agent','Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.101 Safari/537.36')
response = urllib.request.urlopen(req)
html = response.read() #这里不加decode('utf-8')是因为下面要保存图片，而图片是以二进制的形式保存的。
return html
def get_page(url):
html = url_open(url).decode('utf-8')
a = html.find('current-comment-page') + 23
b = html.find(']',a)
return html[a:b]
def find_imgs(url):
html = url_open(url).decode('utf-8')
img_addrs = []
a = html.find('img src=')
while a != -1:
b = html.find('.jpg',a,a + 255)
if b != -1:
img_addrs.append(html[a + 9:b + 4])
else:
b= a + 9
a = html.find('img src=',b)
return img_addrs
def save_imgs(folder,img_addrs):
for each in img_addrs:
filename = each.split('/')[-1]
with open(filename,'wb') as f:
img = url_open(each)
f.write(img)
def download_mm(folder='OOXX',pages=5):
os.mkdir(folder)
os.chdir(folder)
url = "http://jandan.net/ooxx/"
page_num = int(get_page(url))
for i in range(pages):
page_num -= i
page_url = url + 'page-' + str(page_num) + '#comments'
img_addrs = find_imgs(page_url)
save_imgs(folder,img_addrs)
if __name__ == '__main__':
download_mm()

复制代码

最佳答案

月排行榜 / 总排行榜

kebikobe

2016-1-5 15:23:33

已解决。原因是获取图片地址时，用了a = html.find('img src=')此查找条件，将'script>\r\n\t\t\t\t<script>\r\nvar str=new Array("1.jpg'这个图片地址也查找了出来，然而这个并不是图片地址，故而文件存储出错。所以建议a = html.find('img src="http://ww')，缩小一下查找范围。可破。

跳转到最佳答案楼层

hldh214 · 发表于 2015-12-28 11:35:06

本帖最后由 hldh214 于 2015-12-28 11:36 编辑

数一数你爬下来的图片就发现, 你只爬了一页的图片, 脚本就出错了.
再看一看错误提示是在写图片的时候传入的参数有误, 于是在写图片前面加上调试print语句打印每次写入的文件名, 发现: 换页之后的文件名是这样的

script>

<script>

var str=new Array("1.jpg

推测是换页get_page函数写的不对~

另, 在设置保存图片的路径的时候推荐这样写, 防止重复创建文件夹报错

if not os.path.exists(folder):
os.mkdir(folder)
os.chdir(folder)

复制代码

kebikobe · 发表于 2016-1-5 15:10:39

我也是一模一样的错误啊

，不会是煎蛋网搞的吧。。。

kebikobe · 发表于 2016-1-5 15:23:33

这个最佳答案由 kebikobe 给出，感谢 kebikobe 的回答。

单击隐藏图章

已解决。原因是获取图片地址时，用了a = html.find('img src=')此查找条件，将'script>\r\n\t\t\t\t<script>\r\nvar str=new Array("1.jpg'这个图片地址也查找了出来，然而这个并不是图片地址，故而文件存储出错。所以建议a = html.find('img src="http://ww')，缩小一下查找范围。可破。

EvanX · 发表于 2016-6-30 20:48:03

kebikobe 发表于 2016-1-5 15:23
已解决。原因是获取图片地址时，用了a = html.find('img src=')此查找条件，将'script>\r\n\t\t\t\t\r\nvar ...

正确！！！太感谢了。你的方法是OK的。

艳子艳子艳子 · 发表于 2016-9-3 22:58:40

kebikobe 发表于 2016-1-5 15:23
已解决。原因是获取图片地址时，用了a = html.find('img src=')此查找条件，将'script>\r\n\t\t\t\t\r\nvar ...

也遇到了同样的问题，感觉你说的是对的呢，但是将a = html.find('img src=')改成了a = html.find('img src="http://ww')后发现效果一样，还是现实会检索到'script>\r\n\t\t\t\t<script>\r\nvar str=new Array("1.jpg'这一段，怀疑是http前面的“的问题，请问有没有小伙伴遇到呢？

爽蜀黍 · 发表于 2016-10-28 00:24:13

还是用正则好些。。。

悲伤诉说微笑 · 发表于 2016-11-16 15:39:38

艳子艳子艳子发表于 2016-9-3 22:58
也遇到了同样的问题，感觉你说的是对的呢，但是将a = html.find('img src=')改成了a = html.find('img sr ...

我也是这样的问题，按楼上的改了之后还是不行

louis677 · 发表于 2017-3-15 12:34:04

你把b的搜索长度改小一点就会好的，b=html.find('.jpg"',a,a+128)

皎皎白驹丶 · 发表于 2017-3-18 11:03:47

louis677 发表于 2017-3-15 12:34
你把b的搜索长度改小一点就会好的，b=html.find('.jpg"',a,a+128)

完美解决问题谢谢啦

haozgt123 · 发表于 2019-1-21 17:16:41

现在已经爬取不下来了,虽然可以生成OOXX文件夹,但里面没有任何图片.

账号		自动登录	找回密码
密码			立即注册

[已解决]在小甲鱼Python视频中的56论一只爬虫的修养中，我运行后只能下载十几张图片，然后....

马上注册，结交更多好友，享用更多功能^_^

评分

浏览过的版块