爬虫爬取妹子图遇到的困难

百里yu · 发表于 2016-6-12 20:25:03

shuofxz 发表于 2016-2-14 23:02
和你遇到一样的问题，应该是煎蛋网禁止爬虫了
用这个网站 www.chunmm.com是可以爬的
代码给 ...

这报错，用的是你发的代码[囧]

EvanX · 发表于 2016-6-30 20:39:16

应该是煎蛋网屏蔽了，我只能爬22张图片就挂了。鱼友有其他办法吗？

EvanX · 发表于 2016-6-30 20:48:40

已解决。原因是获取图片地址时，用了a = html.find('img src=')此查找条件，将'script>\r\n\t\t\t\t<script>\r\nvar str=new Array("1.jpg'这个图片地址也查找了出来，然而这个并不是图片地址，故而文件存储出错。所以建议a = html.find('img src="http://ww')，缩小一下查找范围。可破。

另外一个帖子的鱼油提供的方法，OK的。

PatrickTse · 发表于 2017-1-7 20:19:22

zxszx4 发表于 2015-12-23 17:10
首先你的代码能运行，但我的报错和你的不一样，我的报错信息如下

其次，你的报错我看了，是因为字符串 ...

我也是这个错误

PatrickTse · 发表于 2017-1-7 20:22:04

OSError: [Errno 22] Invalid argument: 'script>\r\n <script>\r\nvar str=new Array("1.jpg'

复制代码

这是我的报错

zxszx4 · 发表于 2017-1-12 11:12:06

PatrickTse 发表于 2017-1-7 20:22
这是我的报错

抱歉，我很久不上论坛了，那个代码也是初学的时候写的，我找不到了。后来我改进了一些，我把我之后的代码给你吧，这个问题好像是有几个正则匹配有问题。

import urllib.request
import os
def url_open(url):
req = urllib.request.Request(url)
req.add_header('User-Agent', 'Mozilla/5.0 (Windows NT 5.1; rv:43.0) Gecko/20100101 Firefox/43.0')
response = urllib.request.urlopen(req)
html = response.read()
return html
def get_page(url):
html = url_open(url).decode('utf-8')
a = html.find('current-comment-page') + 23
b = html.find(']', a)
url_pic=html[a:b]
return url_pic
def find_imgs(url):
html = url_open(url).decode('utf-8')
img_addrs = []
a = html.find('查看原图')
while a != -1:
b = html.find('"', a+27)
if b != -1:
pic_url="http:"+html[a+25:b]
c=pic_url.find(".gif")
if c != -1 :
pic_url=pic_url.replace("thumb180","large")
img_addrs.append(pic_url)
a = html.find('查看原图', b)
return img_addrs
def save_imgs(folder, img_addrs):
for each in img_addrs:
filename = each.split('/')[-1]
##print("正在保存"+filename)
with open(filename, 'wb') as f:
img = url_open(each)
f.write(img)
def download_mm(pages=10):
folder="/sdcard/Download/cs/"
os.chdir(folder)
url = 'http://jandan.net/ooxx/'
page_num = int(get_page(url))
pages=int(pages)
for i in range(pages):
page_num -= i
page_url = url + 'page-' + str(page_num) + '#comments'
img_addrs = find_imgs(page_url)
save_imgs(folder, img_addrs)
if __name__ == '__main__':
numbers=input("下载几页的呀？")
download_mm(numbers)

复制代码

因为之前在手机上运行，关于路径那块你自己修改下，有问题自己改改吧。好像100页之后的网页代码有点改变，所以只能搞的页数少一点的。

PatrickTse · 发表于 2017-1-12 11:14:21

zxszx4 发表于 2017-1-12 11:12
抱歉，我很久不上论坛了，那个代码也是初学的时候写的，我找不到了。后来我改进了一些，我把我之后的代码 ...

谢谢你哈

zxszx4 · 发表于 2017-1-12 11:16:20

PatrickTse 发表于 2017-1-12 11:14
谢谢你哈

你这24小时在线呀？

cc9200 · 发表于 2017-1-12 15:52:25

不够通用，以后遇到别的结构的网站，还得改代码

cc9200 · 发表于 2017-1-12 15:54:51

shuofxz 发表于 2016-2-14 23:02
和你遇到一样的问题，应该是煎蛋网禁止爬虫了
用这个网站 www.chunmm.com是可以爬的
代码给 ...

if b != 1:
img_addrs.append(html[a+22:b+4])

这里应该是b!=-1吧？如果有就返回索引号，没有就返回-1

cc9200 · 发表于 2017-1-12 15:56:01

slaynzane 发表于 2016-2-14 22:34
我的也是这个错误，代码检查了好几遍。

IP被封掉了，只能找代理IP，这个很难，要不是这一条，网络上蜘蛛都爬满了

cc9200 · 发表于 2017-1-12 15:56:44

starryzwh 发表于 2015-12-24 12:04
import urllib.request
import os
import random

img = url_open(each)

这一行，有可能失败，IP问题

PatrickTse · 发表于 2017-1-13 10:40:50

cc9200 发表于 2017-1-12 15:52
不够通用，以后遇到别的结构的网站，还得改代码

是的，没错

kindy · 发表于 2017-1-13 23:03:03

本帖最后由 kindy 于 2017-1-13 23:05 编辑

http://ww1.sinaimg.cn/mw600/6cca1403jw1fbhuzwvwgvj20gf0gfjrv.jpg
http://ww3.sinaimg.cn/mw600/6cca1403jw1fbkhpg08o9j20gb0fxdge.jpg
http:"//cdn.jandan.net/static/gg/niuza/"+a+"" border="0" /></a>");
</script>
<script>
var str=new Array("1.jpg
http://cdn.jandan.net/static/gg/dji5.png" border="0" height="145" width="145"></a>
<a href="//api.jandan.net/money.php?redirect_id=144" target="_blank"><img src="http://s.jandan.com/static/gg/fixate.jpg
http:http://s.jandan.com/static/gg/bling.jpg
Traceback (most recent call last):
File "D:\Program Files\python_workspace\download_mm.py", line 71, in <module>
download_mm()
File "D:\Program Files\python_workspace\download_mm.py", line 67, in download_mm
save_imgs(folder, img_addrs)
File "D:\Program Files\python_workspace\download_mm.py", line 49, in save_imgs
for each in img_addrs:
TypeError: 'NoneType' object is not iterable

复制代码

我的把这个爬出来就报错了。这问怎么解决呢？是因为煎蛋网已经加入了防爬虫的代码吗？
我在这里卡了三个小时了。没找到解决的办法。所以能不能回答一下呢？
感谢

kindy · 发表于 2017-1-13 23:06:47

kindy 发表于 2017-1-13 23:03
我的把这个爬出来就报错了。这问怎么解决呢？是因为煎蛋网已经加入了防爬虫的代码吗？
我在这里卡了 ...

就是爬到这里就报错了

http:"//cdn.jandan.net/static/gg/niuza/"+a+"" border="0" /></a>");
</script>
            <script>
var str=new Array("1.jp

复制代码

为什么呢？请教一下

账号		自动登录	找回密码
密码			立即注册