Python的56课最后，小甲鱼用代理爬虫图片为什么不出相关图片？

℡.xiao敏 · 发表于 2015-12-4 16:07:32

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

看完56课之后，小甲鱼在57也没解答啊。。。为什么用了代理之后，得到的图片就不对呢？

hldh214 · 发表于 2015-12-15 17:19:41

因为小甲鱼老师用的是网上共享的免费代理,别人的资源免费给你用自然也有限制,这个无关图片就是其一,本来是出现在用代理浏览的网页当中的,被爬虫爬到就是一个一个单独的文件了,不懂的欢迎继续追问.

zhang77595103 · 发表于 2015-12-20 11:43:21

hldh214 发表于 2015-12-15 17:19
因为小甲鱼老师用的是网上共享的免费代理,别人的资源免费给你用自然也有限制,这个无关图片就是其一,本来是 ...

还是不太明白，你的意思是说代理的网页中本身就有无关的图片是吗？那不是就是说用不用IP登陆同一个网站显示的图片会不一样？这是为什么

hldh214 · 发表于 2015-12-20 11:55:26

zhang77595103 发表于 2015-12-20 11:43
还是不太明白，你的意思是说代理的网页中本身就有无关的图片是吗？那不是就是说用不用IP登陆同一个网站显 ...

不是,不用代理访问网页和用代理访问网页是不一样的,后者传输的数据会经过代理服务器转发到我们客户端,而这个转发的过程中就可以设置给你看一些无关的图片,这种做法多出现在免费代理服务器上面,一般是赚广告费来维护服务器的运营

zhang77595103 · 发表于 2015-12-20 12:06:03

hldh214 发表于 2015-12-20 11:55
不是,不用代理访问网页和用代理访问网页是不一样的,后者传输的数据会经过代理服务器转发到我们客户端,而 ...

明白了。大神啊，感觉你对网络方面了解很透彻。

℡.xiao敏 · 发表于 2016-3-6 01:30:13

～风介～发表于 2015-12-6 23:55
如果是爬煎蛋网的那个例子的话 —— 煎蛋网已经禁用爬虫了~

还能禁用？

℡.xiao敏 · 发表于 2016-3-6 01:30:47

hldh214 发表于 2015-12-15 17:19
因为小甲鱼老师用的是网上共享的免费代理,别人的资源免费给你用自然也有限制,这个无关图片就是其一,本来是 ...

谢谢你大神！球加QQ

莫名其 · 发表于 2016-3-15 10:02:03

～风介～发表于 2015-12-6 23:55
如果是爬煎蛋网的那个例子的话 —— 煎蛋网已经禁用爬虫了~

剪蛋网可以爬啊，我刚刚试了

莫名其 · 发表于 2016-3-15 10:02:43

～风介～发表于 2015-12-6 23:55
如果是爬煎蛋网的那个例子的话 —— 煎蛋网已经禁用爬虫了~

剪蛋网可以爬啊，我刚刚试了

domoon · 发表于 2016-11-8 11:59:02

我爬不了

import urllib.request
import os
import random
# 煎蛋网已经禁用爬虫了，所以此程序无法运行
def url_open(url):
req = urllib.request.Request(url)
req.add_header('User-Agent', 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.143 Safari/537.36')
# iplist = ['111.197.141.57:9797','116.228.236.219:8080','120.26.51.101:8118','113.222.80.216:3128','117.90.1.88:9000']
# proxy_support = urllib.request.ProxyHandler({'http':random.choice(iplist)})
# opener = urllib.request.build_opener(proxy_support)
# urllib.request.install_opener(opener)
response = urllib.request.urlopen(url)
html = response.read()
return html
def get_page(url):
html = url_open(url).decode('utf-8')
a = html.find('current-comment-page') + 23
b = html.find(']',a)
return html[a:b]
def find_imgs(url):
html = url_open(url).decode('utf-8')
img_addrs = []
a = html.find('img src=')
while a != -1:
b = html.find('.jpg', a, a + 100)
if b != -1:
img_addrs.append(html[a+9:b+4])
print('图片地址：'+html[a+9:b+4])
else:
b = a + 9
a = html.find('img src=', b)
return img_addrs
def save_imgs(folder, img_addrs):
for each in img_addrs:
filename = each.split('/')[-1]
with open(filename, 'wb') as f:
img = url_open(each)
f.write(img)
def download_mm(folder = 'Xman', pages = 1):
os.mkdir(folder)
os.chdir(folder)
url = "http://jandan.net/ooxx/"
page_num = int(get_page(url))
for i in range(pages):
page_num -= i
page_url = url + 'page-' + str(page_num) + '#comments'
img_addrs = find_imgs(page_url)
save_imgs(folder, img_addrs)
if __name__ == '__main__':
download_mm()

复制代码

蒙特克里斯托 · 发表于 2017-3-8 14:55:45

domoon 发表于 2016-11-8 11:59
我爬不了

第40行改为img = url_open("http:"+each)

曾小妖 · 发表于 2017-3-16 17:00:45

该问题是否有解决方案？使用代理后，如何去掉代理服务器传给我们的图片？难道要手动处理？

Krant5 · 发表于 2017-4-24 15:55:14

～风介～发表于 2015-12-6 23:55
如果是爬煎蛋网的那个例子的话 —— 煎蛋网已经禁用爬虫了~

不对吧，我今天还能用呢

Krant5 · 发表于 2017-4-24 15:57:28

曾小妖发表于 2017-3-16 17:00
该问题是否有解决方案？使用代理后，如何去掉代理服务器传给我们的图片？难道要手动处理？

不要用免费代理

Krant5 · 发表于 2017-4-24 15:58:18

domoon 发表于 2016-11-8 11:59
我爬不了

把代理服务器关了，不要使用代理，另外下载图片时候要有'http:'+each

早起的达仙僧 · 发表于 2017-6-11 14:07:18

现在煎蛋网的图片地址前面没有http:了，直接是\\...

静以幽 · 发表于 2017-8-17 14:17:58

第12行是不是应该改为urlopen(req) ?
谁给解释

数字城堡 · 发表于 2018-1-31 22:15:40

我再27行下面添加测试代码，print(b)，输出的全是 -1，这是为什么，为什么找不到.jpg字符串呢

monkeyumi · 发表于 2018-8-8 17:08:16

我想请问一下关于移位的问题，比如代码中的+23 后面的a+9,b+4 这个移位是怎么得到的

账号		自动登录	找回密码
密码			立即注册

Python的56课最后，小甲鱼用代理爬虫图片为什么不出相关图片？

马上注册，结交更多好友，享用更多功能^_^

评分