[已解决]关于图片爬取问题请大佬指点一下

竹茶 · 发表于 2019-4-17 16:29:08

您需要登录才可以下载或查看，没有账号？立即注册

x

import urllib.request
import os
import re
import random
def urlopen(url):
req = urllib.request.Request(url)
req.add_header('User-Agent','Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.26 Safari/537.36 Core/1.63.6823.400 QQBrowser/10.3.3117.400')
proxies = ['124.152.32.140:53281', '163.125.157.53:8888', '163.125.157.49:8888']
proxy = random.choice(proxies)
proxy_support = urllib.request.ProxyHandler({'http':proxy})
opener = urllib.request.build_opener(proxy_support)
urllib.request.install_opener(opener)
html = urllib.request.urlopen(req)
html = html.read()
return html
def zhuyao(html):
p = r'<img class="lazy" src="(https://i.meizitu.net/thumbs/\d\d\d\d/\d\d/.+?.jpg)"'
tupian = re.findall(p,html)
for each in tupian:
wjm = each.split('/')[-1]
tp = urlopen(tupian)
with open(wjm,'wb') as f:
f.write(tp)
if __name__=='__main__':
url = 'https://www.mzitu.com/xinggan/'
os.mkdir('妹子图片')
os.chdir('妹子图片')
zhuyao(urlopen(url))

复制代码

程序运行起来没有报错但是新建的文件夹什么也没有就是说没有爬取到图片但是我直接贴了一个图片链接也爬取不了这是怎么回事啊请各位指点一下谢谢

最佳答案

Stubborn

2019-4-17 19:57:38

对了，妹子图有反爬，下载的图片，请求头需要加一点东西。好就没有扒了了。https://fishc.com.cn/forum.php?m ... =1467&fromop=my 最下面有妹子图爬虫，不过不是urllib+正则，用的requests +xapth

竹茶 · 发表于 2019-4-17 16:30:26

html = html.decode('utf-8')
这条再加到 zhuya（）函数下面

竹茶 · 发表于 2019-4-17 17:10:40

没人吗

cwhsmile · 发表于 2019-4-17 18:05:45

urllib这个库怎么使用我都忘了，建议使用第三方requests库，简单好用，哪个urllib库太复杂

竹茶 · 发表于 2019-4-17 18:41:24

cwhsmile 发表于 2019-4-17 18:05
urllib这个库怎么使用我都忘了，建议使用第三方requests库，简单好用，哪个urllib库太复杂

那是啥我现在还在学习正则表示不晓得啥是库。。。

Stubborn · 发表于 2019-4-17 19:57:38

对了，妹子图有反爬，下载的图片，请求头需要加一点东西。好就没有扒了了。https://fishc.com.cn/forum.php?m ... =1467&fromop=my 最下面有妹子图爬虫，不过不是urllib+正则，用的requests +xapth

_Konglong · 发表于 2019-5-8 19:57:09

18408238295 · 发表于 2021-10-28 09:38:13

账号		自动登录	找回密码
密码			立即注册


8 鱼币	回复本帖可获得 1 鱼币奖励! 每人限 1 次(中奖概率 50%)

[已解决]关于图片爬取问题 请大佬指点一下