[已解决]爬妹子图的问题和疑问

夜深听雨 · 发表于 2017-7-25 13:37:44

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

一开始我是照着小甲鱼老师的代码敲的但后来想自己试一试如果不用urlretrieve用最原始的with open XXX as f: f.write(XX)这样的方法来保存图片但是发现系统报错了，显示的是UnicodeDecodeError: 'utf-8' codec can't decode byt，于是我搜了搜论坛里的大神回答发现可以加入gzip板块，

if response.info().get('Content-Encoding') == 'gzip':
buf = io.BytesIO(response.read())
gzip_f = gzip.GzipFile(fileobj=buf)
content = gzip_f.read()
else:
content = response.read()

复制代码

我试了以后发现没有报错但是文件夹里没有照片，瞬间懵逼
继续搜看到了小甲鱼老师的有关chardet的使用的介绍，然后跟着安装了chardet，却又出现了新的错误“ raise ValueError('Expected a bytes object, not a unicode object') ValueError: Expected a bytes object, not a unicode object”
很疑惑，有谁能用任意一种方法解决显示UnicodeDecodeError: 'utf-8' codec can't decode byt的问题吗？

import urllib.request
import re
import os
import chardet
def url_open(url):
req = urllib.request.Request(url)
req.add_header('User-Agent','Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.115 Safari/537.36')
response = urllib.request.urlopen(req)
if chardet.detect(response)['encoding'] == 'GB2312':
response.decode('GBK')
html = respose.read().decode('utf-8')
return html
def get_img(html):
p = r'<img class="BDE_Image" src="([^"]+\.jpg)"'
address = re.findall(p,html)
for each in address:
filename = each.split("/")[-1]
with open(filename,'wb') as f:
img=url_open(each)
f.write(img)
def download(folder = 'pretty'):
os.mkdir(folder)
os.chdir(folder)
url = "https://tieba.baidu.com/p/5085123197"
get_img(url_open(url))
if __name__ == '__main__':
download()

复制代码

最佳答案

月排行榜 / 总排行榜

flyblood

2017-7-27 10:29:47

html = respose.read()去掉 .decode('utf-8') 因为妹子图不需要转译的

跳转到最佳答案楼层

flyblood · 发表于 2017-7-27 10:29:47

这个最佳答案由 flyblood 给出，感谢 flyblood 的回答。

单击隐藏图章

html = respose.read()去掉 .decode('utf-8') 因为妹子图不需要转译的

账号		自动登录	找回密码
密码			立即注册