[已解决]关于python解码错误的问题

若余相思 · 发表于 2017-3-12 15:52:14

您需要登录才可以下载或查看，没有账号？立即注册

x

这是我自己试着写的代码：

import urllib.request
import os
def open_url(url):
req = urllib.request.Request(url)
req.add_header('User-Agent', 'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.101 Safari/537.36')
response = urllib.request.urlopen(req)
html = response.read()
return html
def find_image(url):
html = open_url(url).decode('gb2312')
image_addrs = []
a = html.find('img src=')
b = html.find('.jpg', a, a + 255)
if b != -1:
image_addrs.append(html[a + 9 : b + 4])
for each in image_addrs:
print(each)
return image_addrs
def save_image(folder, image_addrs):
for each in image_addrs:
filename = each.split('/')[-1]
with open(filename, 'wb') as f:
image = open_url(each)
f.write(image)
def download_mm(folder = "OOXX", page = 9):
os.mkdir(folder)
os.chdir(folder)
num = 1
for i in range(page):
num += 1
print(num)
page_url = 'http://www.7160.com/meinv/42800/index_' + str(num) + '.html'
image_addrs = find_image(page_url)
save_image(folder, image_addrs)
if __name__ == "__main__":
download_mm()

复制代码

源网页的charset显示是gb2312编码的

请问如何解决这个报错？

最佳答案

hldh214

2017-3-12 17:57:41

复制代码

hldh214 · 发表于 2017-3-12 17:57:41

复制代码

若余相思 · 发表于 2017-3-12 18:30:25

hldh214 发表于 2017-3-12 17:57

牛逼，能解释下吗？大神！

hldh214 · 发表于 2017-3-12 19:42:43

若余相思发表于 2017-3-12 18:30
牛逼，能解释下吗？大神！

https://www.zhihu.com/question/19677619

没必要纠结为什么, 知道这几个编码之间的关系就行了, 发现出错就使用对应的扩展编码即可

账号		自动登录	找回密码
密码			立即注册