[已解决]字符报错问题

slhlde · 发表于 2018-8-27 21:02:49

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

import urllib.request
import re
import sys

headers = {"User-Agent":
"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36"}
url='https://www.nuomi.com/?cid=002540'
req=urllib.request.Request(url,headers=headers)
response=urllib.request.urlopen(req)
html=response.read().decode('utf-8')
#print(html)
listurl=re.findall(r'http:.+\.jpg',html,re.S|re.M)
#print(listurl)
i=0
for url in listurl:
f=open(str(i)+'.jpg','wb')
req=urllib.request.urlopen(url)
response=req.head().decode('utf-8')
f.write(response)
i+=1

这个程序报错：UnicodeEncodeError: 'ascii' codec can't encode characters in position 88-92: ordinal not in range(128)
试了网上的方法没用编码问题但是不知道怎么改
请会的同学指点下。谢谢了。。@凌九霄

最佳答案

月排行榜 / 总排行榜

凌九霄

2018-8-27 21:59:11

本帖最后由凌九霄于 2018-8-27 23:12 编辑

修改了下，拿到了图片。本来我想用listurl = re.sub(r'src="([^"]+jpg)"','http:\1', html)直接替换成最终图片地址，在regexbuddy里面测试是没问题的，但是用代码却没成功，这里我也有点迷惑

import urllib.request
import re
headers = {"User-Agent":
"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36"}
url = 'https://www.nuomi.com/?cid=002540'
req = urllib.request.Request(url, headers=headers)
response = urllib.request.urlopen(req)
html = response.read().decode('utf-8')
# print(html)
listurl = re.findall(r'src="([^"]+jpg)"', html)
i=0
for url in listurl:
with open(str(i)+'.jpg','wb') as f:
req=urllib.request.urlopen('http:'+url)
response=req.read()
f.write(response)
i+=1

复制代码

跳转到最佳答案楼层

ba21 · 发表于 2018-8-27 21:06:18

head(). 不是read?

塔利班 · 发表于 2018-8-27 21:08:43

.head()得是.read()吧
你要写图片不用decode(),因为是2进制写入

凌九霄 · 发表于 2018-8-27 21:21:25

感觉你的正则匹配有问题，拿不到图片地址，所以后面就更不用说了

凌九霄 · 发表于 2018-8-27 21:59:11

本帖最后由凌九霄于 2018-8-27 23:12 编辑

修改了下，拿到了图片。本来我想用listurl = re.sub(r'src="([^"]+jpg)"','http:\1', html)直接替换成最终图片地址，在regexbuddy里面测试是没问题的，但是用代码却没成功，这里我也有点迷惑

import urllib.request
import re
headers = {"User-Agent":
"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36"}
url = 'https://www.nuomi.com/?cid=002540'
req = urllib.request.Request(url, headers=headers)
response = urllib.request.urlopen(req)
html = response.read().decode('utf-8')
# print(html)
listurl = re.findall(r'src="([^"]+jpg)"', html)
i=0
for url in listurl:
with open(str(i)+'.jpg','wb') as f:
req=urllib.request.urlopen('http:'+url)
response=req.read()
f.write(response)
i+=1

复制代码

slhlde · 发表于 2018-8-28 08:38:24

凌九霄发表于 2018-8-27 21:59
修改了下，拿到了图片。本来我想用listurl = re.sub(r'src="([^"]+jpg)"','http:\1', html)直接替换成最终 ...

您好我试了你的这个代码报错：ValueError: unknown url type: '//gss0.bdstatic.com/8r1VfDn9KggZnd_b8IqT0jB-xx1xbK/static/list/img/revision/banner_21ada6c.jpg'

凌九霄 · 发表于 2018-8-28 09:48:53

slhlde 发表于 2018-8-28 08:38
您好我试了你的这个代码报错：ValueError: unknown url type: '//gss0.bdstatic.com/8r1VfDn9KggZnd_b8 ...

你是复制的我的，还是修改了你自己的？如果是修改的， req=urllib.request.urlopen('http:'+url) 这里也是要改的

账号		自动登录	找回密码
密码			立即注册

[已解决]字符报错问题

马上注册，结交更多好友，享用更多功能^_^

浏览过的版块