[已解决]跪求大神帮忙！下载百度百科的内容后无法正确编码输出

象的失踪 · 发表于 2019-8-30 20:00:09

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

我首先打开了《网络爬虫》这一页

复制了url
然后最开始的代码是：
import urllib.request
url='https://baike.baidu.com/item/网络爬虫'
response=urllib.request.urlopen(url).read()
content=response.decode('utf-8')
print(content)
出现的错误为：

后面查资料后发现，print函数本身对于utf-8里面的一些编码无法正确打印出来

所以我修改了一下代码，想把内容先打印在txt里面。
修改后的代码为：
import urllib.request
url='https://baike.baidu.com/item/网络爬虫'
response=urllib.request.urlopen(url).read()
content=response.decode('utf-8')
with open('D://baike.txt','w',encoding='utf-8') as f:
f.write(content)
但还是出现了一样的错误

我的问题就是：我一开始用utf-8解码了网页，然后在文件里面，规定也是用‘utf-8’，为什么还会出现错误呢？而且为什么错误是ascii无法encode呢？
这个问题我总是遇到，希望有大神能指导一下！

最佳答案

月排行榜 / 总排行榜

傻纸

2019-8-31 00:01:28

本帖最后由傻纸于 2019-8-31 00:04 编辑

这个不是读取后网页编码的问题，而是你的url上带有中文“网络爬虫”，这个中文不能编码为ascii,使用urllib.parse解析一下

import urllib.request
import urllib.parse
url="https://baike.baidu.com/item/"+urllib.parse.quote("网络爬虫")
#url='https://baike.baidu.com/item/网络爬虫'
response=urllib.request.urlopen(url).read()
content=response.decode('utf-8')
with open('D://baike.txt','w',encoding='utf-8') as f:
f.write(content)

复制代码

提示里面出错的语句：
(, 下载次数: 0)

跳转到最佳答案楼层

象的失踪 · 发表于 2019-8-31 13:46:12

傻纸发表于 2019-8-31 00:01
这个不是读取后网页编码的问题，而是你的url上带有中文“网络爬虫”，这个中文不能编码为ascii,使用urllib. ...

哭了，真的就可以成功运行了。
所以urllib.parse.quote()相当于就是将中文编码为ascii是吗？

象的失踪 · 发表于 2019-8-31 23:14:00

傻纸发表于 2019-8-31 14:31
这个我也不太懂，只是记得用法。我觉得可能直接往request里传url，就会使用默认的sacii编码器吧，中文 ...

好滴！谢谢

账号		自动登录	找回密码
密码			立即注册

[已解决]跪求大神帮忙！下载百度百科的内容后无法正确编码输出

马上注册，结交更多好友，享用更多功能^_^

浏览过的版块