pythion中文编码问题

AaBbCc186 · 发表于 2017-11-6 09:08:05

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

代码如下：
#coding=utf-8

import requests

url = 'http://www.xiaohuar.com/2014.html'
header = {'user-agent':'Mozilla/5.0'}
r = requests.get(url,headers=header,timeout=30)
html = r.text
print type(html)
print '\n'
print html[:1000]
print '\n\n'
print r.encoding
print r.apparent_encoding

返回结果：
<type 'unicode'>

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">

<html xmlns="http://www.w3.org/1999/xhtml">

<head>

<meta http-equiv="Content-Type" content="text/html; charset=gb2312" />

<title>2015Äê´óÑ§Ð£»¨ÅÅÐÐ°ñ100Ç¿</title>

<meta http-equiv="Cache-Control" content="no-transform" />

<meta http-equiv="Cache-Control" content="no-siteapp" />

<meta name="keywords" content="´óÑ§Ð£»¨,¸ßÐ£Ð£»¨,Ð£»¨ÅÅÐÐ,Ð£»¨Íø,Ð£»¨">

<meta name="description" content="2015ÖÐ¹ú´óÑ§Ð£»¨ÅÅÐÐ°ñÇ°100Ç¿£¬¿´¿´ÄãÑ§Ð£µÄÐ£»¨ÈËÆøÓÐ¶à°ô£¬¿ìÀ´¸øÄãÏ²»¶µÄÐ£»¨Í¶ÉÏÒ»Æ±°É£¬ÖÐ¹ú´óÑ§Ð£»¨ÅÅÐÐ°ñ TOP100ÐÂÏÊ³öÂ¯£¬2015ÄêÈ«¹úÐ£»¨ÅÅÐÐ°ñ£¬±¾Õ¾ÆÀÑ¡±¾Õ¾Í¨¹ýÍ¶Æ±½«ÆÀÑ¡³ö¡¶2015ÄêÐ£»¨ÅÅÐÐ°ñ¡·">

<link rel="stylesheet" type="text/css" />

<script type="text/javascript" src="http://www.xiaohuar.com/skin/default/js/jquery-1.4.2.min.js"></script>

<SCRIPT type=text/javascript src="http://www.xiaohuar.com/skin/default/js

ISO-8859-1
GB2312

可以看出html使用gb2312编码的，于是对代码改进：
#coding=utf-8

import requests

url = 'http://www.xiaohuar.com/2014.html'
header = {'user-agent':'Mozilla/5.0'}
r = requests.get(url,headers=header,timeout=30)
html = r.text.encode('GB2312')
print type(html)
print '\n'
print html[:1000]

报错：
UnicodeEncodeError: 'gb2312' codec can't encode character u'\xc4' in position 259: illegal multibyte sequence

请问：应该如何解决，以及为何使用GB2312不可行呢？

SixPy · 发表于 2017-11-6 09:19:25

换python3阿
你搞不懂编码知识，又偏要在烂泥坑里挣扎，有什么意义呢~

Teagle · 发表于 2017-11-6 20:34:38

#coding=utf-8
import requests
url = 'http://www.xiaohuar.com/2014.html'
header = {'user-agent':'Mozilla/5.0'}
r = requests.get(url,headers=header,timeout=30)
r.encoding = 'gb2312'
html = r.text
print type(html)
print '\n'
print html[:1000]
print '\n\n'
print r.encoding
print r.apparent_encoding

复制代码

requests模块，在请求的时候，Response会自动识别网站的编码方式，如果识别失败就会启用ISO-8859-1编码方式
我们可以通过response.encoding属性来自己手动指定编码方式，常设置为utf-8的编码方式，但是这次有的字符无法做到有效的显示

经查看源码，发现网站用的是gb2312的编码方式，于是设置为gb2312的编码方式

TIM截图20171106202912.png

运行的时候请用ide来用运行，不要在cmd下运行

Teagle · 发表于 2017-11-6 20:36:06

账号		自动登录	找回密码
密码			立即注册

pythion中文编码问题

马上注册，结交更多好友，享用更多功能^_^

浏览过的版块