python3‘\\u6682\\u505c’编码转换成中文

qianczar · 发表于 2015-7-5 13:11:50

用的python3，用爬虫抓取的网页，上面的中文显示为
s='\\u3010\\u6682\\u505c\\u65b0\\u80a1IPO\\u6210\\u80a1\\u6c11\\u6700\\u671f\\u5f85\\u6551\\u5e02\\u653f\\u7b56\\u3011\\u622a\\u81f3\\u76ee\\u524d\\uff0c\\u8d85\\u8fc7\\u4e24\\u4e07\\u540d\\u80a1\\u6c11\\u63a5\\u53d7\\u4e86\\u65b0\\u6d6a\\u8d22\\u7ecf\\u7684\\u8c03\\u67e5\\u3002\\u6682\\u505c\\u65b0\\u80a1IPO\\u6210\\u4e3a\\u80a1\\u6c11\\u6700\\u671f\\u5f85\\u7684\\u6551\\u5e02\\u653f\\u7b56\\uff0c\\u4e25\\u683c\\u63a7\\u5236\\u5927\\u80a1\\u4e1c\\u9ad8\\u7ba1\\u8fdd\\u89c4\\u51cf\\u6301\\u4ee5\\u53ca\\u964d\\u4f4e\\u5370\\u82b1\\u7a0e\\u5206\\u522b\\u4f4d\\u5217\\u80a1\\u6c11\\u6700\\u671f\\u5f85\\u6551\\u5e02\\u653f\\u7b56\\u7b2c\\u4e8c\\u3001\\u7b2c\\u4e09\\u540d\\u3002\\u516b\\u6210\\u80a1\\u6c11\\u8868\\u793a\\u4eca\\u5e74\\u8d54\\u94b1\\uff0c\\u6536\\u76ca\\u4e3a\\u6b63\\u7684\\u80a1\\u6c11\\u4ec5\\u5360\\u4e24\\u6210\\u3002 '

这样的。
然后我想将其转换成能看的中文，如果直接输入‘\u3010\u6682\u505c’这样是能够看到中文的，但是由于反斜杠的原因，将s中所有‘\\’替换成'\'好像并不成功。

用python2试了下，用 print s.decode('unicode-escape') 发现可以，转换后的文字为“【暂停新股IPO成股民最期待救市政策】截至目前，超过两万名股民接受了新浪财经的调查。暂停新股IPO成为股民最期待的救市政策，严格控制大股东高管违规减持以及降低印花税分别位列股民最期待救市政策第二、第三名。八成股民表示今年赔钱，收益为正的股民仅占两成。”

想请教一下，用python3怎么实现转换？

youngo · 发表于 2015-7-5 13:11:51

thank you

qianczar · 发表于 2015-7-6 06:46:12

来一发自问自答。
python3 解码 \uXXXX 转换成中文。

方法是调用json
import json
s='\\u3010\\u6682\\u505c\\u65b0\\u80a1IPO'
x = json.loads('{"foo":"%s"}' % s)
x0=x['foo']
print(x0)

然后就出来“【暂停新股IPO”，问题解决。

原帖地址：http://blog.csdn.net/chenzy945/article/details/9720139

qianczar · 发表于 2015-7-6 17:16:04

来个人，既然问题解决了，鱼币就免费送给有需要的鱼油了{:1_1:}

dwer · 发表于 2015-7-9 13:40:35

mark下~~~~~~~~~~~

账号		自动登录	找回密码
密码			立即注册

python3‘\\u6682\\u505c’编码转换成中文

最佳答案

评分