设为首页收藏本站

切换到窄版

鱼C论坛»论坛 › 编程语言专区 › Python交流 › python 爬虫中文编码

发新帖

查看: 804|回复: 1

python 爬虫中文编码

发表于 2019-7-9 10:13:16 | 显示全部楼层 |阅读模式

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

试着写了一个爬虫程序，爬取豆瓣网上的出版商，但是结果输出的是编码，代码如下：

import re
import urllib.request
pat='<div class="name">(.*?)</div>'
data=urllib.request.urlopen("https://read.douban.com/provider/all").read()
result=re.compile(pat).findall(str(data))
print(type(result))
print(type(result[0]))
for i in result:
output = i.encode('raw_unicode_escape')
print(type(output))
output1=output.decode('utf-8')
print(output1)

复制代码

这个输出方式是我在网上找到的，在以下示例中是可以的，但是在上述程序中不行：

s = '\xe9\x9d\x92\xe8\x9b\x99\xe7\x8e\x8b\xe5\xad\x90'
print(type(s))
ss = s.encode('raw_unicode_escape')
print(type(ss))
print(ss) # 结果：b'\xe9\x9d\x92\xe8\x9b\x99\xe7\x8e\x8b\xe5\xad\x90'
sss = ss.decode('utf-8')
print(sss)

复制代码

这是为什么呢？

小甲鱼最新课程 -> https://ilovefishc.com

回复

使用道具举报

发表于 2019-7-10 09:06:41 | 显示全部楼层

reslut.encoding = 'utf-8'

小甲鱼最新课程 -> https://ilovefishc.com

回复支持反对

使用道具举报

发新帖

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2026-4-2 16:16

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表