[已解决]求三国演义人物出场

hzxwonder · 发表于 2019-6-28 22:28:22

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

import jieba
txt = open('threekingdoms.txt','r',encoding='utf-8').read()
excludes = {'将军','却说','荆州','二人','不可','不能','如此'}
words = jieba.lcut(txt)
counts ={}
for word in words:
if len(word) == 1:
continue
elif word == '诸葛亮' or word =='孔明曰':
rword = '孔明'
elif word =='关公' or word =='云长':
rword ='关羽'
elif word =='玄德' or word =='玄德曰':
rword = '刘备'
elif word =='孟德'or word =='丞相曰':
rword = '曹操'
else:
rword = word
counts[rword] = counts.get(rword,0)+1
for word in excludes :
del counts[word]
items = list(counts.items())
items.sort(key=lambda x:x[1],reverse=True)
for i in range(10):
word,count=items[i]
print('{0:<10}{1`:>5}'.format(word,count))

复制代码

为什么会出现UnicodeDecodeError: 'utf-8' codec can't decode byte 0xc8 in position 0: invalid continuation byte错误？这种错误说明了什么？

最佳答案

月排行榜 / 总排行榜

newu

2019-6-30 10:20:21

hzxwonder 发表于 2019-6-30 10:14
不行。。。。为什么有这个文件，却无法运行？

难道是路径的冒号是中文了？话说无论我的怎么读取都没问题额。。
(, 下载次数: 0)

跳转到最佳答案楼层

newu · 发表于 2019-6-28 22:34:29

看样子文件有问题，是二进制文件？

hzxwonder · 发表于 2019-6-28 22:50:32

newu 发表于 2019-6-28 22:34
看样子文件有问题，是二进制文件？

不是吧，好像只是文本

hzxwonder · 发表于 2019-6-28 22:55:50

https://python123.io/resources/pye/threekingdoms.txt里边的文本

newu · 发表于 2019-6-28 23:00:49

hzxwonder 发表于 2019-6-28 22:50
不是吧，好像只是文本

检查一下那个文本文件，可能有非法字符。

hzxwonder · 发表于 2019-6-29 08:16:41

newu 发表于 2019-6-28 23:00
检查一下那个文本文件，可能有非法字符。

那些算非法字符？

hzxwonder · 发表于 2019-6-29 08:17:44

print（‘https://python123.io/resources/pye/threekingdoms.txt’）

复制代码

这里面的文档

冬雪雪冬 · 发表于 2019-6-29 09:02:08

我运行没有问题。除最后一行1`应为1以外。我的python是3.6.2版的。

Building prefix dict from the default dictionary ...
Loading model from cache C:\Users\zhubin\AppData\Local\Temp\jieba.cache
Loading model cost 1.344 seconds.
Prefix dict has been built succesfully.
孔明 1383
刘备 1252
曹操 960
关羽 784
丞相 491
张飞 358
商议 344
如何 338
主公 331
军士 317

复制代码

这是我下载的文本文件，受上传类型限制，加了zip的后缀，下载后可以删掉。你再试试。

风丶少 · 发表于 2019-6-29 09:02:29

有些文档会有一些ascii码字符存放在里面，比如表示空格的0xA0，你直接打开文本是看不到的，但是他确实存在的。
你可以先把0xc8字符替换成utf-8的空格，这样就不会报错了。

hzxwonder · 发表于 2019-6-29 10:02:30

风丶少发表于 2019-6-29 09:02
有些文档会有一些ascii码字符存放在里面，比如表示空格的0xA0，你直接打开文本是看不到的，但是他确实存在 ...

怎么做？小白求教

风丶少 · 发表于 2019-6-29 10:04:52

hzxwonder 发表于 2019-6-29 10:02
怎么做？小白求教

你这个是网上爬下来的吧？
你可以在网站审核元素里面看到文本内容包含了哪些ascii，对应的把他们替换掉就行了。
可以用Beautifulsoup4 来替换

newu · 发表于 2019-6-29 16:10:19

hzxwonder 发表于 2019-6-29 10:02
怎么做？小白求教

找到原因了，可能是打开的时候出错了，新建一个文档重新copy进去内容，然后open

hzxwonder · 发表于 2019-6-29 21:44:01

newu 发表于 2019-6-29 16:10
找到原因了，可能是打开的时候出错了，新建一个文档重新copy进去内容，然后open

不行

newu · 发表于 2019-6-29 21:45:17

hzxwonder 发表于 2019-6-29 21:44
不行

重新手写下文档..

hzxwonder · 发表于 2019-6-29 21:49:24

newu 发表于 2019-6-29 21:45
重新手写下文档..

手写。。。。六十万字。。。

newu · 发表于 2019-6-29 21:54:47

hzxwonder 发表于 2019-6-29 21:49
手写。。。。六十万字。。。

厉害了，文档方便发我吗

hzxwonder · 发表于 2019-6-29 22:00:19

链接吗？

https://python123.io/resources/pye/threekingdoms.txt

复制代码

newu · 发表于 2019-6-29 23:15:01

hzxwonder 发表于 2019-6-29 22:00
链接吗？

因为文档是utf-8的，所以这样打开

with open('threekingdoms.txt', 'r', encoding='utf-8') as f:

复制代码

所以我看你的代码就是这样打开的，我这样打开没问题啊。。。

hzxwonder · 发表于 2019-6-30 09:52:34

newu 发表于 2019-6-29 23:15
因为文档是utf-8的，所以这样打开

不行啊。。文本是从链接上shift+A全选复制，然后新建文档txt吗？

newu · 发表于 2019-6-30 09:58:13

hzxwonder 发表于 2019-6-30 09:52
不行啊。。文本是从链接上shift+A全选复制，然后新建文档txt吗？

我是直接从你给的那个链接下载下来的

账号		自动登录	找回密码
密码			立即注册

[已解决]求三国演义人物出场

马上注册，结交更多好友，享用更多功能^_^

浏览过的版块