去除停用词的词频分析代码的编码错误

helloTOM · 发表于 2018-5-5 22:32:51

您需要登录才可以下载或查看，没有账号？立即注册

x

本帖最后由 helloTOM 于 2018-5-6 14:39 编辑

import codecs as cs
import jieba as jb
import pandas as pd
f = cs.open("3k.txt","rb")
lines = f.readlines()
f.close()
data = []
dic ={}
for each in lines:
bad = jb.cut_for_search(each)
data.append(bad)
for eachline in data:
for eachword in eachline:
if eachword in dic:
dic[eachword] += 1
else:
dic[eachword] = 1
sorteddic = sorted(dic.items(),key=lambda x:x[1],reverse=True)
这一段代码没有问题（代码是本站大神写的）
得出的词频里有不少无用的语气词和标点符号
我就想用停用词除去这些没用的数据但是报编码错误。。不知道怎么处理{:5_100:} {:5_100:}
words_df=pd.DataFrame({"sorteddic":sorteddic})
stopwords=pd.read_csv("stopwords.txt",index_col=False,quoting=3,sep="\t",names=["stopword"],encoding="utf-8")
words_df=words_df[~words_df.sorteddic.isin(stopwords.stopword)]
print(words_df)

复制代码

报错为：UnicodeDecodeError: 'utf-8' codec can't decode byte 0xff in position 0: invalid start byte

水忆微凉 · 发表于 2018-5-30 21:08:23

我试了一下，这个错误是因为stopwords.txt的编码方式不对，把stopwords.txt另存为UTF8编码格式就可以用啦。

水忆微凉 · 发表于 2018-5-30 21:10:48

可是结果看不懂呀，能解释一下吗？

helloTOM · 发表于 2018-5-31 12:53:05

水忆微凉发表于 2018-5-30 21:10
可是结果看不懂呀，能解释一下吗？

第一段是使用结巴模块进行词频分析
第二段是把词频里的停用词去了
应该是这样。。我从网上找的代码。。。拼接上去的。。。（我也有点晕，网上的资料太水了。。。。）

另外改成UTF-8就可以了吗？它的报错信息不应该是UTF-8不能解码什么的吗？？？？

账号		自动登录	找回密码
密码			立即注册