|
马上注册,结交更多好友,享用更多功能^_^
您需要 登录 才可以下载或查看,没有账号?立即注册
x
#-*- coding:utf-8 -*-
import jieba
import xlrd
import csv
import re
import codecs
import chardet
import sys
reload(sys)
sys.setdefaultencoding('utf-8')
data = xlrd.open_workbook('H:\cheat_infos.xls') #打开需要进行分词的xls文件
table = data.sheets()[0] #打开第一张表
nrows = table .nrows #读取表行数
Result=[] #建立存储分词的列表
str5=[]
for i in range(nrows):
if i == 0: #跳过第一行
continue
table.row_values(i)[4]=table.row_values(i)[4].decode('utf-8')
table.row_values(i)[4]=''.join(table.row_values(i)[4].split()) #去除原文本中的空格
punct=codecs.open(r'H:\puntuation.txt','rb')
puntuation=list()
for line in punct:
word=line.strip("\r\n")
word=word.decode('utf-8')
puntuation.append(word) #把文件内给出的标点和停止符加入列表中
str1=''.decode('utf-8')
for token in table.row_values(i)[4]: #去除文本内的标点和停止符
if token in pontuation:
continue
else:
str1=str1+token
str5.append(str1) #把去除标点和停止符的文本写入列表str5中
print("标点停止符清除完成")
for j in range(len(str5[j])): #分词,并将分词结果存入Rs列表中
PRE =[]
seg_list = jieba.cut(str5[j])
for w in seg_list:
PRE.append(w)
Result.append(PRE)
fp_w=open(r'H:\result.csv','wb')
writer = csv.writer(fp_w)
writer.writerows(Result)
fp_w.close()
#一开始我只写了分词,此时运行正常,但发现各类无意义的符号很影响结果就决定把文本中的符号去掉,然后就写了第一段程序,然后就没法运行了... |
|