鱼C论坛

 找回密码
 立即注册

10.快速掌握NLP技术之分词,词性标注和关键字提取

已有 73 次阅读2019-7-24 08:46 |个人分类:自然语言



import jieba
import  re
from tokenizer import seg_sentences
fp = open("text.txt",'r',encoding='utf-8')
fout = open('out.txt','w',encoding='utf=8')

for line in fp:
    line = line.strip()
    if len(line) > 0:
        foutw.write(" ".join(seg_sentences(line))+"\n")
fout.close()
if __name__ == "__main__":
    pass

路过

鸡蛋

鲜花

握手

雷人

全部作者的其他最新日志

评论 (0 个评论)

facelist

您需要登录后才可以评论 登录 | 立即注册

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-5-19 05:24

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

返回顶部