鱼C论坛

 找回密码
 立即注册

5.jieba安装,介绍以及使用

已有 68 次阅读2019-7-23 19:22 |个人分类:自然语言



jieba
    ‘结巴’中文分词:是广泛使用的中文分词工具,具有以下特点:
        1.三种分词模式:精确模式,全模式和搜索引擎模式
        2.词性标注和返回词语在原文的起止位置
        3.可加入自定义字典
        4.代码对Python2/3均兼容
        5.支持多种语言,支持简体繁体
        项目地址:https://github.com/fxsjy/jieba

# encoding=utf-8
import jieba

seg_list = jieba.cut("我来到北京清华大学", cut_all=True)
print("Full Mode: " + "/ ".join(seg_list)) # 全模式

seg_list = jieba.cut("我来到北京清华大学", cut_all=False)
print("Default Mode: " + "/ ".join(seg_list)) # 精确模式

seg_list = jieba.cut("他来到了网易杭研大厦") # 默认是精确模式
print(", ".join(seg_list))

seg_list = jieba.cut_for_search("小明硕士毕业于中国科学院计算所,后在日本京都大学深造") # 搜索引擎模式
print(", ".join(seg_list))


jieba词性标注
    import jieba.posseg as pseg
     words = pseg.cut(strings):
        for word,flag in words:
            print("%s %s" % (word,flag))







路过

鸡蛋

鲜花

握手

雷人

全部作者的其他最新日志

评论 (0 个评论)

facelist

您需要登录后才可以评论 登录 | 立即注册

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-5-25 13:09

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

返回顶部