Jieba 中文分词

zltzlt · 发表于 2020-3-7 13:30:04

您需要登录才可以下载或查看，没有账号？立即注册

x

本帖最后由 zltzlt 于 2020-3-7 13:33 编辑

复制代码

运行结果：

复制代码

可以设置 cut_all 参数为 True，代表返回所有可能的分词：

复制代码

运行结果：

['中华', '中华人民', '中华人民共和国', '华人', '人民', '人民共和国', '共和', '共和国', '国是', '一个', '伟大', '的', '国家']

复制代码

来一首海子的《面朝大海，春暖花开》：

from jieba import lcut
from collections import Counter
s = """从明天起做一个幸福的人
喂马劈柴周游世界
从明天起关心粮食和蔬菜
我有一所房子面朝大海春暖花开
从明天起和每一个亲人通信
告诉他们我的幸福
那幸福的闪电告诉我的
我将告诉每一个人
给每一条河每一座山取一个温暖的名字
陌生人我也为你祝福
愿你有一个灿烂的前程
愿你有情人终成眷属
愿你在尘世获得幸福
我只愿面朝大海春暖花开""".replace("\n", "")
for k, v in sorted(Counter(lcut(s)).most_common(), key=lambda x: x[1], reverse=True): # 逆序排序
print(k, v)

复制代码

执行结果：

复制代码

用 Jieba 库统计三国演义中人物的出场次数：

三国演义.zip (713.44 KB, 下载次数: 3)

from jieba import lcut
from collections import Counter
with open("三国演义.txt", encoding="utf-8") as f:
text = f.read()
# 过滤掉所有一个字的词语，取前 15 个词
for k, v in sorted(Counter(filter(lambda x: len(x) - 1, lcut(text))).most_common(15), key=lambda x: -x[1]):
print(k, v)

复制代码

运行结果：

复制代码

wp231957 · 发表于 2020-3-7 13:58:36

感觉平时用不到
大概有些特殊人再特定场合下能用到

zltzlt · 发表于 2020-3-7 13:59:42

wp231957 发表于 2020-3-7 13:58
感觉平时用不到
大概有些特殊人再特定场合下能用到

嗯，比如制作词云时就用得到

一个账号 · 发表于 2020-3-8 22:31:15

zltzlt 发表于 2020-3-7 13:59
嗯，比如制作词云时就用得到

这个情况应该是正常的：

复制代码

账号		自动登录	找回密码
密码			立即注册

[技术交流] Jieba 中文分词