鱼C论坛

 找回密码
 立即注册
查看: 2627|回复: 3

[技术交流] Jieba 中文分词

[复制链接]
发表于 2020-3-7 13:30:04 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
本帖最后由 zltzlt 于 2020-3-7 13:33 编辑
from jieba import lcut
print(list(lcut("中华人民共和国是一个伟大的国家")))

运行结果:
['中华人民共和国', '是', '一个', '伟大', '的', '国家']

可以设置 cut_all 参数为 True,代表返回所有可能的分词:
from jieba import lcut
print(list(lcut("中华人民共和国是一个伟大的国家", cut_all=True)))

运行结果:
['中华', '中华人民', '中华人民共和国', '华人', '人民', '人民共和国', '共和', '共和国', '国是', '一个', '伟大', '的', '国家']

来一首海子的《面朝大海,春暖花开》:
from jieba import lcut
from collections import Counter
s = """从明天起做一个幸福的人
喂马劈柴周游世界
从明天起关心粮食和蔬菜
我有一所房子面朝大海春暖花开
从明天起和每一个亲人通信
告诉他们我的幸福
那幸福的闪电告诉我的
我将告诉每一个人
给每一条河每一座山取一个温暖的名字
陌生人我也为你祝福
愿你有一个灿烂的前程
愿你有情人终成眷属
愿你在尘世获得幸福
我只愿面朝大海春暖花开""".replace("\n", "")
for k, v in sorted(Counter(lcut(s)).most_common(), key=lambda x: x[1], reverse=True):    # 逆序排序
    print(k, v)

执行结果:
的 6
我 6
一个 5
幸福 4
每 4
你 4
愿 4
从 3
明天 3
起 3
告诉 3
人 2
和 2
有 2
面朝 2
大海 2
春暖花开 2
做 1
喂 1
马 1
劈柴 1
周游世界 1
关心 1
粮食 1
蔬菜 1
一所 1
房子 1
亲人 1
通信 1
他们 1
那 1
闪电 1
将 1
给 1
一条 1
河 1
一座 1
山取 1
温暖 1
名字 1
陌生人 1
也 1
为 1
祝福 1
灿烂 1
前程 1
有情人终成眷属 1
在 1
尘世 1
获得 1
只 1

用 Jieba 库统计三国演义中人物的出场次数:

三国演义.zip (713.44 KB, 下载次数: 3)
from jieba import lcut
from collections import Counter
with open("三国演义.txt", encoding="utf-8") as f:
    text = f.read()

# 过滤掉所有一个字的词语,取前 15 个词
for k, v in sorted(Counter(filter(lambda x: len(x) - 1, lcut(text))).most_common(15), key=lambda x: -x[1]):
    print(k, v)

运行结果:
曹操 934
孔明 831
将军 761
却说 647
玄德 569
关公 509
丞相 488
二人 465
不可 435
荆州 420
孔明曰 385
玄德曰 383
不能 383
如此 376
张飞 348

本帖被以下淘专辑推荐:

想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2020-3-7 13:58:36 From FishC Mobile | 显示全部楼层
感觉平时用不到
大概有些特殊人再特定场合下能用到
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-3-7 13:59:42 | 显示全部楼层
wp231957 发表于 2020-3-7 13:58
感觉平时用不到
大概有些特殊人再特定场合下能用到

嗯,比如制作词云时就用得到
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-3-8 22:31:15 | 显示全部楼层
zltzlt 发表于 2020-3-7 13:59
嗯,比如制作词云时就用得到

这个情况应该是正常的:
>>> from jieba import lcut
>>> print(list(lcut("中华人名共和国是一个伟大的国家")))
Building prefix dict from the default dictionary ...
Dumping model to file cache C:\Users\Angel\AppData\Local\Temp\jieba.cache
Loading model cost 0.766 seconds.
Prefix dict has been built successfully.
['中华', '人', '名', '共和国', '是', '一个', '伟大', '的', '国家']
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-12-22 21:27

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表