|
马上注册,结交更多好友,享用更多功能^_^
您需要 登录 才可以下载或查看,没有账号?立即注册
x
本帖最后由 zltzlt 于 2020-3-7 13:33 编辑
- from jieba import lcut
- print(list(lcut("中华人民共和国是一个伟大的国家")))
复制代码
运行结果:
- ['中华人民共和国', '是', '一个', '伟大', '的', '国家']
复制代码
可以设置 cut_all 参数为 True,代表返回所有可能的分词:
- from jieba import lcut
- print(list(lcut("中华人民共和国是一个伟大的国家", cut_all=True)))
复制代码
运行结果:
- ['中华', '中华人民', '中华人民共和国', '华人', '人民', '人民共和国', '共和', '共和国', '国是', '一个', '伟大', '的', '国家']
复制代码
来一首海子的《面朝大海,春暖花开》:
- from jieba import lcut
- from collections import Counter
- s = """从明天起做一个幸福的人
- 喂马劈柴周游世界
- 从明天起关心粮食和蔬菜
- 我有一所房子面朝大海春暖花开
- 从明天起和每一个亲人通信
- 告诉他们我的幸福
- 那幸福的闪电告诉我的
- 我将告诉每一个人
- 给每一条河每一座山取一个温暖的名字
- 陌生人我也为你祝福
- 愿你有一个灿烂的前程
- 愿你有情人终成眷属
- 愿你在尘世获得幸福
- 我只愿面朝大海春暖花开""".replace("\n", "")
- for k, v in sorted(Counter(lcut(s)).most_common(), key=lambda x: x[1], reverse=True): # 逆序排序
- print(k, v)
复制代码
执行结果:
- 的 6
- 我 6
- 一个 5
- 幸福 4
- 每 4
- 你 4
- 愿 4
- 从 3
- 明天 3
- 起 3
- 告诉 3
- 人 2
- 和 2
- 有 2
- 面朝 2
- 大海 2
- 春暖花开 2
- 做 1
- 喂 1
- 马 1
- 劈柴 1
- 周游世界 1
- 关心 1
- 粮食 1
- 蔬菜 1
- 一所 1
- 房子 1
- 亲人 1
- 通信 1
- 他们 1
- 那 1
- 闪电 1
- 将 1
- 给 1
- 一条 1
- 河 1
- 一座 1
- 山取 1
- 温暖 1
- 名字 1
- 陌生人 1
- 也 1
- 为 1
- 祝福 1
- 灿烂 1
- 前程 1
- 有情人终成眷属 1
- 在 1
- 尘世 1
- 获得 1
- 只 1
复制代码
用 Jieba 库统计三国演义中人物的出场次数:
三国演义.zip
(713.44 KB, 下载次数: 3)
- from jieba import lcut
- from collections import Counter
- with open("三国演义.txt", encoding="utf-8") as f:
- text = f.read()
- # 过滤掉所有一个字的词语,取前 15 个词
- for k, v in sorted(Counter(filter(lambda x: len(x) - 1, lcut(text))).most_common(15), key=lambda x: -x[1]):
- print(k, v)
复制代码
运行结果:
- 曹操 934
- 孔明 831
- 将军 761
- 却说 647
- 玄德 569
- 关公 509
- 丞相 488
- 二人 465
- 不可 435
- 荆州 420
- 孔明曰 385
- 玄德曰 383
- 不能 383
- 如此 376
- 张飞 348
复制代码 |
|