马上注册,结交更多好友,享用更多功能^_^
您需要 登录 才可以下载或查看,没有账号?立即注册
x
本帖最后由 zltzlt 于 2020-3-7 13:33 编辑 from jieba import lcut
print(list(lcut("中华人民共和国是一个伟大的国家")))
运行结果:
['中华人民共和国', '是', '一个', '伟大', '的', '国家']
可以设置 cut_all 参数为 True,代表返回所有可能的分词:
from jieba import lcut
print(list(lcut("中华人民共和国是一个伟大的国家", cut_all=True)))
运行结果:
['中华', '中华人民', '中华人民共和国', '华人', '人民', '人民共和国', '共和', '共和国', '国是', '一个', '伟大', '的', '国家']
来一首海子的《面朝大海,春暖花开》:
from jieba import lcut
from collections import Counter
s = """从明天起做一个幸福的人
喂马劈柴周游世界
从明天起关心粮食和蔬菜
我有一所房子面朝大海春暖花开
从明天起和每一个亲人通信
告诉他们我的幸福
那幸福的闪电告诉我的
我将告诉每一个人
给每一条河每一座山取一个温暖的名字
陌生人我也为你祝福
愿你有一个灿烂的前程
愿你有情人终成眷属
愿你在尘世获得幸福
我只愿面朝大海春暖花开""".replace("\n", "")
for k, v in sorted(Counter(lcut(s)).most_common(), key=lambda x: x[1], reverse=True): # 逆序排序
print(k, v)
执行结果:
的 6
我 6
一个 5
幸福 4
每 4
你 4
愿 4
从 3
明天 3
起 3
告诉 3
人 2
和 2
有 2
面朝 2
大海 2
春暖花开 2
做 1
喂 1
马 1
劈柴 1
周游世界 1
关心 1
粮食 1
蔬菜 1
一所 1
房子 1
亲人 1
通信 1
他们 1
那 1
闪电 1
将 1
给 1
一条 1
河 1
一座 1
山取 1
温暖 1
名字 1
陌生人 1
也 1
为 1
祝福 1
灿烂 1
前程 1
有情人终成眷属 1
在 1
尘世 1
获得 1
只 1
用 Jieba 库统计三国演义中人物的出场次数:
三国演义.zip
(713.44 KB, 下载次数: 3)
from jieba import lcut
from collections import Counter
with open("三国演义.txt", encoding="utf-8") as f:
text = f.read()
# 过滤掉所有一个字的词语,取前 15 个词
for k, v in sorted(Counter(filter(lambda x: len(x) - 1, lcut(text))).most_common(15), key=lambda x: -x[1]):
print(k, v)
运行结果:
曹操 934
孔明 831
将军 761
却说 647
玄德 569
关公 509
丞相 488
二人 465
不可 435
荆州 420
孔明曰 385
玄德曰 383
不能 383
如此 376
张飞 348
|