鱼C论坛

 找回密码
 立即注册
查看: 2111|回复: 1

[学习笔记] nltk做命名实体识别

[复制链接]
发表于 2022-2-13 18:22:45 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
#命名实体识别, 非常酷的4行代码
import nltk
nltk.download('punkt')
nltk.download('averaged_perceptron_tagger')
nltk.download('maxent_ne_chunker')
nltk.download('words')

sent = "your_corpus"

for sent in nltk.sent_tokenize(sentence):#对文本按照句子进行分割
    for chunk in nltk.ne_chunk(nltk.pos_tag(nltk.word_tokenize(sent))):#对句子进行分词,NLTK的分词是句子级的,因此要先分句,再逐句分词。对词进行词性标注。最后进行命名实体识别
        if hasattr(chunk, 'label'):
            print(chunk.label(), ' '.join(c[0] for c in chunk))


整体逻辑是:
第一步,对文本进行分割,分割成句子。
第二步,对句子进行分词,nltk的分词是句子级别的,因此要先分句,再逐句分词
第三步,分完词后对词进行词性标注(bert中的序列标注)
第四步,用nltk.ne_chunk()方法进行命名实体识别
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2022-2-14 15:07:06 | 显示全部楼层
学习 了


想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-12-28 18:29

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表