鱼C论坛

 找回密码
 立即注册
查看: 2366|回复: 1

[学习笔记] nltk做命名实体识别

[复制链接]
发表于 2022-2-13 18:22:45 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
  1. #命名实体识别, 非常酷的4行代码
  2. import nltk
  3. nltk.download('punkt')
  4. nltk.download('averaged_perceptron_tagger')
  5. nltk.download('maxent_ne_chunker')
  6. nltk.download('words')

  7. sent = "your_corpus"

  8. for sent in nltk.sent_tokenize(sentence):#对文本按照句子进行分割
  9.     for chunk in nltk.ne_chunk(nltk.pos_tag(nltk.word_tokenize(sent))):#对句子进行分词,NLTK的分词是句子级的,因此要先分句,再逐句分词。对词进行词性标注。最后进行命名实体识别
  10.         if hasattr(chunk, 'label'):
  11.             print(chunk.label(), ' '.join(c[0] for c in chunk))
复制代码



整体逻辑是:
第一步,对文本进行分割,分割成句子。
第二步,对句子进行分词,nltk的分词是句子级别的,因此要先分句,再逐句分词
第三步,分完词后对词进行词性标注(bert中的序列标注)
第四步,用nltk.ne_chunk()方法进行命名实体识别
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

发表于 2022-2-14 15:07:06 | 显示全部楼层
学习 了


小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2025-4-24 15:46

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表