BERT简述

Handsome_zhou · 发表于 2022-5-13 14:21:51

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

本帖最后由 Handsome_zhou 于 2022-5-13 14:25 编辑

BERT特点总结：
一、BERT只有encoder没有decoder。因为BERT是一个通用的预训练模型，可以接各种下游任务，它的输出只是文本表示，所以不能使用固定的decoder。

二、BERT是百层左右的深度学习神经网络。浅层是分析语法，词法层级的特征，深层进入语法的范畴。

三、BERT是一个预训练模型，将NLP项目的起点大幅提升。

四、BERT使用self-attention作为特征提取器的能力

五、就是这个预训练模型是直接设计了两个下游任务作为预训练模型的任务，产生的句向量只是副产品。这两个任务一个是词级别的，一个是句子级别的。词任务就是单词预测，随机遮挡住 15 % 的词进行预测，要正确预测就需要精准学习每个词与其它所有词的关系，学习词序。句子级别的任务就是预测两句话是不是上下句。这两个下游任务可以用作知识的来源。

六、对多义词的识别。在 Word2Vec 、 GloVe 等词向量的年代，所有的词向量都是静态的，就是训练之后词向量就不再变化，而固定下来了。但是一个词在不同句子不同语境里词义是会有或大或小的变化的，例如 apple 可以指代水果，也可以指代一家公司，词向量需要动态变化。

七、双向语言模型

总结我们了解了目前阶段智能机器人的能力，知道了 AI 是怎么一步步地处理语言数据，这是目前为止最先进的 AI 处理人类语言的方式。在前面的研究中，我们知道 AI 处理的全部都是数字，输入时将每个字转化为一个多维数学向量，然后通过大量数据的训练，寻找每个字之间的关系。翻译也好，对话也好，对于 AI 都是数字对数字的游戏，我们最终看到的语言输出，只是这些数字最终通过字典翻译回了人类的语言。

链接：https://blog.csdn.net/BennyShi1998/article/details/105006155

BERT模型优点：https://blog.csdn.net/CSDN_of_di ... tm_relevant_index=9

账号		自动登录	找回密码
密码			立即注册

[学习笔记] BERT简述

马上注册，结交更多好友，享用更多功能^_^

浏览过的版块