Handsome_zhou 发表于 2022-5-13 14:21:51

BERT简述

本帖最后由 Handsome_zhou 于 2022-5-13 14:25 编辑

BERT特点总结:
一、BERT只有encoder没有decoder。因为BERT是一个通用的预训练模型,可以接各种下游任务,它的输出只是文本表示,所以不能使用固定的decoder。

二、BERT是百层左右的深度学习神经网络。浅层是分析语法,词法层级的特征,深层进入语法的范畴。

三、BERT是一个预训练模型,将NLP项目的起点大幅提升。

四、BERT使用self-attention作为特征提取器的能力

五、就 是 这 个 预 训 练 模 型 是 直 接 设 计 了 两 个 下 游 任 务 作 为 预 训 练 模 型 的 任 务 , 产 生 的 句 向 量 只 是 副 产 品 。 这 两 个 任 务 一 个 是 词 级 别 的 , 一 个 是 句 子 级 别 的 。 词 任 务 就 是 单 词 预 测 , 随 机 遮 挡 住 15 % 的 词 进 行 预 测 , 要 正 确 预 测 就 需 要 精 准 学 习 每 个 词 与 其 它 所 有 词 的 关 系 , 学 习 词 序 。 句 子 级 别 的 任 务 就 是 预 测 两 句 话 是 不 是 上 下 句 。 这 两 个 下 游 任 务 可 以 用 作 知 识 的 来 源 。

六、对 多 义 词 的 识 别 。 在 Word2Vec 、 GloVe 等 词 向 量 的 年 代 , 所 有 的 词 向 量 都 是 静 态 的 , 就 是 训 练 之 后 词 向 量 就 不 再 变 化 , 而 固 定 下 来 了 。 但 是 一 个 词 在 不 同 句 子 不 同 语 境 里 词 义 是 会 有 或 大 或 小 的 变 化 的 , 例 如 apple 可 以 指 代 水 果 , 也 可 以 指 代 一 家 公 司 , 词 向 量 需 要 动 态 变 化 。

七、双向语言模型

总 结 我 们 了 解 了 目 前 阶 段 智 能 机 器 人 的 能 力 , 知 道 了 AI 是 怎 么 一 步 步 地 处 理 语 言 数 据 , 这 是 目 前 为 止 最 先 进 的 AI 处 理 人 类 语 言 的 方 式 。 在 前 面 的 研 究 中 , 我 们 知 道 AI 处 理 的 全 部 都 是 数 字 , 输 入 时 将 每 个 字 转 化 为 一 个 多 维 数 学 向 量 , 然 后 通 过 大 量 数 据 的 训 练 , 寻 找 每 个 字 之 间 的 关 系 。 翻 译 也 好 , 对 话 也 好 , 对 于 AI 都 是 数 字 对 数 字 的 游 戏 , 我 们 最 终 看 到 的 语 言 输 出 , 只 是 这 些 数 字 最 终 通 过 字 典 翻 译 回 了 人 类 的 语 言 。

链接:https://blog.csdn.net/BennyShi1998/article/details/105006155


BERT模型优点:https://blog.csdn.net/CSDN_of_ding/article/details/107748507?spm=1001.2101.3001.6650.5&utm_medium=distribute.pc_relevant.none-task-blog-2%7Edefault%7EBlogCommendFromBaidu%7Edefault-5-107748507-blog-105006155.pc_relevant_default&depth_1-utm_source=distribute.pc_relevant.none-task-blog-2%7Edefault%7EBlogCommendFromBaidu%7Edefault-5-107748507-blog-105006155.pc_relevant_default&utm_relevant_index=9
页: [1]
查看完整版本: BERT简述