一张图片证明百度的模型确实在中文方面比openai会有优势

isdkz · 发表于 2023-8-5 00:21:39

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

本帖最后由 isdkz 于 2023-8-5 00:23 编辑

如图，通过文本调用百度和openai的embedding接口将文本转成向量后计算出的余弦相似度得出：

百度的模型认为：“鲁迅和周树人是什么关系？” 和 “鲁迅为什么要暴打周树人？” 这两句话是有强关联的，而 “鲁迅为什么要暴打周树人？” 和 “鲁迅为什么要暴打老舍？” 之间的关联要弱上不少

而反观openai的模型，它竟然觉得 “鲁迅和周树人是什么关系？” 和 “鲁迅为什么要暴打周树人？” 之间的关联与 “鲁迅为什么要暴打周树人？” 和 “鲁迅为什么要暴打老舍？” 几乎没有区别

有图为证：

而且，要知道 openai 的embedding接口生成的向量是1536维的，而百度的只有区区的 384 维

这里给没有了解过余弦相似度的小伙伴说一下余弦相似度是什么：

余弦相似度（Cosine Similarity）是一种用于衡量两个向量之间相似度的数学度量。在文本分类、信息检索、推荐系统等领域中，它被广泛用于计算文档之间的相似性。
余弦相似度通过将两个向量之间的夹角转化为相似度值来进行比较。具体来说，假设向量A和向量B的维度相同，则它们的余弦相似度可以通过以下公式计算：

余弦相似度 = A × B / ( ||A|| × ||B||)

其中，A × B表示A和B的点积，||A||表示A的长度，||B||表示B的长度。当余弦相似度为1时，表示两个向量完全相同；当余弦相似度为0时，表示两个向量完全不同；当余弦相似度为-1时，表示两个向量完全相反。在介于0和1之间的范围内，余弦相似度值越大，表示两个向量越相似。

- 来自文心一言

而我为什么要提到维度呢？这么说吧，维度越高，那么就代表它考虑的越全面，而chatgpt在考虑得如此全面的情况下，在中文检索上依然败给了ERNIE(中文名：文心一言)，可见ERNIE在中文方面的独到优势！

歌者文明清理员 · 发表于 2023-8-5 00:28:01

what the... 百度也有ai了?

isdkz · 发表于 2023-8-5 00:31:26

歌者文明清理员发表于 2023-8-5 00:28
what the... 百度也有ai了?

百度是国内最少入场的了，你跟我说这

歌者文明清理员 · 发表于 2023-8-5 00:34:28

isdkz 发表于 2023-8-5 00:31
百度是国内最少入场的了，你跟我说这

百度是国内最少入场的了，你跟我说这

???啥意思没懂

isdkz · 发表于 2023-8-5 00:34:31

歌者文明清理员发表于 2023-8-5 00:28
what the... 百度也有ai了?

但凡我有其他国内大模型的api，我也都拿来试一试，咱就是说虽然国内技术还赶不上，这得认，但是能支持还是得支持

但是那些无耻的套壳就算了，比如某智脑

歌者文明清理员 · 发表于 2023-8-5 00:35:05

isdkz 发表于 2023-8-5 00:34
但凡我有其他国内大模型的api，我也都拿来试一试，咱就是说虽然国内技术还赶不上，这得认，但是能支持还 ...

智脑是啥

isdkz · 发表于 2023-8-5 00:35:12

歌者文明清理员发表于 2023-8-5 00:34
???啥意思没懂

意思是百度是国内最早发布大模型的

isdkz · 发表于 2023-8-5 00:36:38

歌者文明清理员发表于 2023-8-5 00:35
智脑是啥

不说的那么清楚，也是某大厂，3*0

你自己悟，我就不明说了

歌者文明清理员 · 发表于 2023-8-5 00:37:35

isdkz 发表于 2023-8-5 00:36
不说的那么清楚，也是某大厂，3*0

你自己悟，我就不明说了

某三位数危险卫士，还是四位数小章鱼？

歌者文明清理员 · 发表于 2023-8-5 00:38:50

歌者文明清理员发表于 2023-8-5 00:37
某三位数危险卫士，还是四位数小章鱼？

360杀毒可以，不过流氓程度真就是个病_毒

isdkz · 发表于 2023-8-5 00:43:39

歌者文明清理员发表于 2023-8-5 00:37
某三位数危险卫士，还是四位数小章鱼？

真神奇，我现在问他的回答跟之前不一样了

之前问它：

现在问它：

歌者文明清理员 · 发表于 2023-8-5 00:54:06

isdkz 发表于 2023-8-5 00:43
真神奇，我现在问他的回答跟之前不一样了

之前问它：

三位数数字卫士: 发现说漏嘴了

小甲鱼 · 发表于 2023-8-5 01:41:58

精彩！！

期待继续展开讲讲~

isdkz · 发表于 2023-8-5 07:06:45

小甲鱼发表于 2023-8-5 01:41
精彩！！

期待继续展开讲讲~

嗯嗯，我研究embedding正是准备酝酿一篇知识库的文章

tomok · 发表于 2023-8-5 08:58:50

哈哈。人工手动修改答案啦！

Ewan-Ahiouy · 发表于 2023-8-5 09:12:44

isdkz · 发表于 2023-8-5 09:13:42

tomok 发表于 2023-8-5 08:58
哈哈。人工手动修改答案啦！

什么答案

额外减小 · 发表于 2023-8-13 00:43:43

歌者文明清理员发表于 2023-8-5 00:54
三位数数字卫士: 发现说漏嘴了

艹666哈哈

账号		自动登录	找回密码
密码			立即注册

一张图片证明百度的模型确实在中文方面比openai会有优势

马上注册，结交更多好友，享用更多功能^_^

点评

浏览过的版块