一张图片证明百度的模型确实在中文方面比openai会有优势
本帖最后由 isdkz 于 2023-8-5 00:23 编辑如图,通过文本调用百度和openai的embedding接口将文本转成向量后计算出的余弦相似度得出:
百度的模型认为:“鲁迅和周树人是什么关系?” 和 “鲁迅为什么要暴打周树人?” 这两句话是有强关联的,而 “鲁迅为什么要暴打周树人?” 和 “鲁迅为什么要暴打老舍?” 之间的关联要弱上不少
而反观openai的模型,它竟然觉得 “鲁迅和周树人是什么关系?” 和 “鲁迅为什么要暴打周树人?” 之间的关联与 “鲁迅为什么要暴打周树人?” 和 “鲁迅为什么要暴打老舍?” 几乎没有区别
有图为证:
而且,要知道 openai 的embedding接口生成的向量是1536维的,而 百度 的只有区区的 384 维
这里给没有了解过余弦相似度的小伙伴说一下余弦相似度是什么:
余弦相似度(Cosine Similarity)是一种用于衡量两个向量之间相似度的数学度量。在文本分类、信息检索、推荐系统等领域中,它被广泛用于计算文档之间的相似性。
余弦相似度通过将两个向量之间的夹角转化为相似度值来进行比较。具体来说,假设向量A和向量B的维度相同,则它们的余弦相似度可以通过以下公式计算:
余弦相似度 = A × B / ( ||A|| × ||B||)
其中,A × B表示A和B的点积,||A||表示A的长度,||B||表示B的长度。当余弦相似度为1时,表示两个向量完全相同;当余弦相似度为0时,表示两个向量完全不同;当余弦相似度为-1时,表示两个向量完全相反。在介于0和1之间的范围内,余弦相似度值越大,表示两个向量越相似。
- 来自文心一言
而我为什么要提到维度呢?这么说吧,维度越高,那么就代表它考虑的越全面,而chatgpt在考虑得如此全面的情况下,在中文检索上依然败给了ERNIE(中文名:文心一言),可见ERNIE在中文方面的独到优势!
what the... 百度也有ai了? 歌者文明清理员 发表于 2023-8-5 00:28
what the... 百度也有ai了?
百度是国内最少入场的了,你跟我说这{:10_249:} isdkz 发表于 2023-8-5 00:31
百度是国内最少入场的了,你跟我说这
百度是国内最少入场的了,你跟我说这
???啥意思没懂 歌者文明清理员 发表于 2023-8-5 00:28
what the... 百度也有ai了?
但凡我有其他国内大模型的api,我也都拿来试一试,咱就是说虽然国内技术还赶不上,这得认,但是能支持还是得支持
但是那些无耻的套壳就算了,比如某智脑{:10_256:} isdkz 发表于 2023-8-5 00:34
但凡我有其他国内大模型的api,我也都拿来试一试,咱就是说虽然国内技术还赶不上,这得认,但是能支持还 ...
智脑是啥 歌者文明清理员 发表于 2023-8-5 00:34
???啥意思没懂
意思是百度是国内最早发布大模型的 歌者文明清理员 发表于 2023-8-5 00:35
智脑是啥
不说的那么清楚,也是某大厂,3*0
你自己悟,我就不明说了{:10_336:} isdkz 发表于 2023-8-5 00:36
不说的那么清楚,也是某大厂,3*0
你自己悟,我就不明说了
某三位数危险卫士,还是四位数小章鱼? 歌者文明清理员 发表于 2023-8-5 00:37
某三位数危险卫士,还是四位数小章鱼?
360杀毒可以,不过流氓程度真就是个病_毒 歌者文明清理员 发表于 2023-8-5 00:37
某三位数危险卫士,还是四位数小章鱼?
真神奇,我现在问他的回答跟之前不一样了{:10_257:}
之前问它:
现在问它:
isdkz 发表于 2023-8-5 00:43
真神奇,我现在问他的回答跟之前不一样了
之前问它:
三位数数字卫士: 发现说漏嘴了 精彩!!
期待继续展开讲讲~ 小甲鱼 发表于 2023-8-5 01:41
精彩!!
期待继续展开讲讲~
嗯嗯,我研究embedding正是准备酝酿一篇知识库的文章{:5_109:} 哈哈。人工 手动修改答案啦! {:10_248:} tomok 发表于 2023-8-5 08:58
哈哈。人工 手动修改答案啦!
什么答案{:5_94:} 歌者文明清理员 发表于 2023-8-5 00:54
三位数数字卫士: 发现说漏嘴了
艹666哈哈
页:
[1]