|
马上注册,结交更多好友,享用更多功能^_^
您需要 登录 才可以下载或查看,没有账号?立即注册
x
本帖最后由 isdkz 于 2023-8-5 00:23 编辑
如图,通过文本调用百度和openai的embedding接口将文本转成向量后计算出的余弦相似度得出:
百度的模型认为:“鲁迅和周树人是什么关系?” 和 “鲁迅为什么要暴打周树人?” 这两句话是有强关联的,而 “鲁迅为什么要暴打周树人?” 和 “鲁迅为什么要暴打老舍?” 之间的关联要弱上不少
而反观openai的模型,它竟然觉得 “鲁迅和周树人是什么关系?” 和 “鲁迅为什么要暴打周树人?” 之间的关联与 “鲁迅为什么要暴打周树人?” 和 “鲁迅为什么要暴打老舍?” 几乎没有区别
有图为证:
而且,要知道 openai 的embedding接口生成的向量是1536维的,而 百度 的只有区区的 384 维
这里给没有了解过余弦相似度的小伙伴说一下余弦相似度是什么:
余弦相似度(Cosine Similarity)是一种用于衡量两个向量之间相似度的数学度量。在文本分类、信息检索、推荐系统等领域中,它被广泛用于计算文档之间的相似性。
余弦相似度通过将两个向量之间的夹角转化为相似度值来进行比较。具体来说,假设向量A和向量B的维度相同,则它们的余弦相似度可以通过以下公式计算:
余弦相似度 = A × B / ( ||A|| × ||B||)
其中,A × B表示A和B的点积,||A||表示A的长度,||B||表示B的长度。当余弦相似度为1时,表示两个向量完全相同;当余弦相似度为0时,表示两个向量完全不同;当余弦相似度为-1时,表示两个向量完全相反。在介于0和1之间的范围内,余弦相似度值越大,表示两个向量越相似。
- 来自文心一言
而我为什么要提到维度呢?这么说吧,维度越高,那么就代表它考虑的越全面,而chatgpt在考虑得如此全面的情况下,在中文检索上依然败给了ERNIE(中文名:文心一言),可见ERNIE在中文方面的独到优势! |
|