不二如是 发表于 2025-8-2 11:00:00

压缩它!使用压缩工具查找文件相似性



NormalizedCompressionDistance(NCD)是一种用真实压缩器近似Kolmogorov复杂度的无参相似度度量,它通过比较单个文件与拼接文件的压缩长度差异来衡量关联度。

学术评估显示,用NCD可自动重建语言与基因组的系统发生树,且效果与专用生物信息方法相当。

该方法的魅力在于通用性:无需了解数据内容,只要能用ZIP等无损压缩器处理就能使用。

在线学习:

https://www.bilibili.com/video/BV1TNhpzTEPs

相比之下,像JPEG这类有损压缩格式会丢弃信息,因此不适合作距离度量。

典型无损压缩器(如ZIP采用的DEFLATE算法)通过滑动窗口和指针重用早先出现的短语来缩短比特序列,从而把文件映射到更短的二进制串。

若一个文件高度重复,其压缩后长度将远小于原长度,而随机或复杂数据几乎无法被进一步缩短,这一现象可视为Kolmogorov复杂度的经验估计。

于是研究者提出公式NCD(X,Y)=(C(XY)-min(C(X),C(Y)))/max(C(X),C(Y)),将拼接压缩长度与单独压缩长度结合,得到介于0和1的归一化距离。

此度量无需任何特征工程且跨文本、基因、音频等任意二进制数据域均可直接应用。

小甲鱼老师课程:

https://www.bilibili.com/video/BV1jW411K7yg

评论区聊聊你的想法吧{:10_330:}

https://xxx.ilovefishc.com/forum/202505/12/120451wiv7viv5iebupbbr.png

>>万能兑换C币许愿池<<

如果有收获,别忘了评分{:10_281:} :

https://xxx.ilovefishc.com/forum/202011/20/092334ggd6inlzfisfrdir.png.thumb.jpg
https://xxx.ilovefishc.com/forum/202505/21/111710rvxgdn90vaub5gag.gif                                                                  

不二如是 发表于 2025-8-2 11:53:02

感谢分享 朕又在鱼C学到东西啦!非常满意{:10_275:}

不二如是 发表于 2025-8-18 11:04:22

感谢分享 朕又在鱼C学到东西啦!非常满意{:10_275:}
页: [1]
查看完整版本: 压缩它!使用压缩工具查找文件相似性