鱼C论坛

 找回密码
 立即注册
查看: 31|回复: 1

[技术交流] 压缩它!使用压缩工具查找文件相似性

[复制链接]
发表于 8 小时前 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
f54d5e5b588745ed0cf83d62e2633b67f76a4944.jpg@308w_174h.jpeg

NormalizedCompressionDistance(NCD)是一种用真实压缩器近似Kolmogorov复杂度的无参相似度度量,它通过比较单个文件与拼接文件的压缩长度差异来衡量关联度。

学术评估显示,用NCD可自动重建语言与基因组的系统发生树,且效果与专用生物信息方法相当。

该方法的魅力在于通用性:无需了解数据内容,只要能用ZIP等无损压缩器处理就能使用。

在线学习:



相比之下,像JPEG这类有损压缩格式会丢弃信息,因此不适合作距离度量。

典型无损压缩器(如ZIP采用的DEFLATE算法)通过滑动窗口和指针重用早先出现的短语来缩短比特序列,从而把文件映射到更短的二进制串。

若一个文件高度重复,其压缩后长度将远小于原长度,而随机或复杂数据几乎无法被进一步缩短,这一现象可视为Kolmogorov复杂度的经验估计。

于是研究者提出公式NCD(X,Y)=(C(XY)-min(C(X),C(Y)))/max(C(X),C(Y)),将拼接压缩长度与单独压缩长度结合,得到介于0和1的归一化距离。

此度量无需任何特征工程且跨文本、基因、音频等任意二进制数据域均可直接应用。

小甲鱼老师课程:



评论区聊聊你的想法



                               
登录/注册后可看大图




如果有收获,别忘了评分


                               
登录/注册后可看大图


                               
登录/注册后可看大图
                                                                    

小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

 楼主| 发表于 7 小时前 | 显示全部楼层
感谢分享 朕又在鱼C学到东西啦!非常满意
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2025-8-2 19:24

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表