鱼C论坛

 找回密码
 立即注册
查看: 3073|回复: 0

[学习笔记] SMILES,SMARTS,INCHI

[复制链接]
发表于 2021-4-26 00:10:19 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
本帖最后由 Handsome_zhou 于 2021-4-26 01:45 编辑

这篇帖子内容主要是翻译自chem.libretexts.org

化学信息学介绍:
      
1970年代电子计算机的广泛普及让很多科学领域出现了巨大的进步。化学领域也从中受益匪浅,但是必须开发许多的新方法,算法和数据资源,这样才能充分的将计算机的计算能力应用到化学中去。化学信息学的界面科学的目标是将计算机科学方法应用于化学结构和相关元数据(如生物活性终点和理化特性)的表示,分析和建模。化学信息学不仅利用计算机科学和化学领域的专业知识,而且还利用数学,统计学,生物学,物理学和生物化学领域的专业知识。

计算机中化学结构的表示:

这里面可能涉及到图论,拓扑,网络分析和组合学领域的知识。

分子相似性

化学信息学中最关键和持久的概念之一是分子相似性。量化分子的相似性具有广泛的应用,其中许多内容将在后面介绍,但是支撑所有这些应用的重要的方面是相似性原则。相似性原理表明,如果两个化学结构相似,它们的性质通常也会表现处许多相似性。

分子性质描述符

这里要涵盖的第一类分子描述符是性质描述符或者表示某些物理化学性质的可靠预测模型属性,例如分子量。描述符倾向于将任何不同的属性卷积为这些简单的标量描述符,但是在某些情况下可能非常有效,并且因其在交互系统中的可解释性而广受赞赏。

拓扑描述符

拓扑描述符是从分子结构计算出来的,通常只使用原子连接性数据并避开任何几何数据。经常使用的两类描述符是分子参数和分子指纹。分子参数是单个实值描述符,总结了所考虑分子结构的某些特征。这里要考虑的第二类拓扑描述符是分子指纹。分子指纹通常是长而连续的位数组,但有时还是证书和实值描述符,可以使用相似系数将他们相互比较。与很多分子描述符一样,现在已经定义了很多分子指纹。指纹最初被设计用来快速筛选处描述符,然后在化学信息检索系统中执行了计算量更大的子结构搜索。感兴趣的子结构被编码到指纹中,以便与感兴趣的化学结构的预先计算的指纹数据库进行比较。
分子指纹可分为两类:基于知识的指纹和基于信息的指纹。基于知识的指纹使用分子亚结构的词典,如果要考虑的结构中存在指纹,则会将指纹中的对应位明确分配给每个子结构。通常,即使子结构出现多次,也只会在指纹中将其计数一次。
基于信息的分子指纹采用正在研究的化学结构,并使用多种算法之一将其转换为指纹表示。由Daylight Chemical Information Systems设计和实现的Daylight Fingerprint是最著名的基于信息的分子指纹之一。在此,通过迭代每个单独的原子并列举直至特定长度的所有可能的原子键合原子路径(通常在这些指纹中为七个键长路径)来检查化学结构。指纹通常很长,1024或2048位并不罕见,这些长度在分子相似度的计算速度和适当描述分子结构的信息能力之间提供了有效的平衡。

两种可靠的化学结构编码

SMILES和InChI
PubChem和ChemSpider将InChI算法作为其数据验证架构的一部分,许多其他数据库接受InChI和SMILES字符串作为搜索化学结构的查询方式。
InChI可以散列为27个字符的较短形式,称为InChIKey。这样可以更轻松的通过通用系统进行搜索(例如Google),这些系统可以在开放式数据库中定位化学结构。散列后,InChIKeys是不可逆的,并且不能通过算法生成化学结构,除非通过在也包含该结构的数据库中查找InChIKey。因此,InChIKey可以用来秘密的标记尚未公开的专有结构信息。
游客,本帖隐藏的内容需要积分高于 100000000000 才可浏览,您当前积分为 0

SMILES是使用短ASCII字符串来描述化学结构的线性符号,SMILES是1980年代开发的并且应用于Daylight Chemical Information Systems(Santa Fe, NM),但是,它今天仍然在广泛的使用中。

SMILES的独特规则
在SMILES里,原子用原子符号来表示。两个字符的原子符号的第二个字母必须以小写形式输入。每个非氢原子均通过用方括号[](例如[Au]或[Fe])括起来的原子符号独立的指定。如果假定“隐式”氢原子的数目正确,则“有机子集”(B,C,N,O,P,S,F,Cl,Br和I)中的元素可以省略方括号。始终在括号内指定“明确”连接的氢和形式电荷。 正式费用由符号+或-之一表示。 单键,双键,三键和芳族键分别由符号-,=,#和:表示。 单键和芳键可以被并且通常被省略。 以下是SMILES字符串的一些示例:
101.png

分支由括号中的附件指定,并且可以嵌套或者堆叠,如这些示例所示。
2.png

尽管省略了这两个SMILES中的碳-碳键,但可以推断出所省略的键是单键(对于环己烷)和芳族键(对于苯)。 一个也可以代表作为非芳族KeKulé结构的芳族化合物。 例如,以下是苯的有效SMILES字符串。
3.png
注意,芳香度不是可测量的物理量,而是没有一致数学定义的概念。 结果,不同的芳香性检测算法通常在给定的分子是否为芳香族上彼此不一致,从而使得难以在使用不同芳香性检测算法进行SMILES生成的数据库之间交换信息。
还要注意,一个环结构可以具有多个潜在的闭环点。 例如,六元环具有六个键,每个键都可以是一个闭环点。 结果,环化合物可以由许多不同但同样有效的SMILES字符串表示。 实际上,很常见的是,有许多SMILES字符串表示相同的结构(无论是否具有环),因为一个分子可以从分子中的任何原子开始以生成SMILES字符串。 因此,有必要在许多可能性中为分子选择“唯一的SMILES”。 因为这是通过称为“规范化”的过程完成的,所以此唯一的SMILES字符串也称为“规范的SMILES”。


想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2025-1-9 02:08

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表