Handsome_zhou 发表于 2021-5-15 21:57:37

SMILES表达式2

本帖最后由 Handsome_zhou 于 2021-5-16 14:15 编辑

SMILES符号由一连串不间断的字母组成,采用纵向优先遍历数算法将化学结构进行转化。在SMILES基本规则中,氢原子忽略不计,芳环结构采用链打开的方式或直接由开库勒(kekule)形式表达。表达时,拆分键端的原子要用数字标记,支链写在小括号里。
SMLIES编码的五个要素分别为原子、化学键、支链、闭环和未连接结构。
化合物的同分异构体遵循同分异构体(isomeric)SMILES编码规则。



SMILES编码的基本原则
原子通常以大写元素符号表示(省略氢原子),芳香结构原子则以小写表示。
相邻原子依次排放在一起,单链通常省略,双键和三键分别以“=”和“#”表示,芳香键以“:”表示,也可省略。
分支部分放在括号内,环则打开,并赋予断开键两端的原子以相同的数值。
双键用“/”表示顺式,“\”表示反式。
原子顺时针排列用@表示,逆时针排列用@@表示。



1、原子的SMILES表达
在SNILES表达式中,原子由相应的元素符号表示,即使用相应的英文字母;化合物的氢原子被省略;其他原子由相应的元素符号加中括号[]表达。由两个字母组成的原子,其元素符号的第二个英文字母要小写,如Cl、Br。当化学键明确且元素处于最低正常价态时,化合物可直接表达为元素符号,如B、C、N、O、P、S、F、Cl、Br和l,不用加中括号。芳香环类物质用小写字母c表达,而脂肪族用大写C表达。


2、离子的SMILES表达
当元素的化合价高于最低正常价态,或存在于无机化合物中时,元素要加中括号表达。例如,元素硫、元素金。与原子相连接的氢离子或其他任何离子都应被注明。连接的氢数量应采用字母H加数字来表达。正常电荷数的离子可采用元素符号加“+”或“—”加数量来表达,也可以直接采用多个“+”或“—”表示出所有电荷,如与是等效的表达。对于在中括号内的元素,如果没有标明电荷数,就认定电荷为零。


3、化学键的SMILES表达
在SMILES编码规则中,单键、双键、三键和芳香族的离遇域键分别可由“—”“=”“#”和“:”符号来表达。相邻的原子由单键或芳香族的离域键链接时,通常无须符号表示。对于线性结构的物质,SMILES基于常规图解方法,并省略氢原子和单键。


4、含支链化合物的SMILES表达
支链应该写在括号()内,并表达在所连接的主链原子之后


5、环状结构的SMILES表达式
SMILES表达中,环状结构需断开一个化学键来表述分子结构。连接键可按任意顺序标注,键断裂处的原子后用阿拉伯数字1、2、3等标注。这里的数字只是用来标注闭环结构以闭环的数量。断裂后的环状化合物按上述线性化合物的三大原则进行表述。环已烷就是典型的例子,其SMILES表达式为C1CCCCC1。

同一个化合物也可由多个不同的等效的SMILES表达式进行表述。

6、未连接结构的SMILES表达
未连接结构化合物采用点符号”.“来隔开每个单独的结构。离子或配体可按任意的顺序标注出。一个电荷无须与另一个电荷组成配体,化合物也无须净电荷为零。有时,SMILES可表达一个离子包含于另一个离子化合物中。


7、双键构型的SMILES表达
双键周围的构型可用符号”/“和”\“来表达单键或芳香键的方向。当原子间存在双键时,”/“和”\“表明原子间连接的相对方向。顺式用两个不同方向的斜杠表示,反式用两个相同方向的斜杠表示。
E-1,2-二氟乙烯和Z-1,2-二氟乙烯的SMILES表达式如下图所示。


8、四面体构型的SMILES表达
SMILES能接受任意的原子排列顺序,当分子结构发生改变或重组时,仍能保留手性分子的特征。四面体是最常见、最简单的手性结构。四个相邻的原子围绕着同一个原子排列,该原子为”手性中心“。如果四个相邻的原子互不相同,那么其镜像结构是不同的,两个相对应的镜像体作为手性中心的两个异构体。SMILES规则中,四面体中心采用元素符号加”@“或”@@“来简化手性说明。如果手性中心未作说明,那么手性分子的手性结构是未明确的。如图中左边的SMILES表达式N(C)(F)C(=O)O(即依次为氨基、中心碳、甲基、氟、羧基基团)。



9、SMILES中其他规则

(1)氢的规则
    通常情况下,有机物结构中的氢原子无须被标注出来。氢包括三种表达方式:1)氢原子以普通单键相连,处于正常的化学价态时,无须标注氢原子;
                                                                                                               2)中括号中的氢原子,并加数字表明氢的数量
                                                                                                               3)指氢原子
    例如:丙烷可输入为或CCC(采用SMILES简化表达式CCC常见)
    以下四种情况,氢需要明确的说明:
    1)带电荷的氢,如一个质子
    2)氢原子与氢原子相连接,如氢气分子
    3)同位素氢原子,如重水O

(2)芳香族化合物的规则
    基于分子对称性特征,SMILES能推导出芳香族结构的明确化学命名法则。如果使用者更偏爱脂肪族的开库勒结构,那么在表达芳香族有效结构时可以不输入芳香族结构。芳香族结构也可以直接采用小写字母的原子符号来表达,如n指芳香族氮化合物的氮原子,这样能简化明确的化学结构说明,也更接近与分子模型的真实结构。


(3)化合价的规则
SMILES使用分子结构模型时不对化合价做明确定义,这也是SMILES的一大优势,针对一个分子结构模型,SMILES能描述出不同的化合价。例如,硝基甲烷可表达为CN(=O)=O或者带电表达式C(=O)。两种表达方式都是正确的,但我们更倾向于采用后一种表达方式,因为当分子呈现非对称结构时,采用电荷分离结构表达能避免原子处于非正常化合价态时引起的歧义。例如,重氮甲烷表达式为C==时优于用C=表达。

(4)分子存储格式及其相互转换




专门用于搜素化学信息:ChemFinder,MetaXchem

   

血色的救赎 发表于 2023-3-3 15:39:37

{:10_256:}
页: [1]
查看完整版本: SMILES表达式2