文章标题

来源:互联网 发布:淘宝客佣金在哪里设置 编辑:程序博客网 时间:2024/06/11 11:05

化学中机器学习方法神经网络输入编码的表示方法
简介:
在CCS空间里,化合物的自由度为4N,其中3N个笛卡尔坐标,N个原子的电荷值。但其中显然存在冗余自由度,我们致力于建立良好的编码模型,能够完美的表示CCS化合物的信息。可以说在机器学习等统计模拟中,输入形式的选取至关重要,因此这需要我们理解其建模方法。
描述符往往会包含一些先验信息,如引入键长的概念,但引入后往往在描述分子间作用力以及氢键时会出现一定偏差。因此我们需要找寻从第一性原理出发得到的一系列描述符(波函数类,密度泛函类,量子蒙特卡洛类)。
在此文章中,我们介绍分子的指纹表示方法(距离的单变量),该方法不随旋转原子排序平移而改变,即反映了4N-6的自由度,去除了冗余自由度。与从头算方法类似,该方法只需要提供坐标及电荷信息,该方法甚至能准确学习由从头算量子动力学方法计算的路径积分所反映的海森堡测不准原理。该文的结构如下,方法部分提出了整体框架探讨了描述符所需满足的条件。然后从外势能出发,讨论了描述符的具体形式。
方法:
描述符是用来表示化合物并作为其机器学习的输入,描述符必须适应统计学习方法的要求,与计算机领域机器学习方向的输入特征类似,即因以数值卷积的形式存在。
构建描述符时,我们必须考虑以下原则:第一性原理:描述符在编码哈密顿计算时应保证信息无损输入。若能无损输入,其输出应该能很好的学习能量,力,及相关电子性质。目前满足这一条件的描述符有sorted-coulomb-matrix,gaussain shape,bispectrum,power spectrum,angualr distributions[好多],描述符应尽可能简洁同时尽量不存在信息损耗。Coarsened(粗化):有损信息描述符往往只能学习一些重要的特征,而氢键给体受体之类的则无法学习,这类描述代表为diagonalied coulomb matrix,the bag-of-bond descriptor,signature descriptors.这类描述符无法重现化合物的全部特征,描述符应损失较小,能描述所需要的以及重要的化学性质。Integrated(集成):描述符有的可用来作为多输出的输入,如pKa,HOMO eigenvalues,但我们需要令其具有泛化性质。
在本文中,我们只探讨从第一性原理出发得到的描述符,而粗化及集成的描述符表示可从其他相关文献中获取。描述符必须满足唯一性,唯一性的要求可通过反证法得到。此处省略,类似于函数自变量到因变量的唯一映射证明。唯一性是描述符成立的必要不充分条件,具体事例可参考Zxyz矩阵,过多自由度往往会减小泛化能力,加大计算开销,对类似有机物区别度不大,不能满足海森堡原理,同时这也是统计学方法的要求。因此描述符最好在第一性原理和粗化描述符的边界。包含一切信息却无任何冗余信息。
理想描述符的性质
理想描述符具有大小一致性与对称性,从量子力学算符来看,对称的原子对势能的贡献应该相同,而且能量综合可有对称的一部分加和得到。此外理想描述符应该具备完备性与全局性,也就是说其编码了化合物的全部信息,而不仅仅是部分。局部信息编码得到的输出往往难以预测长程的电子光子耦合,电子迁移以及金属性质。
此外,理想描述符预测范围要大,预测结构因光滑,不同区域,机器学习方法得到的输出的光滑度并不相同,可通过获取更多的训练集来得到更平滑的超平面,但此时以及是过拟合状态,会相应的减小预测精度。我们发现,目前提出的FR描述符能满足一系列的性质,如第一性原理微扰不变性,平移旋转不变性,镜面对称性,唯一性以及可微性。
从第一性原理出发,我们从HK理论研究其总能量仅与电子密度有关,因而电子密度可以看出量子化学方法中的理想描述符通过修改我们得到 ,之后考虑到平面波的信息不变性我们引入傅里叶方法得到一变体,对P(r)做傅里叶变换得到 ,通过共轭相乘,得到关于w的函数 ,引入欧拉公式考虑矩阵形式,得到矩阵元素 ,库伦矩阵可看做其特殊形式。
在得到3-D形式的傅里叶形式以后,我们考虑了1-D版本,将三维投影,得到
1-D描述符存在信息损失,通过改良,得到 ,w变为了距离r,RDF形式多种多样,目前报道了多种形式,有slater型,laplace型,gaussian径向分布型。

0 0
原创粉丝点击