Nature文献解读:Machine-learning-assisted materials discovery using failed experiments

来源:互联网 发布:淘宝双十一抢货攻略 编辑:程序博客网 时间:2024/05/29 11:58

Nature文献解读:Machine-learning-assisted materials discovery using failed experiments

声明:本文仅提供对英文原文的中文解读,仅作为参考所用,适合一些对于机器学习在化学领域应用感兴趣的研究人员作为参考,文献引用信息参见原文,部分解读不到位或者专业词汇错译还请读者自行根据原文理解。由于排版原因,部分化学式没有上下标。
原文和参考信息(SI)地址:
http://www.nature.com/nature/journal/v533/n7601/abs/nature17439.html

利用失败的实验在机器学习的帮助下发现新材料

无机有机杂化材料,例如有机模板金属氧化物,金属有机骨架(MOFs)和有机卤化物钙钛矿已经研究了几十年。水热和非水溶剂热合成产生了数千种材料,几乎包括了元素周期表所有的元素。
然而,这些组分的合成并未完全了解,新化合物的研发主要依靠于探索性的合成。模拟和数据驱动方法(通过诸如材料基因计划的工作)提供了一个替代实验的试错法。
三个主要的策略为:
1、基于物理性质(例如,电荷迁移率,光伏性质,气体吸附能力和锂离子插层)的模拟来预测以确定有希望的目标候选物。
2、通过大量的实验数据来确定结构-性质关系,主要通过与高通量合成和测量工具的集成来实现。
3、相似晶体结构的聚类分析(例如,沸石的结构分类或气体吸附性能)
在这里,我们提出了一种新的方法,它利用反应数据作为训练数据集,利用机器学习算法来预测模板化的亚硒酸镁的结晶的反应产物。
我们使用了所谓的“黑色”反应数据——从我们实验室存档的笔记本中的失败或不成功的水热合成实验中收集的,并利用化学信息技术为原始笔记本信息添加了物理化学性质的描述。我们用数据的结果训练一个机器学习算法来预测反应成功与否。当使用先前未测试的,市售的有机结构单元进行水热合成实验时,我们的机器学习模型胜过了传统的人类策略,并且成功地预测了新的有机模板化无机产物形成的条件,成功率为89 %。反转(倒置)的机器学习模型解释了关于成功产品形成的条件的新假设。


第一性原理晶体预测,即使是对于溶液中的简单结晶来讲,都是根本上困难的,这是由于需要使用高级量子化学方法的组合极大的计算组件的布置。
预测化学反应之后的晶体结构(如在水热或溶剂热合成的情况下)甚至更具挑战性,因为需要用到整个反应的精确势能面。相反,我们提出了一个潜在的处理方案,即给定一组反应条件和试剂,在此情况下是否会产生任何晶体。
之前已经描述了关于特定有机分子是否会结晶的问题的机器学习方法。(详见Wicker, J. G. P. & Cooper, R. I. Will it crystallise? Predicting crystallinity of molecular materials. CrystEngComm 17, 1927–1934 (2015). )
化学家通常对材料合成的比例以及试剂性质的模式做出“直觉”预测。如果这些模式存在,那么它们可以通过数据挖掘技术被发现,给出一个成功和失败反应的数据库。
然而,公开的文献仅仅包括有限的成功反应的子集,通常为每个化合物的单组条件。绝大多数未报告的“黑暗”反应在实验室笔记本中归档,通常无法访问。这些反应包含确定成功与失败之间的界限所需的有价值的信息。


为了使用这些数据来指导未来的材料合成,我们开发了一个可访问的公共数据库(https://darkreactions.haverford.edu/)以便于从现有实验室笔记本的初始数据输入以及进行的实验数据收集。
数据库模式是足够通用的,以适应超出我们感兴趣的特定化学反应的描述(例如:允许任意数量的无机和有机物质或非水溶剂)。我们有意捕获一些可能对以后研究有用的实验数据(例如:产品纯度标签),以避免重复进入实验数据,即使它们并没有在本研究中使用。
数据捕获过程和可靠性测试在方法(后文的Method)中描述,在排除不完全实验室笔记本条目后,3955个独特的完全反应仍然用于训练和测试机器学习模型。
反应物名称可用于为我们的机器学习模型创建属性描述符。对于有机和草酸盐类反应物,使用市售的化学信息软件来计算分子的物理化学性质(例如,分子量、氢键供体/受体数目作为pH和极性表面积的函数)。
对于无机反应物,使用原子性质(例如,电离势(或离子化势),电子亲和力,电负性,硬度和原子半径)和在周期表上的位置的列表值。另外,使用实验反应条件(例如,温度,反应持续时间和pH)和不同反应物的摩尔比(详见Method)。
使用该扩展的反应物性质表建立支持向量机模型(SVM),利用单个SVM模型用于预测实验结果,在描述其测试集数据中的所有反应类型时,具有78 %的准确度,如果仅有钒—亚硒酸盐反应,则达到79 %准确率。
凝聚态(固态)合成项目可分为探索(exploration)可开发(exploitation)阶段。成功的探索会揭示新的“稳定岛”——能够形成产物的一系列集合。在这一探索阶段,成功率往往较低,因为成功合成所需的参数的可接受范围一般是未知的。
稳定岛的边界可以通过改变有机反应物来反映。在开发阶段,能够扩大功能材料性能的范围,并揭示了有机-无机相互作用的新见解。在该阶段期间的成功率是可以很高的,因为有机分子的结构和反应性是可以非常相似的,因此改变有机反应物对化学具有更加微妙的影响。
一个成功的模型应该增加新材料的合成和表征的速率,并给出化学洞察力(chemical insight)。
为了证明我们的模型相对于人类化学家的典型策略的性能差异,我们集中在模板化亚硒酸盐中的反应开发(exploitation),其中将新的有机结构单元引入反应当中。这些反应允许我们:、
1、比较化学家和算法结果的差异。
2、获得更高质量的数据统计,因为开发(exploitation)获得的成功率更高。
3、增加对这些化合物中看到的连接性和维数多样性异常的理解。
虽然,在我们这文章之外,我们的模型也可以用于探索(exploration)反应,通过计算抽样可能的反应条件,预测成功率,然后根据化学兴趣进行排序。
我们使用商业可用的数有机化合物数据库来鉴定34中新的二胺类有机物,通过我们数据库中已有的有机反应物的相似性来取样(详见Method)。使用这些二胺的有机模板金属氧化物基本上是未知的,它们几乎不存在与剑桥的结构数据库(见Method),然后将这些胺用于人或模板控制的水热合成反应。示意可见图1。


这里写图片描述
图1:“黑色”反应中反馈机制的示意图。从历史反应数据生成的机器学习模型用于推荐新的反应以执行,并产生关于晶体形成的人类可以解释的假设。SVM指support vector machine,支持向量机。


模型推荐的反应具有89%的成功率,就像通过多晶或单晶形式的目标化合物类型的合成所定义的那样,并且成功率是独立于胺结构的相似性的(参见图2)。 这超过了人类直觉成功率的78%。差异是统计学上的。Fisher精确检验表明P <0.01的模型预测的优于偶然结果,双样本比例检验表明该模型相对于人类直觉的8%优势,且P <0.05。实验测试中模型的89%成功率大于在模型构建期间测量的测试集合精度,因为历史数据上的训练/测试拆分基本上仅测试探索(exploration)反应(其中模型不确定性较高) 而这些实验测试开发(exploitation)反应(模型不确定性较低)。


这里写图片描述
图2 作为胺相似性的函数的与模板化钒 - 亚硒酸盐晶体的形成相关的实验结果的比较。 深色条表示模型预测; 更浅的颜色条表示传统的人类策略。产生多晶和大单晶产物的反应分别以蓝色和绿色显示。纵轴表示反应可能具有指示的结果。该模型比人类策略更成功地预测晶体形成的条件,而无视模板胺与数据库中的已知实例的结构相似性。


SVM对于简单检查是不透明的。为了获得洞察力,我们通过将原始SVM重新解释为一个人类可解释的if-then标准的决策树(参见Method)来创建一个“模型的模型”。简化的流程图表示如图3所示,并且树的钒 - 亚硒酸盐分支的完整版本显示在补充信息中。(Supplementary Information is available in the online version of the paper.补充信息在该论文的online版本中)
从该流程图,可以产生化学假设以指导未来的实验。这种方法可以应用于任何模型存在的任何化学系统。在这里它产生了关于模板化亚硒酸盐的形成的三个假设,分类为胺的分子极化率。每个假设的代表性结构如图4所示。(该模型通过平均鲍林电负性分离无机晶胞;因此,亚硒酸盐和钼酸盐出现在同一个子树中。在下面的讨论中,我们仅考虑子树中包含的钒 - 亚硒酸盐反应。
中度极化胺(10.29–19.51Å3),图3中用蓝色显示,需要含硫物包裹的反应物体,尤其是这里的V(IV)OSO4。(决策树通过在右支的极化率,以及有机物折射率,即左支的摩尔极化率,选择出了这些胺(具体可见决策树)。)除一个之外,其余所有的有机模板钒亚硒酸盐在文献中都包含V4+离子,它必须是作为一种反应物或通过V5+胺同时氧化还原原位生成。这些几何结构紧凑的胺似乎在反应时间内无法从V5+前体产生足够的V4+浓度。这就触发了不含有机胺的多晶反应产物的形成。采用 V(IV)OSO4后规避了无法产生V4+的现象。
高极化率胺(17.64–29.85Å3),如图3红色标识,并非受到V4+生成的限制,但需要草酸盐才可成功制备。我们推测,草酸盐改变了无机次级结构单元的电荷密度,使这些长的,线性的,带有高电荷的三、四胺实现电荷密度匹配。
低极化率胺 (< 9.32 Å3),图3中以绿色显示,(例如,乙二胺,1,3-丙二胺、咪唑、N-甲基乙二胺)比在我们的数据库中的其他胺拥有更高的pKa值,并且不需要pH<3作为合适的的质子化状态。这些胺可从V5+的前体产生足够的V4+,但是反应很慢,需要较长的反应时间(大于26小时)。NaVO3的使用通常导致仅无机的多晶产物的形成。这不包括从反应混合物中析出的钠,利用NH4VO3,能消除这种热力学下沉,使目标相形成。


这里写图片描述
图3,SVM决策树,椭圆代表决策点,矩形代表反应产物,三角形代表切除的子树。箭头上的数字与决策属性测试值相对应。每个反应产物仓(矩形)对应于一个特定的反应结果值(就像看到的3和4一样,具体见Methods)。括号内的数字是正确分配的反应数目,未分类的反应在斜线后给出。分数值表明由于属性值缺失产生的不确定结果。包含大多数成功反应的矩形分为三个不同的组(绿,蓝和红)。每个添加颜色的子树代表了有利于单晶形成的一组特征反应参数。这些条件的分析会得出相应的结论,对应于低、中和高极化率胺。拓展版本将显示全部被切除的子树,详见补充资料(Supplementary Information)。


这里写图片描述
图4,三个假设的模型生成的图形表示,以及每个假设的典型结构。单晶形成所需的实验条件很大程度上依赖于胺的性质。小的,低的极化胺需要没有竞争反应的Na+,以及较长的反应时间,避免沉淀出无机晶体。球形,低投影尺寸的胺需要含V4+的反应物,比如VOSO4,因为它们不能直接从典型的V5+前体中生成V4+。长的三、四胺需要草酸作为反应物,用以改变无机二级结构的电荷密度。这三个假设分别对应于图3的绿、蓝和红子树。


这些假设为符合组分的形成提供了建议:
1、理解主要结构单元的形成(V4+)。
2、使次级结构单元的电荷密度与阳离子成分匹配。
3、避免不需要的结构单元(Na+)形成非模板相。
这些规则揭示了以前我们的化学中所不知到的规律。从这个分析得出的假设体现在图4的三个化合物中,[C3H12N2][V3O5(SeO3)3]·H2O 以及 [C6H22N4][VO(C2O4) (SeO3)]2·2H2O,是新的化合物,(具体资料见Supplementary Information)。
[C5H14N2][VO(SeO3)2]是最近报道过的,这些化合物胺的极化率从低(1,3-丙二胺)到中度(2-甲基哌嗪)到高(三乙烯四胺)。
我们的机器学习方法使我们能够利用历史反应中包含的化学信息,并阐明反应结果的因素。先前未经检验的有机胺的模型的预测精度超过了通过多年建立的化学直觉所取得的成果。此外,我们的方法以可测试的假设的反应结果的形式揭示了化学原理。能够更成功地合成新化合物,并获得有用的化学信息,这代表了在探索性反应上的一个变革。


METHODS
数据采集与可靠性:
从我们实验室笔记本电脑中输入数据的速率约为50个反应/小时。输入了三种类型的数据:首先,成分信息以反应物的名称和数量输入。反应物被归类为有机和无机结构的单元,或者作为溶剂。其次,对反应条件进行了描述,包括初始溶液pH值,和加热曲线数据。第三,反应结果包括定性描述的产品和产品纯度。这些描述在数据输入期间被编码。对于晶体尺寸编码,1代表没有产物,2代表非规则固体,3代表多晶样品或单晶的平均晶粒尺寸超过约0.01 mm。(这个尺寸效应是对于单晶X射线衍射数据采集的基本要求)。产品纯度编码:多相产物为1,单相产物为2。
可靠性测试是从数据库中随机选择100个反应,每个反应在每个字段对照实验室笔记本的输入进行检查。所有字段的整体错误率为1.89 %,对应于1800个中34个存在错误。每个反应必须至少都含有一种无机组分,一种有机组分,以及所有反应条件和结果字段所列出的。如果缺少上述字段的任何一个,则将该反应数据数据库以获得完整性,但是不用于以下所描述的机器学习的训练集或测试集。这些过滤器产生了3955个独特的、完整的反应的数据集。
反应物的描述:
利用ChemAxon Calculator Plugins计算有机和草酸盐类反应物的理化性质。(如,分子量,氢键供体/受体数目作为pH值和极性表面积的函数)。对于有机和草酸盐类反应物,19个属性直接被使用,其他则用来计算描述反应物不同摩尔比的6个变量。对于无机物质,有以下参数:12种原子性质(例如:电离电势、电子亲和力、电负性、硬度和原子半径)、描述特定金属存在与否的22个逻辑值、描述元素周期表上位置的28个逻辑值,以及8个用来描述单个元素用于反应物的金属化合价。5个实验条件,(例如,温度、反应时间和pH值)。每个反应描述符的变量以排序方式不变的方式呈现(如,最大值,最小值,算术平均,几何平均),这样一来输入的数据排序和和反应物的数量都不会有影响。总共,每个反应有273个描述符。有关于计算物理化学性质的完整表格见Supplementary Information。
支持向量机的创建与验证:
利用一系列广泛的模型进行了评估,包括决策树、随机森林、Logistic回归、K近邻和SVMs。如Supplementary Information的表5所示,一个SVM模型计算出了最高的准确度74%,经过计量,平均划分成了15个训练/测试集。具体来说,一个带基于universal Pearson VII 函数的kernel的SVM模型训练了3955个的实验室先前进行的反应。支持向量机在WEKA 3.7上执行;
实施包括一个内置的数据规范化的步骤。利用已知数据对模型进行了测试,使用的是1/3的测试集和2/3的训练集。因为目标是用新的反应物组合来预测反应的结果,所以需要仔细划分测试集。
过程中发现测试数据如果随机均匀的话,就可能将无机和有机反应物相同的组合(反应不同的只是成分等条件)为测试和训练集,从而不自然地地增加准确率。因此,包含一组特定的无机和有机反应物条件的反应被单独放置到测试或训练集中(而不是均放在测试或训练集中)。在这些条件下,SVM模型根据其两个类的精度进行了测定,其中的“3”或“4”的结果被认为是成功,“1”和“2”被组合在一起作为失败的反应。单一的SVM模型用于预测实验结果在描述所有的测试数据集的反应类型的准确性为78 %,而仅考虑钒亚硒酸盐的反应为79 %。超过15个训练测试集分组的平均准确性为74%(15个以上的测试训练集单独划分,求得平均的准确度)。构建了一个学习曲线来测试SVM,详细信息可在Supplementary Information中看到。
高维的特征空间对于SVM模型不成问题,因为它们对于相关特征具有强大的鲁棒性,并且经常在比我们的特征向量更高的维度上的问题中频繁使用。(例如,文本学习中具有10000个特征)。为了识别在分类成功率上最有影响力的因素,在模型上进行了特征选择。(见SI)所选择的特征是有机胺的性质(van der Waals表面积,溶剂带正电原子的表面积和氢键供体的数目)和无机成分的性质(金属的Pauling电负性平均值,摩尔加权硬度和平均摩尔加权原子半径)。仅使用这6个特征将模型的准确率降低到了70.7 %,因此,这整套特征都被用于实验测试。不过,上面列出的6个选定特征在模型的决策树中被描述了出来。
选择新的二胺:
使用eMolecules数据库(http://academics.emolecules.com/),来鉴定仅由C、H和N原子组成的新二胺,不包括腈,肼和同位素标记的化合物,得到了1680种先前尚未测试的市售二胺。对于每种二胺,计算了基于分子拓扑键路径的结构指纹(a structural fingerprint based on the topological bond paths),并且使用Tanimoto similarity计算与数据库中任何现有有机物的最大结构相似性,使用RDKit(http://www.rdkit.org)的默认参数执行结构指纹和相似性计算。
所使用的特定相似性度量并非关键的——通过比较12个标准指纹方法,发现它们相互彼此相关。根据相似性和成本,利用Sigma Aldrich(338种二胺)和Alfa Aesar(另外62中二胺)的目录价格进行排名。在排除了最高成本的二胺后,我们在与现有化合物相似性的范围内对34种二胺进行了采样。相同的34种胺用于本文中讨论的模型和人为的反应。平均来说,剑桥结构数据库(CSD)中的34种胺每一种都报告了两种结构,19种不存在于CSD中的任何模板金属氧化物结构中。相比之下,对于最常用的胺(哌嗪、乙二胺、4,4’-二吡啶基和DABCO(1,4-重氮二环(2,2,2)辛烷)),存在平均151个独特结构。
水热合成:
为了避免引入偏差,所有反应类型(与在试剂和反应条件的特定组中不同)被随机分配为人为控制或模型控制的,规定每个胺以大约相同的频率出现。胺的使用量有模型或简单地根据人类直觉的方法确定。通过对一系列有机物摩尔量进行取样,然后通过预测产物和置信度来排序产生模型的给出的建议。为了保持一致,人为预测反应时采用水热合成社区广泛使用的规则,即,通过它们各自的公式权重缩放有机胺的量,而所有其他反应参数保持不变。简洁地来说,我们称这种基于规则捕捉人类化学知识的方法为“直觉”。所有反应在温和水热条件下在23 ml的聚(氟乙烯-丙烯)的内衬压力容器中进行。使用4 M(mol/L) HCl或4 M NaOH将初始的反应混合物pH值调整至适当的值。将反应混合物加热至90-110 ℃,维持12-72小时,随后压力反应容器在空气中打开,产物通过过滤回收。使用客观手段(测量微晶尺寸和粉末X射线衍射)来评定反应结果。
统计分析:
使用R 3.2.1中提供的标准包进行统计分析。没有使用统计方法来预先确定样本大小。
决策树的建立:
所有数据用SVM模型的预测结果重新标记,并且使用C4.5决策树(在WEKA3.7中执行)来对这些预测结果进行建模。
代码可用性:
此项目的所有代码可在https://github.com/darkreactions中获取,该代码在GPL version3下获得许可,所述许可的具体条款随代码提供。

此文为看点科技曲奇原创内容,特此声明

0 0
原创粉丝点击