nmr检测公司,nmr检测企业

  

  通过无监督机器学习加速双核Pd催化剂识别   

  

  文章出处:胡利安休费尔、特里萨斯珀格、伊格纳西奥富内斯-阿多伊斯、雅斯沃德、卡里里萨宁、弗兰齐斯卡舍内贝克。通过无监督机器学习加速双核钯催化剂识别。Science2021,374,1134-1140。   

  

  虽然摘要:的机器学习在加速均相催化的发展方面有很大潜力,但频繁需要大量实验数据可能成为其实现的瓶颈。在这里,作者报告了一个无监督的机器学习工作流,仅使用了5个实验数据点。它使用通用参数数据库,并辅以针对硅数据采集和聚类中特定问题的数据库。目前,钯(Pd)催化剂形态的形成缺乏明确的机制,作者的策略显示了解决这一挑战性问题的实力。该算法从348个配体的总空间中,预测并通过实验验证了一些膦配体(包括以前从未合成过的配体),它们在更常见的Pd(0)和Pd(II)物种上生成了双核Pd(I)配合物。   

  

  均相金属催化剂的形态是反应性、效率和选择性的关键决定因素。然而,决定核心(如单体和二聚体)、有利的氧化态和催化剂的配位状态的因素很少被了解。例如,在广泛使用的钯催化交叉偶联的背景下,Pd(0)2被氧化并加成到芳基溴上,原位生成Pd(I)二聚体。当P(t-Bu)3被Ph2PH取代时,同样的Pd(I)二聚体转化为Pd三聚体。对于非贵金属物种(例如铁、钴、铜或镍催化剂),这种形态形成的挑战进一步加剧。对于这些非贵金属物种,除了氧化态和核态,细微的配体差异可能会影响其有利的自旋态。显然,配位配体的性质对物种的形成有决定性的影响。然而,很少了解或预测每个配体影响的潜在来源(图1)。   

  

  由于对配体和催化剂形态之间的相关性没有深刻的理解,新催化剂的开发严重依赖于重复试验或高通量筛选努力。前一种方法倾向于直观,而后一种方法依赖于大量配体文库的可用性或易用性。任何进入未知配体空间的选择都将面临来自巨大结构可能性的选择挑战。任何进入未知配体空间的选择都将面临来自巨大结构可能性的选择挑战。早期的例子包括广泛使用的托尔曼锥角作为配体空间碰撞的量度,或CO的拉伸频率作为配体电子影响的量度。近年来,人们试图通过一系列描述符来参数化膦配体,以建立更全面的表征。例如,Fey,Harvey,Orpen和他们的同事开发了一个“配体知识库”(LKBs)。对于单齿膦,“LKB-P”包括348个膦配体,在硅中由28个不同的描述符表征。根据特定配体数据,如质子亲和力或最高占据/最低未占据分子轨道(HOMO/LUMO)能量,计算数据并描述模型配合物中的配体相互作用(配位Au、Pt、Pd、B)。然后,对数据集进行主成分分析(PCA)以降低其维数,并提供二维图(图1C中的LKB-P ),其中具有相似一般性质的配体位于相似的区域。然而,尽管这种表达提供了许多关于给定配体的电子和空间结构性质的一般见解和细节,但配体-物种形成关系不能被推导出来,如下所示。因此,有必要采取一种根本不同的方法。   

  

  假设结构和反应性紧密相连,相似的结构因此应该有相似的反应模式(如二聚体、单体、特定配体、氧化态或自旋态),作者开始确定一种方法来预测这种相关性。为了实现这一目标,作者使用机器学习,并在Pd(0)/Pd(II)单体和Pd(I)二聚体的挑战上测试了该方法的可行性。   

  

  虽然绝大多数Pd催化的交叉偶联反应都是由于单核和偶数氧化态催化剂(如Pd(0)/Pd(II))引起的,但通过与普通添加剂配比或氧化,与一些配体的双核Pd(I)配合物是原位形成的。根据Pd(I)二聚体的精确结构,它对反应活性和效率有不同的影响。在这种情况下,二卤桥基序2(图1B)在稳定性和催化性能方面表现突出,并已被证明是原位低配位Pd(0)或Pd(II)-H物种的有效无环前体。此外,二聚体还可以通过双核循环直接反应,具有不同的驱动力和实用性,促进了传统Pd(0)/Pd(II)循环中难以形成的键。这些特性使得,例如,在聚(假)卤代芳烃中,即使在耐氧条件下,也可以预先控制位置选择性。   

  

  虽然已经合成了近似2,即P(t-Bu)2Ph,P(1-Ad)2(n-Bu)和P(t-Bu)2(i-Pr),但这些新的二聚体主要是在试错的基础上开发的。事实上,到目前为止,人们对为什么有些配体可以稳定Pd(I)而有些却不能还知之甚少。此外,对于给定的配体,一种Pd(I)二聚体的几何结构可能优于另一种,这也是未知的。例如,Pd(I)二聚体的优选合成方法包括Pd(0)L2和Pd(II)I2的逆歧化过程,该过程在室温下混合一段时间,上述三烷基膦配体用于定量。根据这些观察,对Pd(0)L2和Pd(II)I2歧化过程中相应驱动力的计算和研究表明,持续放热量约为-50 kcalmol-1。   

(图1C),进一步证明这一进程是热力学有利的。然而,当采用三烷基膦配体三环己基膦(PCy3)配体时,作者计算出了类似的明显的反歧化过程驱动力(即-51.6 kcalmol-1,图1C),但所有试图合成相应的Pd(I)二聚体的实验都失败了。Pd(0)(PCy3)2与Pd(II)I2的反歧化过程产生了PCy3配位的Pd(II)二聚体,即随着Pd(0)一起析出的2。

  

这个例子清楚地展示了问题的复杂性。为了从力学和量子力学的角度准确预测催化剂的形态,有必要对溶液中可能(或不可能)形成的各种潜在物种、它们的配位态(有或没有溶剂)、自旋态或电荷态、以及潜在的动力学状态相互转换。这样的信息很少能完全获得,因此,到目前为止对决定催化剂形成因素的理解如此之少也就不足为奇了。

  

类似地,对于哪些配体是最适合二聚体形成,目前的配体数据库只提供了很少的信息。在追踪目前已知的Pd(I)二聚体诱导配体,以及那些在Fey配体图上不利于Pd(I)二聚体的配体时,很明显,二聚体诱导配体P(1-Ad)2(n-Bu)和P(t-Bu)2Ph实际上比其它二聚体诱导配体P(t-Bu)3和P(t-Bu)2(i-Pr)更接近PCy3,这不利于Pd(I) (图1C)。此外,除了这些二维表征外,作者对配体与该数据库描述符的Euclidean距离分析还将两个二聚体诱导配体P(1-Ad)2(n-Bu)和P(t-Bu)2Ph分类为更接近PCy3而不是其它二聚体诱导配体。

  

图1

  

由于现有的定性指南和洞察力驱动的策略显然无法应对这一(和其它)物种形成的挑战,作者开始探索化学指导的替代方法,并在此背景下研究数据驱动方法的可行性。

  

在机器学习方法中,所谓的“监督”和“无监督”算法代表了最常见的学习形式。在监督学习中,模型是用输入-输出对组成的数据来训练的。监督学习尤其适用于回归和分类任务,并已成功地应用于预测选择性,以及催化环境中的反应条件和产率。然而,这种方法需要大量的训练数据集,这在作者的(和许多其它)物种形成挑战中是不可用的。

  

相比之下,无监督机器学习技术可以应用于识别数据集中的模式,而不需要使用带标记的数据对算法进行训练(因此不需要已知输出,如实验)。学习过程提供了与传统分析完全不同的见解,因为它们纯粹是由“机器”而不是“人类”的指导。集群是无监督学习的主要领域之一,根据数据点的潜在相似性将数据划分为几个组(集群)。

  

作者的数据分析的起点是2010年发表的单齿P供体配体(LKB-P)的配体知识库,该知识库涵盖了8种不同配体类型的348种配体,如各种膦、亚磷酸和其它含杂原子的变体。该数据库中约30%的配体尚未商业化,17%的配体尚未发表实验合成。作者开始使用无监督机器学习来检验该算法是否能够检测出配体之间的不同关系,从而为原始的LKB-P数据库增加另一层知识(图2A)。作者选择k-均值算法将配体划分为不同的子组(集群)。该算法只需要预先定义一个参数,即所谓的“集群数k”,为此作者选择了k = 8的值(基于对肘部法和轮廓评分的分析)。

  

该算法集群的配体独立于它们的实际配体类型,经常以一种非直观的方式混合不同类型在同一集群内。此外,虽然配体在Fey配体图的相同区域,但它们被分配到不同的集群中,使得集群重叠,尤其是在图的顶部(图2A)。这种重叠表明算法检测到配体之间的某些差异,这是纯视觉分析原始配体图(图1C和2C)所不能揭示的。特别是,该算法将已知的四个2-二聚体<包括P(t-Bu)3、P(t-Bu)2(i-Pr)、P(t-Bu)2Ph和P(1-Ad)2(n-Bu)>与非二聚体诱导的PCy3区分开来。然而二聚体诱导配体分组在C1和C4集群中(图2A),非二聚体诱导的PCy3是单独集群的一部分(C6);通过使用不同(随机)初始化种子重新执行1000次集群,验证了这一结果。这些发现促使作者进一步研究其它89个配体,这些配体也属于C1和C4集群。

  

然而,采用另一种基于k-均值的集群方法,使用相同的描述符对预测配体进行进一步的亚分类(使用不同的初始化种子对统计相关的图片进行1000次),结果导致配体空间的减少不足,60%的配体与作者已知的四种二聚体诱导参考配体属于同一集群。

  

由于选择原始LKB-P数据库的描述符是为了尽可能一般化地描述配体,因此可以认为89种配体的一般属性是相似的,这可能是进一步亚分类的尝试无效的原因。然而,为了区分这些配体来解决作者手头的特定化学问题,即配体是否有利于二卤化物桥联的Pd(I)二聚体,作者设想,针对该标准进一步细化C1和C4集群将是最优的。

  

由于第一次集群,将所有配体根据其一般性质进行分组,配体空间从348个大幅减少到89个(即约占原始数据库的25%)。因此,只需要为这个子集生成特定于问题的数据。通过这种方法,作者基本上指导算法更仔细地检查化学配体空间的某个子集,同时最大限度地减少生成额外数据的需要。

  

作者开始引入一组新的问题相关描述符,这些描述符完全是通过量子力学<密度泛函理论(DFT)>计算在硅中获得的。作者决定专门研究含有P-C键的膦配体,共66个配体。按照图1D所示的工作流程,作者在Pd(I)二聚体形成的具体方面引入了一组由DFT计算导出的新的描述符(图2B)。新的描述符包括单和双膦Pd(0)和Pd(II)配合物(图2B中配合物B、C和E、F),以及双核Pd(I)和潜在的竞争双核Pd(II)配合物(配合物D和G)。

  

在此背景下,作者只关注I桥联Pd(I)配合物,因为这些复合物在空气中往往是稳定的。通过保留初始数据集中的一些一般描述符,如HOMO/LUMO能量、质子亲和、膦的立体体积测定以及与Pd相关的描述符,作者在改进的模型中保留了来自初始集群的信息。随后,作者总共推导出42个新的描述符来代表膦在二聚体相关环境中的作用。为了获得一般的Pd配体键性质,作者为所有计算的配合物引入了各种几何描述符(图2B)。此外,还引入Sterimol描述符来捕捉构象效应的影响。电子描述符包括Pd (NBOPd)和磷中心(NBOP)的自然键轨道(NBO)电荷(图2B)。计算了配合物D到G的还原自由能(ΔGRed1 - ΔGRed4),以及配合物C、E和F的配体键离解能(ΔGDiss1-ΔGDiss4) (通过假设的还原得到相应的中性Pd(0)和碘离子)。此外,还计算了从双膦Pd(0) (配合物C)和PdI2生成Pd(I)二聚体(配合物D)的反歧化过程能(ΔGComp),以及从相应的单体(配合物E)形成Pd(II)二聚体(配合物G)的二聚能(ΔGDimer)或双核的Pd(II)配合物(配合物F)和PdI2的重组能(ΔGReorg)。虽然之前对这些反应能的机理解释不是决定性的,但将这些值纳入集群以监测配体之间潜在的相对趋势。用Pd-Pd键(WBO Pd-Pd)的Pd-I-I-Pd扭转率和Wiberg键指数来描述双核配合物D和G,并捕捉稳定性趋势。为了评估这些新描述符的质量,作者使用绝对Pearson相关系数分析了它们的相关性。

  

图2

  

进行主成分分析以获得问题特异性配体空间的改进可视化,并调查新的描述符对数据方差的贡献。两种方法都表明了新引入的描述符对进一步分析的适用性,并证实了所有描述符对新的主成分的重大贡献。

  

在生成新的Pd(I)二聚体相关数据后,作者继续进行k均值集群,基于肘部法和剪影评分分析,选择k = 6。随后,作者在初始数据库(PC1和PC2)的主要组件所跨越的空间中绘制了6个集群。图2C显示了针对特定问题的细化导致了对先前获得的两个集群的进一步细分。图3A给出了特定问题集群后的完整数据集的额外三维演示。三个新的主成分,PC1'、PC2'和PC3',捕获了问题特定数据中60.7%的变化。在这六个视觉分离的集群中,有两个集群包含已知的二聚体诱导配体,P(t-Bu)3和P(t-Bu)2(i-Pr)在C3’集群中,而P(t-Bu)2Ph和P(1-Ad)2(n-Bu)在C0’集群中。因此,这两个集群的其它成员也同样倾向于二卤化物桥联的Pd(I)二聚体。通过使用不同的初始化种子重复执行1000次集群,再次验证它们与引用的相似性。

  

对算法分组为C3’和C0’的其它配体的进一步检查表明,C3’集群包含几个相对较大的三烷基膦配体(配体1-6,图3B),与已知的二聚体诱导基序非常相似。因此,算法识别的相似性在很大程度上也符合化学直觉。然而,出乎意料的是,并不一定与直觉一致,C3’集群中其余的四种配体在结构上的不同,其相似程度并不明显。例如,空间约束的体积较大的环丙基衍生物(配体cBRIDP 7)和两个二茂铁基膦(配体8和QPhos 9)包含在同一个基团中,虽然由于二茂铁基取代基的芳香性,后者的电子影响与三烷基膦系列有很大的不同。尤其出乎意料的是膦烷配体(配体10)的加入,在这一环中,甲基被限制在固定的位置,导致与其它烷基膦相比灵活性降低。

  

同样,在C0’集群中,机器学习预测的相似性既不直观也不明显。与C3’集群相比,该集群中的膦取代基更加多样化,包括叔烷基、仲烷基和伯烷基链,以及芳基和苄基(图3C)。虽然PCy3不倾向于配位Pd(I)二聚体,但该算法预测了5个配体含有1或2个Cy基团。

  

接下来,作者开始用实验来验证这些预测。在C3’和C0’集群中的25个配体中,三烷基膦配体1、2和21以及苯基衍生物13,之前报道过会形成Pd(I)二聚体,因此作者用它们来评估集群的结果。在剩下的21个预测配体中,二茂铁衍生物8和9以及高度约束的膦烷10和23与其它配体偏离最大。因此,作者开始初步测试这些配体的二聚体诱导能力。虽然二茂铁基配体已经在典型的(假定的)Pd(0)/Pd(II)催化交叉偶联应用中发现了许多应用,但膦烷10的合成还没有报道,因此也没有已知的应用。作者尝试通过Pd(0)Ln和PdI2的比例合成相应的碘化物桥联Pd(I)二聚体,然后分别合成相应的Pd(0)Ln配合物(和配体)。

  

最后,在31P核磁共振(NMR)和X射线晶体分析结果的支持下,作者观测到了Pd(I)二聚体D8和D10的形成(图3D)。此外,作者对富金刚烷配体4和6,以及环己基11和新戊基类似物3的测试,都成功地产生了相应的碘桥联Pd(I)二聚体,正如算法预测的那样。相比之下,对于非常庞大的环丙基衍生配体7,作者没有成功地合成一个Pd(I)配合物。作者所有合成Pd(0)L2配合物的尝试都失败了;另一种通过Pd(I)-Pd(I)模板的途径也不是有效的,这可能是由于配体的大小和取代前体配体的结合能力降低。

  

在二聚体特异性集群之后,41个配体被分组到其它四个集群中,作者还通过将配体与四氢呋喃中的Pd2(dba)3 (用于原位生成Pd(0)L2)和PdI2混合,测试了每组的代表性配体,并通过31P NMR检测了混合物。C2’中的配体(共15个)相对富含芳基,作者的测试结果表明,在以上的实验中容易生成Pd(II)配合物。C1’和C5’集群主要包含双芳基配体(共17个),它们可以形成Pd(I)二聚体,虽然不是在作者目标的二卤化物桥联几何结构中,而是在另一种阳离子几何结构中,π系起到桥联的作用。因此,该算法似乎正确地区分配体的能力,不仅有利于氧化态(I),而且有利于形成期望的二卤化物桥联二聚体的几何结构。最后,C4’集群(9个配体)由磷金刚烷配体和三烷基膦组成,作者在测试中观察到一个具有代表性的混合物种。

  

在对整个数据库的348个配体进行初始集群时,作者排除了8个集群中的6个,因为只有两个包含二聚体诱导的参考配体。在这种情况下,如果作者只有两个实验数据点作为先验知识,例如PCy3 (作为非二聚体诱导)和P(t-Bu)3 (作为二聚体诱导),作者只会选择一个单独的集群进行进一步的二聚体特异性过滤(即包含P(t-Bu)3的集群),最终在二聚体特异性集群后获得较少的建议。因此,二聚体诱导配体的识别程度自然取决于初始数据库的大小和指导集群选择的参考配体的数量。然而,科学家有机会对最初获得的八个集群中的每一个进行实验研究,以确定另一个二聚体诱导集群。因此,这种方法以一种高效的方式,以最少的实验,面对巨大的潜在化学空间。

  

通过使用不同的初始化重新执行1000次集群,作者消除了来自随机波动的预测结果的可能性。作者的21个候选配体与4个二聚体诱导的参考配体在≥ 80%的集群中分组(4个配体在约80%的集群中,17个配体在90%的集群中)。在1000个集群中有8个额外的配体在更少的情况下,也就是说,一种配体占50%,一种占40%,其它的都在< 30%的集群。根据它们的低分配系数,作者对其中三个<易于合成获得的,即PMe(t-Bu)2、P(t-Bu)Np2和PPh(s-Bu)2>的实验测试证实,这些配体不产生碘桥联的Pd(I)二聚体。这些结果表明,这种丰度值平均超过1000个集群是一个有用的选择手段。为了进一步验证其有效性,作者还再次检查了没有问题特定数据的上述“失败”集群。在本例中,作者将LKB-P的初始集群结果应用于使用相同的广义描述符的另一个集群(没有引入特定于问题的数据)。这导致了过滤不足,如上所述。在作者在此背景下进行的1000个集群中,有6个配体被预测与4个二聚体诱导的参考配体分组,占所有集群的> 95%。然而,作者对这六种配体中的四种进行的实验测试表明,这些配体反而导致了Pd(II)配合物的生成。这些结果加强了为第二次集群引入问题特定描述符的重要性和成功,并强调了作者开发的工作流的成功。

  

图3

  

总的来说,作者能够通过实验验证21种预测配体中的众多代表性例子,并总共合成了8种以前未报道的空气稳定的Pd(I)二聚体。因此,该算法在识别配体之间的相似性方面非常成功,这些相似性对于人类专家的眼睛来说并不明显。特别是配体10(它从未被合成出来)不可能通过试错、筛选或直觉指导的研究来进行研究。这清楚地展示了机器学习技术在加速催化剂开发方面的力量,这些技术提出的建议超出了科学家的直觉。作者未来的研究方向是探索新型二聚体在催化方面的潜力。

相关文章