基于ANN-QSPR算法的新型纯碳水化合物燃料性质预测方法

摘 要

摘 要:开发新型纯碳水化合物燃料作为新能源时,必须预测和筛选纯碳水化合物的物理性质,从而找到可能合适的化学物质,然而由实验来逐一确定大量分子的物理性质既耗时又昂贵。研究

摘 要:开发新型纯碳水化合物燃料作为新能源时,必须预测和筛选纯碳水化合物的物理性质,从而找到可能合适的化学物质,然而由实验来逐一确定大量分子的物理性质既耗时又昂贵。研究发现,运用人工智能网络  定量构效关系(ANN—QSPR)算法来建立纯碳水化合物物理性质的计算模型可以起到事半功倍的效果。基于DIPPR 801数据库中的纯组分性质和DragonX软件包计算了相应碳水化合物的分子描述符,所构建的模型结合了定量构效关系(QSPR)和两层前馈人工智能网络(ANN)。由此建立了多个全面而可靠的模型来预测新型纯碳水化合物燃料的各种物理性质,包括正常沸点、闪点、燃烧焓、蒸发焓、液体密度、表面张力、液体的黏度和熔点等。为了提高模型中数据集之间的一致性,还引入了主成分分析法(PCA),以进一步消除分子描述符值的维数。另外,通过共识建模进行交叉验证,减少了不确定性的影响,提高了模型的预测精度。

关键词:人工智能网络  定量构效关系  新型纯碳水化合物燃料  新能源  物理性质  预测  模型构建

ANN-QSPR models for the predication of physical properties of a new-type carbohydrate fuel

AbstractWhen a pure carbohydrate compound is developed as a novel combustion fuelits physical properties of each component will be first necessarily predicted and screenedHoweverthe experimental determination of these properties for a huge amount of molecules can be very time consuming and costlyIn view of thisthe artificial neural network-quantitative structure property relationships (ANN—QSPR) algorithm was applied to build the desired modelsMolecular descriptors were calculated based on a large number of pure components with evaluated values in DIPPR 801 database and the software package DragonXThe models developed were combinations of QSPR and two layer feed forward ANNThus the relatively comprehensive and reliable models were developed for predicting physical propertiesincluding normal boiling pointflash pointenthalpy of combustionenthalpy of vaporizationliquid densitysurface tensionliquid viscositymelting pointetcFor improving the consistencyprincipal component analysis(PCA)was introduced to further eliminate the dimensions of molecular descriptor valuesFinallythe idea of cross-validation for consensus modeling is further utilized to improve the predictive quality of obtained models

Key wordsANN(artificial neural network)QSPR(qualitative structure property relationships)QSAR(qualitative structure activity relationships)new-type carbohydrate fuelnew energy sourcephysical propertyforecastmodeling

化石燃料的不可再生性,迫使人们不断研发新能源,以满足社会存在和发展的需要。过去,当研究人员开发新型燃料时,首要考虑的问题是纯碳水化合物的物理性质,其中包括了标准沸点、闪点、燃烧焓、蒸发焓、液体密度、表面张力、液体黏度和熔点。然而通过实验来逐一确定大量分子的性质非常耗时和昂贵[1],所以人们迫切希望能构建各种模型来对大量分子进行筛选和预测,从而找到可能合适的化学物质。

基于上述原因,从现有文献中可以发现人们已发展了各种用于预测物理性质的方法。不过,包括量子力学或详细动力机理在内的那些尖端、高级的性质研究方法同样很耗时间,因此不适合用于筛选工作。目前使用最为广泛的方法可以分为以下两大类:

1)第一类方法的依据是基团贡献(OC)算法,其基本概念是决定物质性质常数的分子间作用力通常都取决于各分子的原子之间的键[2]。时至今日,人们已发展出了许多基于GC的方法。不过GC法也有一些重大缺陷,那就是无法获得立体异构体的确凿结果[3],其所得结果通常也不是很精确[1-2]

2)在最近几年,人们采用了另一类被称作定量结构性质关系(QSPR) [4]的方法米克服上述缺陷[5-6],此类关系有时也被称作定量结构一活性关系(QSAR)QSPR的基本假设是:结构相似的对象会展现相似的性质,因此可用数据分析法和统计法对此进行大致的描述,从而构建出各种模型;根据从结构或拓扑指数到电子或量子化学性质的各种参数[5-6] (这些参数通常被称作分子描述符[7],可根据维数将其分为不同的类别[3]),可以准确地通过这些模型预测化合物的生物活性或性质。人们通常会在QSPR算法中采用某些多变量分析工具,诸如偏最小二乘法或PLSL[8]等。

最近,一种新方法——人工智能网络(ANN)又被引入这一领域,并迅速成为研究结构—性质和结构活性相互关系[9]的方法之一。因此,我们将在此项研究中展示一种基于人工智能网络定量结构性质关系法(ANN-QSPR)的新方法,该方法用于筛选和预测纯碳水化合物的性质可以起到事半功倍的效果,从而有助于新型燃料的开发。

1 材料和方法

11 材料

在构建用于预测物理性质的模型时,所采用数据集的质量和全面性将对其准确性和可靠性产生很大影响,特别是对于那些需处理大量实验数据的模型[10]。在本次研究中,由于DIPPR 801[11]数据库中含有许多纯组分的性质,因此笔者采用了这一数据库进行计算和建模,并用软件包DragonX[12]计算了相应碳水化合物的分子描述符。考虑到当前研究中会产生大量的分子结构,我们在建模中纳入了900个分子描述符,其中包括所有的零维、一维和二维描述符[12]

12 数据预处理

QSPR建模中,结构异常值是影响模型精度的主要因素,所以在将数据库用于模型构建前,要先通过主成分分析法(PCA) [38]将结构不同的化合物排除在外,同时也要排除非碳水化合物。最终,分别研究了纯碳水化合物915507940467693544462915在以下方面的相关数值:标准沸点、闪点、燃烧焓、蒸发焓、液体密度、表面张力、液体黏度和熔点。最初笔者展示了900个分子描述符,这一数目超过或大致等于所研究纯碳水化合物的数目。ANN为非线性关系的结构,因此所提供的分子描述符数目将大大超过合适的数目,并对模型造成不利影响。在此项研究中,我们使用了递归共线诊断(SCD)程序来降低维数和去除多余的描述符[813]。此外,还排除了对所有纯碳水化合物而言皆为常数值的分子描述符。用于建模的分子描述符的相应数日为l71153172152l60163170

13 模型构建

在对数据进行预处理后,下一个计算步骤——也可能是最重要的一个步骤——是找出分子描述符和碳水化合物物理性质之间的关系。因此笔者采用了人工神经网络的非线性数学方法。

人工神经网络被广泛用于许多科学和工程应用领域,例如计算不同纯化合物的物理和化学性质[14]。读者可在其他文献中找到ANN的工作原理说明[14-15]。在此项研究中,采用了MATLAB软件来构建ANN-QSPR模型。通过ANN工具箱,构建了用于建模的两层前馈ANN。图l中显示了两层前馈ANN的结构。

 

首先,在[-11]的范围内对纯碳水化合物的所有性质值进行正交化,以便降低计算误差,尤其是截断误差。然后用相同的方法对所有的分子描述符进行标准化。这一正交化过程的具体操作是将性质参数或描述符的最小值和最大值分别设为-l1,然后相应地拟合其他数值。

其次,将数据库分为3个子类,分别为训练集、“验证”集和“测试”集。“训练”集用于生成主方案或人工神经网络的结构。“验证”集用于检测训练终点,也就是说,如果最新的受训模型正开始使“验证”集中的预测数值变差,则应停止训练过程。“测试”集被认为是所获模型在预测能力和质量方面的一个重要指征。应随机开展3个子类的数据选择过程。在此项研究中,“训练”“验证”和“测试”集分别占80%、l0%、10%。从其他各类文献中可以发现[15-16],主数据库3个子类所分配的百分比将影响到模型的准确性。

接下来需要生成ANN模型。事实上,这一生成过程其实是一个确定加权矩阵和偏倚向量的过程[1517],应通过目标函数的最小化来获取这些参数[11014]。笔者采用了列文伯格—马夸尔特(Levenberg-MarquardtLM)反向传播算法来实现目标参数的最小化[17]

2 结果与讨论

按照上述步骤,获得了各个两层前馈神经网络,以用于预测纯碳水化合物的标准沸点、闪点、燃烧焓、蒸发焓、液体密度、表面张力、液体黏度和熔点。也有其他更为准确的最小化方法,但它们需要的收敛时间要长得多。LM反向传播法是训练人工神经网络时最为常用的算法[18]

最后应固定神经元的数目。这一数目取决于测试和尝试结果;神经元的最佳数目通常介于1020[11014],笔者将神经元数目固定为15。剩下的工作则是生成一个ANN模型。

29中显示了所构建模型预测结果与实验数据之间的比较。表l中显示了每个模型的平均相对误差和最大相对误差。

 

 

 

 

 

 

 

 

 

仔细研究所获结果,可以发现训练集的相对误差总是小于“验证”集或“测试”集的相对误差,这主要是因为“验证”集或“测试”集对ANN的训练方式没有直接影响。因此,对人工神经网络进行了修正,使其更适合于“训练”集的数据。可以把训练过程想象为找出方程组的待定系数。

化合物的数目表明了方程式数目,而分子描述符的数目则表明了系数数目。因此,化合物数目超出分子描述符数目的比率越小,ANN就能在训练集中表现得越好。不过,对不在“训练”集内的化合物来说,以这种方法构建的ANN无法保证其预测水平。举例来说(如表l所示),对于所构建的蒸发焓或燃烧焓模型而言,“测试”集的平均相对误差远远大于“训练”集的平均相对误差。解决此问题的一个可能方案是采用PCA[8]:用PCA来处理描述符,然后找到得分,取前30列的得分(含上述信息99%的内容),最后按照上述步骤构建一个新的ANN

2中展示了新构建燃烧焓和蒸发焓模型的结果。从表2中可以看出,经过上述处理后,所构建的ANN模型在验证集和测试集中的预测表现有所改善。

 

对燃烧焓而言,尽管训练集与另两个集之间的一致性不会直接改善预测表现,但却表明了模型的预测质量有所改善。

同时还应指出,所构建的上述模型均重新训练过若干次,这是因为3个数据集是随机划分的。如果用于当前训练的数据有所不同,最终的ANN模型也会随之发生变化。所以对有待构建的ANN模型的处理过程并不稳定,即可能生成相对较好或较差的结果。由此产生的问题是,一个在“测试”集中表现良好的模型,却可能无法以相同的水准对其他未包含在数据库中的纯碳水化合物进行预测。为了解决这一问题并获得更好的模型评估结果,我们建议为ANN模型建立一个共识方案,以便使用交叉验证的概念。换而言之,就是建立一个预测相同性质的模型系统,计算该系统中不同模型的一致性,从而推导出预测结果的准确性[20]。笔者通过MATLAB对此类ANN模型系统的标准沸点进行了演示,其结果展示于图10中。

从图l0可以看出,所构建的标准沸点模型系统表现稳定,有望给出相对准确的纯碳水化合物预测结果。

3 结论

此项研究展示了用于计算和预测物理性质的各个模型,而这些物理性质则可以用来开发新型纯碳水化合物燃料。所构建的模型结合了QSPR和两层前馈ANN。建模工作需要被研究纯碳水化合物的相应分子描述符值和实验性质值。笔者用dragonX[12]软件计算了分子描述符值,并从DIPPR801[11]数据库中获得了实验性质值,由此构建了多个全面而可靠的模型来预测各种物理性质,其中包括标准沸点、闪点、燃烧焓、蒸发焓、液体密度、表面张力、液体黏度和熔点等。然而,构建的这些模型也还存在一些缺陷,其中的一个主要问题就是“训练”集和其他两个数据集之间相对误差的不一致性;而另一个问题则是存在会影响模型预测质量的不确定性。为了提高一致性,笔者引入了主成分分析(PCA) [8],以进一步消除分子描述符值的维数。实施后所获结果表明:一致性确实有所提高。为了减少不确定性的影响,建议通过共识建模进行交叉验证[20],这一思路或许会对此有所帮助。所有上述策略均有助于改善所构建模型的预测精度和质量。不过,由于构建ANN QSPR模型时所包含的碳水化合物数日仍相对较少,因此所构建的这些模型可能还不是很全面,所以应开展将更多碳水化合物包含在内的相关研究。

 

参考文献

[1]GHARAGHEIZI FESLAMIMANESH AMOHAMMADI A Het alDetermination of critical properties and acentric factors of pure compounds using the artificial neural network group contribution algorithm[J]Journal of ChemicalEngineering Data201156(5)2460-2476

[2]POLING B EPRAUSNITZ J MO’CONNELL J PProperties of gases and liquids[M]5th EditionNew YorkMcGraw-Hill2001.

[3]S0LA DFERRI ABANCHERO Met alQSPR prediction of N-boiling point and critical properties of organic compounds and comparsion with a group contribution method[J]Fluid Phse Equilibria2008263(1)33-42

[4]KATRITZKY A RKUANAR MSLAVOV Set alQuantitative correlation of physical and chemical properties with chemical structreUtility for predietion[J]Chemical Reviews2010110(10)5714-5789

[5]FAULON J LBENDER AGOLBRAIK H AHandbook of chemoinformatics algorithms[M] LondonChapmanHallCRC PressTaylor&Francis Group2010

[6]GODAVARTHY S SROBINSON R L JrGASEM K A MImproved structure-property relationship models for prediction of critical properties[J]Fluid Phase Equilibria2008264(12)122-136

[7]TODESCHINI RCONSONNI VHandbook of molecular descriptors[M]Weinheim(Germany)Wiley-Vch2002

[8]ERIKSSON LJOHANSSON EKETTANEH WNet alMulti and megavariate data analysispart I-basic principles and applications[M]Umea(Sweden)Umetrics Academy2006

[9]AGRAFIOTIS D KCEDE O WLOBANOV V SOn the use of neural network ensembles in QSAR and QSPR[J]Journal of Chemical Information and Computer Sciences200242(4)903-911

[10]GHARAGHEIZI FSATTARI MPrediction of triplepoint temperature of pure components using their chemical structures[J]Industrial and Engineering Chemistry Research201049(2)929-932

[11]ROWLEY R LWILDING W VOSCARSON J Let alDIPPR 801 property databseSoftware Package[G]New YorkDesign Institute for Physical Property DataAmerican Institute of Chemical Engineers2009(http//dipprbyuedu)

[12]ANONDragonX Version l4Software Package[G]Milano(Italy)Taletesrl2009

[13]BRAUNER NSItACHAM MConsidering precision of data in reduction of dimensionality and PCA[J]ComputersChemical Engineering200024(12)2603-2611

[14]GHARAGHEIZI FBABAIE OSATTARI MPrediction of vaporization enthalpy of pure compounds using a group contribution-based method[J]Industrial and Engineering Chemistry Research201150(10)6503-6507

[15]HAGAN M TDEMUTH H BBEALE MNeuraI Network Design[M]Andover(Massachusetts)International Thomson2002

[16]GHARAGHEIZIFQSPR studies for solubility parameter by means of genetic algorithm based multivariate linear regression and generalized neural network[J]QSAR Combinatorial Science200827(2)l65-170

[17]LERA GPINZOLAS MNeighborhood based Levenberg Marquardt algorithm for neural network training[J]IEEE Transactions on Neural Networks2002l3(5)1200 -203

[18]KALOGIROU S AArtificial neural networks in renewable energy systems applicationsA review[J]Renewable and Sustainable Energy Reviews20015(4)373-401

[19]SUZUKI TOHTAGUCHI KKOIDE KComputer-assisted approach to develop a new prediction method of liquid viscosity or organic compounds[J]Computers& Chemical Engineering199620(2)161-l73

[20]HANSEN L KSALAMON PNeural network ensembles[J]IEEE Transactions on Pattern Analysis and Machine Intelligence199012(10)993-1001

 

本文作者:朱子懿  赵兴元

作者单位:美国卡内基·梅隆大学 

  中国石油集团工程设计有限责任公司西南分公司