[发明专利]一种适用于机器学习势能面构造的物质结构描述方法在审
申请号: | 201810178485.1 | 申请日: | 2018-03-05 |
公开(公告)号: | CN108536998A | 公开(公告)日: | 2018-09-14 |
发明(设计)人: | 刘智攀;商城;黄思达 | 申请(专利权)人: | 复旦大学 |
主分类号: | G06F19/00 | 分类号: | G06F19/00 |
代理公司: | 上海正旦专利代理有限公司 31200 | 代理人: | 陆飞;陆尤 |
地址: | 200433 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 势能面 机器学习 特征函数 物质结构 物质体系 物理技术领域 材料结构 二阶导数 反应机理 基本变量 结构信息 球谐函数 三角函数 输入信息 应力信息 原子交换 原子坐标 坐标旋转 多元素 幂函数 成键 高维 截断 配位 一阶 全局 搜索 预测 研究 | ||
本发明属于计算化学和物理技术领域,具体为一种适用于机器学习势能面构造的物质结构描述方法。本发明利用输入的原子坐标,构造一系列特征函数作为输入信息,利用机器学习方法训练物质体系的全局势能面数据,得到机器学习势能面。这些特征函数以原子间键长、键角为基本变量,通过组合幂函数、截断函数、球谐函数及三角函数构造原子周围环境,包含成键、配位等结构信息;物质体系的全局势能面数据来源于量子力学计算,包含大量不同物质结构的能量、力和应力信息。本发明的特征函数具有坐标旋转不变,原子交换不变,一阶和二阶导数连续等特性,适用于复杂的多元素物质体系。基于这些特征函数,训练得到的高维机器学习势能面可以用于材料结构搜索、反应机理预测研究等。
技术领域
本发明属于计算化学和物理技术领域,具体涉及一种适用于机器学习高精度势能面构造的物质结构描述方法,用于数值上区分物质体系原子所处周围环境。
背景技术
物质结构预测和化学反应路径搜索是当代物理和化学计算模拟研究的核心任务,对于理解和预测材料的热力学和动力学性质具有重要作用。由于物质体系的复杂性,目前可行的计算模拟方案一般依赖于基于量子力学的电子结构计算,建立体系几何结构和能量的关系,即势能面。然而,基于精确电子结构计算的势函数代价高昂,很难进行高效势能面搜索,从而不能有效筛选出关键结构和预测未知反应。因此,如何构建高精度势能面是当前科学研究的热点。
过去20年,通过大数据拟合精确电子结构计算结果,机器学习技术已经被证明可以用于构建精确的势能面。与电子结构计算方法一样,机器学习方法,也需要利用体系结构的信息,如笛卡尔坐标、成键矩阵(J.Phys.Chem.Lett.,2015,6,2326;J.Phys.Chem.Lett.,2017,8,2689)等,来预测体系的相关能量和其他性质。笛卡尔坐标等传统结构信息,虽然可以准确的定义原子位置,但是也具有两个明显局限。第一,坐标结构信息与原子个数一一对应,一般只能用于预测具有相同原子数体系的势能面;第二,坐标结构信息与坐标体系、原子排列的顺序等相关,不能准确反映结构内在对称性信息。这导致传统的结构输入信息不能用于产生通用性强、能处理众多原子体系的机器学习势能面。目前,已有尝试采用不同的结构输入信息,如结构指纹函数(J.Chem.Inf.Model.,2010,50,742)、图像卷积(arXiv:1509.09292;ACS Cent.Sci.,2016,2,725)等,这些函数虽然是旋转不变,但是它们一般是对整体结构进行操作,局部结构区分度低,也不能解决从小体系到大体系原子数变化带来的势能面通用性问题。
近期,Belher等课题组(Phys.Rev.Lett.,2007,98,146401;J.Chem Phys.,2011,134,074106)提出了一类新的特征函数,与之前的区别是,这些特征函数不是描述整体结构特征,而是单个原子的周围环境。通过采用截断函数,中心原子的周围结构信息可以由在截断半径内的其他邻居原子与中心原子的键长、键角来确定。具体是通过建立基于这些键长、键角的特征函数,作为机器学习的输入参数,拟合得到单个原子的能量。这种构建势能面的方法,将体系能量有效拆分为单个原子能量的简单加和,使得机器学习势能面得以通用于不同原子数体系。但是,目前这些以原子为中心的结构特征函数,形式相对比较简单(一般是高斯函数,三角函数),涉及参数多且复杂,缺乏三体以上的结构描述,不能有效形成统一的结构描述标准,不利于通用机器学习势能面的大规模构建和推广。
发明内容
本发明的目的是为提供一种适用于机器学习高精度势能面构造的物质结构描述方法。
本发明首先构造一种简便、普适、标准化的结构特征函数。这些结构特征函数用于构造机器学习通用型势能面,可以广泛用于全局结构搜索,自由能势能面采样,反应预测等分子模拟。该方法克服了以往经验势函数精度不足,及量子力学势能面效率不高的缺点,具有很强的可移植性和通用性,能对不同材料体系均取得良好预测能力。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于复旦大学,未经复旦大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810178485.1/2.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用