[发明专利]基于领域知识的图编码自动生成方法及系统、电子设备有效
申请号: | 202011590695.5 | 申请日: | 2020-12-29 |
公开(公告)号: | CN112287043B | 公开(公告)日: | 2021-06-18 |
发明(设计)人: | 姚苗;查琳;冶莎;张晨;周智海;王芳杰;覃晨;黄庆娇;王振宇;陈刚;何青松;向波;杨志勤;邢尚合;周凡吟 | 申请(专利权)人: | 成都数联铭品科技有限公司 |
主分类号: | G06F16/28 | 分类号: | G06F16/28;G06F16/26;G06F16/36;G06F40/289;G06F40/30;G06N3/04;G06N3/08 |
代理公司: | 北京市领专知识产权代理有限公司 11590 | 代理人: | 张玲;王莹莹 |
地址: | 610015 四川省成都市自由贸易试*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 领域 知识 编码 自动 生成 方法 系统 电子设备 | ||
1.一种基于领域知识的图编码自动生成方法,其特征在于,包括步骤:
对收集的业务数据进行预处理,得到由实体、关系、属性构成的三元组列表,将三元组列表转化为图,实体对应于图中的节点,属性对应于节点的特征,关系对应于图中的边,然后利用word2vec算法进行向量化表示,得到第一邻接矩阵和第一特征矩阵;所述业务数据为企业信息;
将所述第一邻接矩阵、第一特征矩阵和设定的微调参数列表,输入预训练好的通用型图编码模型进行自动训练,得到所述业务数据的图编码矩阵;所述通用型图编码模型基于领域知识训练而得。
2.根据权利要求1所述的基于领域知识的图编码自动生成方法,其特征在于,所述对收集的业务数据进行预处理,得到由实体、关系、属性构成的三元组列表的步骤,包括:
基于领域的数据标准,将收集的业务数据处理为标准化数据;
对所述标准化数据进行实体抽取、属性抽取、关系抽取,并建立实体,关系,实体的三元组列表和实体,关系,属性的三元组列表。
3.根据权利要求2所述的基于领域知识的图编码自动生成方法,其特征在于,所述对所述标准化数据进行实体抽取、属性抽取、关系抽取,并建立实体,关系,实体的三元组列表和实体,关系,属性的三元组列表的步骤,包括:
对所述标准化数据进行实体抽取、属性抽取、关系抽取,得到实体、关系、实体属性;
依据实体间属性的重合度和实体名称相似度,进行实体-属性的融合,依据关系名称的相似度和关系链接实体名称的相似度,进行实体间关系的融合,得到实体,关系,实体,以及实体,关系,属性的三元组列表。
4.根据权利要求1所述的基于领域知识的图编码自动生成方法,其特征在于,所述由三元组列表得到第一邻接矩阵和第一特征矩阵的步骤,包括:
将所述三元组列表转化为图,实体对应于图中的节点,属性对应于节点的特征,关系对应于图中的边,并利用word2vec算法,得到所述第一邻接矩阵以及第一特征矩阵。
5.根据权利要求1所述的基于领域知识的图编码自动生成方法,其特征在于,所述通用型图编码模型经过以下步骤训练得到:
收集领域内的大数据;
对收集的大数据进行预处理,得到由实体、关系、属性构成的三元组列表,并由三元组列表得到第二邻接矩阵和第二特征矩阵;
将所述第二邻接矩阵和第二特征矩阵输入图编码模型进行训练,利用基于注意力机制的GCNs模型作为图编码模型,对节点属性特征通过min-max标准化进行归一化处理,利用word2vec算法对节点属性特征进行向量化表示,将得到的第二邻接矩阵和第二特征矩阵,作为Att-GCNs模型的输入,训练过程即图编码模型的超参的学习,超参是Att-GCNs模型的所有神经元本身的参数和神经元与神经元之间连接的权重参数,利用BP算法和Adam优化器优化的学习过程,在训练过程结束后,得到所述通用型图编码模型,包括模型结构及其超参。
6.根据权利要求5所述的基于领域知识的图编码自动生成方法,其特征在于,所述领域内的大数据包括结构化数据、半结构化数据和非结构化数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都数联铭品科技有限公司,未经成都数联铭品科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011590695.5/1.html,转载请声明来源钻瓜专利网。