[发明专利]一种知识图谱抽取方法、系统、电子设备及介质有效
| 申请号: | 202111284929.8 | 申请日: | 2021-11-01 |
| 公开(公告)号: | CN113987152B | 公开(公告)日: | 2022-08-12 |
| 发明(设计)人: | 王绪刚;刘栋梁;王新梅 | 申请(专利权)人: | 北京欧拉认知智能科技有限公司 |
| 主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/36;G06F40/211;G06F40/289 |
| 代理公司: | 成都顶峰专利事务所(普通合伙) 51224 | 代理人: | 陈秋霞 |
| 地址: | 100000 北京市海淀区中*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 知识 图谱 抽取 方法 系统 电子设备 介质 | ||
1.一种知识图谱抽取方法,其特征在于:包括:
获取指定目标场景下的文本段落数据;
抽取所述文本段落数据中的文本要素,并将当前文本要素组建为图结构数据;
基于图神经网络模型,得到所述图结构数据中所有文本要素的特征编码;
根据文本要素的特征编码,通过聚类计算,得到图结构数据内知识图谱对应的实体群簇和关系群簇;
所述文本要素包括主语名词、谓语名词和宾语名词;抽取所述文本段落数据中的文本要素,并将当前文本要素组建为图结构数据,包括:
通过HMM对所述文本段落数据进行分词,得到多个名词,并识别出每个名词的词性;
通过分类模型依次判断每个名词的词性是否为谓语,若是,则将谓语名词作为一个文本段落数据的中心;
获取当前文本段落数据中,与谓语名词前后相邻的名词,并根据对应名词与谓语名词的位置关系,得到对应名词的主语或宾语词性,最终得到当前文本段落数据中的所有主语名词、谓语名词和宾语名词;
基于所有主语名词、谓语名词和宾语名词,组建出主谓宾句式结构的图结构数据;
基于所有谓语名词、主语名词和宾语名词,组建出主谓宾句式结构的图结构数据,包括:
以主语名词和宾语名词为节点,以谓语名词为边,依照各谓语名词、主语名词和宾语名词之间的位置关系,组建出主谓宾句式结构的图结构数据;
基于图神经网络模型,得到所述图结构数据中所有文本要素的特征编码,包括:
初始化词向量或词性向量,得到初始化特征编码,并将该初始化特征编码作为图结构数据中各节点的基础特征编码;
获取图结构数据中任一节点相邻节点的基础特征编码;
使用聚合类函数,得到所有节点的基础特征编码,并将所有节点的基础特征编码作为图神经网络模型的输入层;
使用全连接的神经网络结构,使所述输入层形成多层的单元结构,并指定输出维度,得到单个的图神经网络结构单元;
针对图结构数据中的每个节点,使用图神经网络结构单元中相同的单元结构,对该节点基础特征编码进行非线性计算,得到网络隐藏层;
级联多个单层的网络隐藏层,进行多层的网络计算,得到所述图结构数据中所有节点与边的最新特征编码。
2.根据权利要求1所述的一种知识图谱抽取方法,其特征在于:获取指定目标场景下的文本段落数据,包括:
收集指定目标场景下的文件数据;
对所述文件数据进行解析,得到所述文件数据中的初始文本数据;
对所述初始文本数据进行清洗,得到清洗后文本数据;
对所述清洗后文本数据进行段落拆解,得到指定目标场景下的文本段落数据。
3.根据权利要求1所述的一种知识图谱抽取方法,其特征在于:根据文本要素的特征编码,通过聚类计算,得到图结构数据内知识图谱对应的实体群簇和关系群簇,包括:
分别获取文本要素的特征编码中的节点特征编码和边的特征编码,并通过层次聚类算法分别计算出所有节点之间的相似性与所有边之间的相似性,然后得到实体聚类树和关系聚类树;
根据实体聚类树和关系聚类树,得到图结构数据内知识图谱对应的实体群簇和关系群簇。
4.根据权利要求3所述的一种知识图谱抽取方法,其特征在于:所述聚类计算为通过余弦相似度、欧氏相似度、汉明相似度或曼哈顿相似度进行的层次聚类计算。
5.一种知识图谱抽取系统,其特征在于:用于实现如权利要求1至4中任一项所述的知识图谱抽取方法;所述知识图谱抽取系统包括:
文本段落数据获取模块,用于获取指定目标场景下的文本段落数据;
图结构数据构建模块,与文本段落数据获取模块通信连接,用于抽取所述文本段落数据中的文本要素,并将当前文本要素组建为图结构数据;
特征编码获取模块,与图结构数据构建模块通信连接,用于基于图神经网络模型,得到所述图结构数据中所有文本要素的特征编码;
知识图谱抽取模块,与特征编码获取模块通信连接,用于根据文本要素的特征编码,通过聚类计算,得到图结构数据内知识图谱对应的实体群簇和关系群簇。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京欧拉认知智能科技有限公司,未经北京欧拉认知智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111284929.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种数控机床防碰撞控制方法及数控机床
- 下一篇:一种锅炉排污废水回收处理设备





