[发明专利]一种开放性知识图谱挖掘方法及系统在审
申请号: | 202110649339.4 | 申请日: | 2021-06-08 |
公开(公告)号: | CN113486189A | 公开(公告)日: | 2021-10-08 |
发明(设计)人: | 牟昊;何宇轩;徐亚波;李旭日 | 申请(专利权)人: | 广州数说故事信息科技有限公司 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F40/295;G06F40/30 |
代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 林丽明 |
地址: | 510627 广东省广州*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 开放 性知识 图谱 挖掘 方法 系统 | ||
1.一种开放性知识图谱挖掘方法,其特征在于,包括以下步骤:
输入待分析的自然语言文本;
从自然语言文本提取出与分析对象相关的命名实体,得到实体列表;
对所述实体列表进行开放域关系抽取,当实体在文本中作主语时,提取出相关的谓语和宾语,当实体在文本中作宾语时,提取出相关的主语和谓语,得到第一知识三元组;
对所述实体列表进行限定域关系抽取,提取出具有指定关系的实体对,得到第二知识三元组;
将第一知识三元组和第二知识三元组进行知识融合;
将融合后的结果存储到图数据库中,得到知识图谱。
2.根据权利要求1所述的一种开放性知识图谱挖掘方法,其特征在于,所述实体列表中每个实体均包括有实体名称和实体类型。
3.根据权利要求1所述的一种开放性知识图谱挖掘方法,其特征在于,开放域关系抽取采用的算法模型通过大规模预训练模型的fine-tune模式对标注数据进行训练得到,标注数据由文本、文本中的实体及其类型组成。
4.根据权利要求1所述的一种开放性知识图谱挖掘方法,其特征在于,开放域关系抽取以实体列表中的实体作为输入,分别提取出各个实体的在原文中的知识三元组,当实体在原文句子中作主语时,提取出相关的谓语和宾语,组成知识三元组;当实体在原文句子中作宾语时,提取出相关的主语和谓语,组成知识三元组。
5.根据权利要求1所述的一种开放性知识图谱挖掘方法,其特征在于,第一知识三元组包括:主语、谓语、宾语、主语的实体类型、宾语的实体类型和知识三元组的置信度;当主语或宾语存在于实体列表中时,取实体列表中对应的实体类型;否则,将实体类型暂定为其他。
6.根据权利要求1所述的一种开放性知识图谱挖掘方法,其特征在于,限定域关系抽取,需事先定义指定关系列表,指定关系列表由若干个指定关系组成,每个指定关系需定义实体对中,起始实体的类型、结束实体的类型和指定关系名称。
7.根据权利要求1所述的一种开放性知识图谱挖掘方法,其特征在于,限定域关系抽取中,提取出的实体对同时满足的条件包括:
条件1:实体对在原文中存在语义关系;
条件2:实体对的关系在指定关系列表中;
条件3:实体对起始实体的类型和结束实体的类型满足条件2中匹配到的指定关系要求。
8.根据权利要求1所述的一种开放性知识图谱挖掘方法,其特征在于,限定域关系抽取所输出的第二知识三元组中以实体对中起始实体作为主语、指定关系名称作为谓语,实体对中结束实体作为宾语,包括主语、某指定关系名称、宾语、主语的实体类型、宾语的实体类型和知识三元组的置信度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州数说故事信息科技有限公司,未经广州数说故事信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110649339.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:小叶苦丁茶成套加工装置
- 下一篇:电子源