[发明专利]结构化实体收录方法、装置、服务器和存储介质有效
申请号: | 201711297668.7 | 申请日: | 2017-12-08 |
公开(公告)号: | CN108038183B | 公开(公告)日: | 2020-11-24 |
发明(设计)人: | 徐也;冯知凡;陆超;张扬;方舟;王述;朱勇;李莹 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F16/36 | 分类号: | G06F16/36 |
代理公司: | 北京品源专利代理有限公司 11332 | 代理人: | 孟金喆 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 结构 实体 收录 方法 装置 服务器 存储 介质 | ||
本发明实施例公开了一种结构化实体收录方法、装置、服务器和存储介质,其中,结构化实体收录方法包括:从知识图谱中选取与待收录的结构化实体相关的候选实体,根据候选实体所属类别的先验属性信息及预设模型确定待收录的结构化实体为关联实体,对关联实体和候选实体进行实体合并,将关联实体收录到知识图谱中。本发明实施例解决了现有知识图谱对实体进行收录时,由于每增加一个实体,都要针对知识图谱中现有的各实体进行一次实体解析,而导致的计算量大、耗时长且实体解析准确度不高的问题,选取候选实体,然后利用先验知识融合预设模型能够有效提高实体关联的效率和准确度,减少计算量,使得知识图谱能够简单高效地对结构化实体进行收录。
技术领域
本发明实施例涉及数据处理技术领域,尤其涉及一种结构化实体收录方法、装置、服务器和存储介质。
背景技术
知识图谱在无论是学术界还是工业界都有着举足轻重的地位,它是人工智能的基础,也是实现智能问答等应用的必经之路,能够快捷方便地为用户提供信息。知识图谱本质上就是由实体节点与节点间的边构成的一个网络。知识图谱的重复率和准确率将会影响其服务质量。
当出现更新需求时,知识图谱需要对新实体进行收录。目前,通常是每增加一个实体,都需要针对知识图谱中的各实体进行一次实体解析,该过程计算量大、耗时长,无法适用于百亿量级的实体收录;并且,现有实体解析方法利用余弦相似度计算实体的匹配分值,或者,将实体上下文表示成BOW(Bag-of-Words)向量形式并计算向量间的余弦值以确定实体相似度,这些方法准确度不高。
发明内容
本发明实施例提供一种结构化实体收录方法、装置、服务器和存储介质,以解决现有知识图谱对实体进行收录时计算量大、耗时长及准确度不高的问题。
第一方面,本发明实施例提供了一种结构化实体收录方法,该方法包括:
从所述知识图谱中选取与待收录的结构化实体相关的候选实体;
根据所述候选实体所属类别的先验属性信息及预设模型确定所述待收录的结构化实体为关联实体;
对所述关联实体和所述候选实体进行实体合并,将所述关联实体收录到所述知识图谱中。
第二方面,本发明实施例还提供了一种结构化实体收录装置,该装置包括:
候选实体选取模块,用于从所述知识图谱中选取与待收录的结构化实体相关的候选实体;
关联实体确定模块,用于根据所述候选实体所属类别的先验属性信息及预设模型确定所述待收录的结构化实体为关联实体;
关联实体收录模块,用于对所述关联实体和所述候选实体进行实体合并,将所述关联实体收录到所述知识图谱中。
第三方面,本发明实施例还提供了一种服务器,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上所述的结构化实体收录方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上所述的结构化实体收录方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711297668.7/2.html,转载请声明来源钻瓜专利网。