[发明专利]结构化实体收录方法、装置、服务器和存储介质有效
申请号: | 201711297668.7 | 申请日: | 2017-12-08 |
公开(公告)号: | CN108038183B | 公开(公告)日: | 2020-11-24 |
发明(设计)人: | 徐也;冯知凡;陆超;张扬;方舟;王述;朱勇;李莹 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F16/36 | 分类号: | G06F16/36 |
代理公司: | 北京品源专利代理有限公司 11332 | 代理人: | 孟金喆 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 结构 实体 收录 方法 装置 服务器 存储 介质 | ||
1.一种结构化实体收录方法,其特征在于,包括:
从知识图谱中选取与待收录的结构化实体相关的候选实体;
根据所述候选实体所属类别的先验属性信息及预设模型计算所述待收录的结构化实体与每个候选实体之间的实体相似度概率,并根据所述实体相似度概率确定所述待收录的结构化实体为关联实体;
对所述关联实体和所述候选实体进行实体合并,将所述关联实体收录到所述知识图谱中。
2.根据权利要求1所述的方法,其特征在于,所述从所述知识图谱中选取与所述待收录的结构化实体相关的候选实体,包括:
基于预先建立的索引,利用模糊查询和/或精准查询从所述知识图谱中选取与所述待收录的结构化实体的名称相关的各候选实体;
其中,所述索引是根据所述知识图谱中所有结构化实体的标识、名称及别名建立的,所述模糊查询用于根据所述索引选取与所述待收录的结构化实体的名称相近的第一预设数目的候选实体,所述精准查询用于根据所述索引选取与所述待收录的结构化实体的名称相同的第二预设数目的候选实体。
3.根据权利要求1所述的方法,其特征在于,所述根据所述实体相似度概率确定所述待收录的结构化实体为关联实体,包括:
若存在一个或多个实体相似度概率大于预设阈值,则确定所述待收录的结构化实体为关联实体;
若所有实体相似度概率均小于所述预设阈值,则确定所述待收录的结构化实体为无关联实体。
4.根据权利要求3所述的方法,其特征在于,所述根据所述候选实体所属类别的先验属性信息及所述预设模型分别计算所述待收录的结构化实体与每个候选实体之间的实体相似度概率,包括:
针对每个候选实体,利用预设的属性比较方法和属性重要度,计算所述待收录的结构化实体与所述候选实体之间的各属性相似度概率;
利用预设的贝叶斯模型,对所述各属性相似度概率进行迭代计算,得到所述待收录的结构化实体与所述候选实体之间的实体相似度概率。
5.根据权利要求4所述的方法,其特征在于,所述利用预设的属性比较方法和属性重要度,计算所述待收录的结构化实体与所述候选实体之间的各属性相似度概率,包括:
根据所述属性重要度中的比较信息,确定所述待收录的结构化实体与所述候选实体中的待比较属性对;
针对每个待比较属性对,根据所述待比较属性对的特征,从所述预设的属性比较方法中选取相对应的比较方法进行属性对比较,得到所述待比较属性对的比较结果;
利用所述属性重要度中的实体置信度惩罚信息和实体置信度奖赏信息,对所述待比较属性对的比较结果进行概率回归,得到属性相似度概率。
6.根据权利要求5所述的方法,其特征在于,在得到所述待比较属性对的比较结果之后,还包括:
若所述待比较属性对对应的属性重要度中实体置信度惩罚信息配置为第一值,则确定所述待收录的结构化实体与所述候选实体不同;
若所述待比较属性对对应的属性重要度中实体置信度惩罚信息未配置为第一值,则利用所述实体置信度惩罚信息和所述实体置信度奖赏信息,对所述待比较属性对的比较结果进行概率回归,得到属性相似度概率。
7.根据权利要求3所述的方法,其特征在于,所述根据所述候选实体所属类别的先验属性信息及所述预设模型分别计算所述待收录的结构化实体与每个候选实体之间的实体相似度概率,包括:
针对每个候选实体,利用预设的属性比较方法,计算所述待收录的结构化实体与所述候选实体之间的各属性相似度概率;
将所述待收录的结构化实体、所述候选实体及所述各属性相似度概率输入到预先训练的计算模型中,输出所述待收录的结构化实体与所述候选实体之间的实体相似度概率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711297668.7/1.html,转载请声明来源钻瓜专利网。