[发明专利]一种基于知识库的实体更新方法及系统有效
| 申请号: | 201710883591.5 | 申请日: | 2017-09-26 |
| 公开(公告)号: | CN107908637B | 公开(公告)日: | 2021-02-12 |
| 发明(设计)人: | 郑宇宏;陈文浩;郑烨翰 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
| 主分类号: | G06F16/23 | 分类号: | G06F16/23;G06F16/29;G06N5/02 |
| 代理公司: | 北京鸿德海业知识产权代理有限公司 11412 | 代理人: | 袁媛 |
| 地址: | 100085 北京市*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 知识库 实体 更新 方法 系统 | ||
本申请提供一种基于知识库的实体更新方法及系统,所述方法包括:基于知识库,确定产品业务关联实体;根据产品业务需求,为所述产品业务关联实体生成新增属性,调用知识库算子更新所述产品业务关联实体;将更新后的产品业务关联实体发送给产品业务应用方。能够避免现有技术中基于批处理调度抓取实体属性数据,无法满足各种产品业务需求的问题。能够针对不同产品业务需求,使用统一的技术方案,生成实体新增属性,校验并更新实体数据,并且能够在满足产品业务需求的同时更新知识库。
【技术领域】
本申请涉及互联网数据处理技术领域,尤其涉及一种基于知识库的实体更新方法及系统。
【背景技术】
随着互联网数据的快速增长,互联网逐渐从原有的仅包含网页相互引用的超链接的文档万维网转变为包含大量描述各种实体和实体之间丰富关系的数据万维网,整个互联网变得更加立体可见。在上述背景下,互联网公司纷纷以此为基础,通过构建知识库来改进服务质量。
知识库,又称知识图谱,旨在描述真实世界中存在的各种实体以及实体间的属性或关系,从数据处理的角度看,现实世界中的客观事物称为实体,它是现实世界中任何可区分、可识别的事物。实体可以为人、物、事件、概念等。知识图谱可被看作是一张巨大的图,图中的节点表示实体,而图中的边则由属性或关系构成。知识库是由实体名称及其属性数据的结构化数据项构建。具体的,知识库可以向外提供知识算子,所述知识算子可视作数据接口,从而通过该数据接口可以从互联网收集数据。
现有的知识获取方法属于离线批处理调度抓取方法,是一般是从开放网页、在线百科等数据中抽取概念、实体、属性和关系。通常会基于批处理调度抓取实体属性数据,例如以多线程爬虫形式对网站抓取全量的实体数据,然后以单个实体为粒度,使用统一的数据规范(schema)进行清洗、融合、建立实体之间的联系,构建以实体为核心的知识库。随着产品业务的增加,现有知识获取方法难以满足快速增长的各种产品业务需求,存在以下问题:
(1)、脱离知识库与知识库算子,无法利用知识库中丰富的实体属性以及关系网络,增加了实体数据的获取难度;
(2)、缺少知识库数据难以校验抓取返回实体属性数据的有效性;
(3)、抓取返回的实体属性数据没有统一建库落地,通用性、复用性差。
【发明内容】
本申请的多个方面提供一种基于知识库的实体更新方法及系统,用于满足不同产品业务需求,降低实体数据的获取难度。
本申请的一方面,提供一种基于知识库的实体更新方法,包括:
基于知识库,确定产品业务关联实体;
根据产品业务需求,为所述产品业务关联实体生成新增属性;调用知识库算子更新所述产品业务关联实体;
将更新后的产品业务关联实体发送给产品业务应用方。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述得到产品业务关联实体包括:
根据产品的业务字段在知识库中进行查找,筛选出产品业务关联实体;或者,
在知识库中根据产品的业务字段新建实体,作为产品业务关联实体。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述根据产品业务需求,为所述产品业务关联实体生成新增属性包括:
判断所述产品业务关联实体的属性能否满足产品业务需求;如果不满足,则根据产品业务需求,为所述产品业务关联实体生成新增属性。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述根据产品业务需求,为所述产品业务关联实体生成新增属性包括:
根据产品业务需求,为所述产品业务关联实体生成一个或多个新增属性。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710883591.5/2.html,转载请声明来源钻瓜专利网。





