[发明专利]一种知识图谱构建方法、装置及系统在审

专利信息
申请号: 201610908410.5 申请日: 2016-10-18
公开(公告)号: CN107967267A 公开(公告)日: 2018-04-27
发明(设计)人: 汪峰来;李春霞;黄震江 申请(专利权)人: 中兴通讯股份有限公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 工业和信息化部电子专利中心11010 代理人: 王淑静
地址: 518057 广东省深圳市南山*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 知识 图谱 构建 方法 装置 系统
【说明书】:

技术领域

发明涉及人工智能技术领域,特别是涉及一种知识图谱构建方法、装置及系统。

背景技术

在互联网时代,搜索引擎是人们在线获取信息和知识的重要工具。当用户输入一个查询词,搜索引擎会返回它认为与这个关键词最相关的网页以及查询词相关的知识图谱。

例如,如果想知道“泰山”的相关信息,可以通过搜索引擎搜索“泰山”,搜索引擎会尝试将这个字符串与抓取的大规模网页做比对,根据网页与这个查询词的相关程度,以及网页本身的重要性,对网页进行排序,作为搜索结果返回给用户。而知识图谱则会将“泰山”理解为一个“实体”(entity),也就是一个现实世界中的事物。这样,搜索引擎会在搜索结果中显示它的基本资料,例如地理位置、海拔高度、别名,以及百科链接等等,此外甚至还会告诉你一些相关的“实体”,如嵩山、华山、衡山和恒山等其他三山五岳等。

知识图谱为查询词赋予丰富的语义信息,建立与现实世界实体的关系,从而帮助用户更快找到所需的信息,可见知识图谱具有重要的现实意义,但是如何快速有效地构建知识图谱一直是业界的一大挑战。现有技术中的知识图谱的构建数据来源复杂多样,知识采集系统定制化程度高,灵活度差,耗费人力成本且效率低下。

发明内容

本发明要解决的技术问题是提供一种知识图谱构建方法、装置及系统,用以解决现有技术中知识采集系统定制化程度高,灵活度差,耗费人力成本且效率低下的问题。

一方面,本发明提供一种知识图谱构建方法,包括:根据预设的数据源规则采集相应数据;通过训练模型对采集的数据抽取实体关系,以形成相应的知识图谱。

可选的,所述数据源规则包括以下至少一种:要采集的数据的数据源种类、数据格式和采集策略。

可选的,所述通过训练模型对采集的数据抽取实体关系,以形成相应的知识图谱包括:通过训练模型对采集的数据抽取实体关系实例语料;对抽取的所述实体关系实例语料分别进行实体识别、类别提取、关系提取以及属性提取;根据识别出的实体,提取出的所述实体的类别和属性,以及所述实体与其他实体之间的关系,形成相应的知识图谱。

可选的,所述实体识别包括:根据已标注的语料训练实体识别模型;通过所述实体识别模型,对生文本语料进行实体识别;所述类别提取、所述关系提取以及所述属性提取包括:通过模板匹配的方式,分别进行类别提取、关系提取以及属性提取。

进一步的,在所述通过训练模型对采集的数据抽取实体关系,以形成相应的知识图谱之后,所述方法还包括:对所述知识图谱的正确性进行评价及标注。

进一步的,在所述通过训练模型对采集的数据抽取实体关系,以形成相应的知识图谱之后,所述方法还包括:根据用户对所述知识图谱的反馈修正所述训练模型。

另一方面,本发明还提供一种知识图谱构建装置,包括:采集单元,用于根据预设的数据源规则采集相应数据;抽取单元,用于通过训练模型对所述采集单元采集的数据抽取实体关系,以形成相应的知识图谱。

可选的,所述数据源规则包括以下至少一种:要采集的数据的数据源种类、数据格式和采集策略。

可选的,所述抽取单元包括:抽取模块,用于通过训练模型对采集的数据抽取实体关系实例语料;识别和提取模块,用于对抽取的所述实体关系实例语料分别进行实体识别、类别提取、关系提取以及属性提取;形成模块,用于根据所述识别和提取模块识别出的实体,提取出的所述实体的类别和属性,以及所述实体与其他实体之间的关系,形成相应的知识图谱。

可选的,所述识别和提取模块,具体用于:根据已标注的语料训练实体识别模型;通过训练后的所述实体识别模型,对生文本语料进行实体识别;通过模板匹配的方式,分别进行类别提取、关系提取以及属性提取。

进一步的,所述装置还包括:监督单元,用于在所述通过训练模型对采集的数据抽取实体关系,以形成相应的知识图谱之后,对所述知识图谱的正确性进行评价及标注。

进一步的,所述装置还包括:修正单元,用于根据用户对所述知识图谱的反馈修正所述训练模型。

另一方面,本发明还提供一种智能互动系统,包括前述实施例提供的任一种知识图谱构建装置。

可选的,所述系统包括智能客服系统、聊天机器人系统、搜索服务系统以及语音助手系统中的至少一种。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中兴通讯股份有限公司,未经中兴通讯股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201610908410.5/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top