[发明专利]一种实体关系图的确定方法、装置、服务器及存储介质在审
申请号: | 201811355514.3 | 申请日: | 2018-11-14 |
公开(公告)号: | CN109472032A | 公开(公告)日: | 2019-03-15 |
发明(设计)人: | 火一莽;张志远;张自峰 | 申请(专利权)人: | 北京锐安科技有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 北京品源专利代理有限公司 11332 | 代理人: | 孟金喆 |
地址: | 100044 北京市海淀区西小口*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 实体关系图 目标实体 存储介质 实体关系 可靠度 服务器 存储 存储开销 存储空间 关系连接 关系数据 目标数据 排序 抽取 | ||
本发明公开了一种实体关系图的确定方法、装置、服务器及存储介质,该方法包括:确定目标数据中的至少一个实体,并抽取各实体之间的实体关系,确定各所述实体关系的可靠度,根据所述可靠度的排序,确定目标实体关系及相应的目标实体对,基于各所述目标实体关系连接各所述目标实体对,构成实体关系图并存储,通过上述技术方案,解决了现有实体,关系数据存储所带来的存储开销和过程繁琐等问题,简化了实体关系图的确定过程,提高了效率,节省了存储空间。
技术领域
本发明实施例涉及计算机技术领域,尤其涉及一种实体关系图的确定方法、装置、服务器及存储介质。
背景技术
面对日益增多的海量信息,从中快速选择真正需要的信息,并将这些信息进行分类、提取和重构,显得尤为重要。
在这种背景下,信息抽取技术应运而生,广义上来说,信息抽取处理的对象可以是文本、图像、语音或视频等多种媒体,实际应用中通常是对文本信息进行抽取。文本信息抽取是一种从自然语言文本中抽取指定类型的实体和关系的技术,主要包括三方面:处理非结构化的自然语言文本、选择性抽取文本中指定的信息、抽取的信息形成结构化数据表示。为此,现有技术利用信息抽取技术,抽取出两两实体之间的关系,并进行存储,然后通过处理这些关系,形成最终的关系图,这种方法不仅需要占用较大的存储空间,而且过程繁琐,效率较低。
发明内容
本发明实施例提供一种实体关系图的确定方法、装置、服务器及存储介质,以简化实体关系图的确定过程,提高效率,节省存储空间。
第一方面,本发明实施例提供一种实体关系图的确定方法,包括:
确定目标数据中的至少一个实体,并抽取各实体之间的实体关系;
确定各所述实体关系的可靠度;
根据所述可靠度的排序,确定目标实体关系及相应的目标实体对;
基于各所述目标实体关系连接各所述目标实体对,构成实体关系图并存储。
进一步的,所述确定目标数据中的至少一个实体,包括:
对目标数据的关键词进行语义解析;
根据解析结果确定所述目标数据中的至少一个实体。
进一步的,在确定目标数据中的至少一个实体之后,还包括:
对各所述实体进行消歧和归并处理,得到至少一个标准实体。
进一步的,所述对各所述实体进行消歧和归并处理,得到至少一个标准实体,包括:
根据设定的消歧规则对各所述实体进行消歧处理;
计算各消歧后实体的属性相似度;
根据各所述属性相似度确定各所述消歧后实体的实体相似度;
根据各所述实体相似度,对消歧后各所述实体进行归并处理,得到至少一个标准实体。
进一步的,所述抽取各实体之间的实体关系,包括:
根据预设规则确定各所述实体之间存在的实体关系,并抽取各所述实体关系。
进一步的,所述确定各所述实体关系的可靠度,包括:
根据所述实体的出处,确定所述实体的来源系数;
根据所述实体的产生时间,确定所述实体的时间系数;
根据预设时间内所述实体出现的频率,确定所述实体的出现频率系数;
根据所述来源系数、所述时间系数和所述出现频率系数确定各所述实体关系的可靠度。
进一步的,在确定目标数据中的至少一个实体之前,还包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京锐安科技有限公司,未经北京锐安科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811355514.3/2.html,转载请声明来源钻瓜专利网。