[发明专利]知识图谱中实体相似度的计算方法及系统在审
申请号: | 201810589169.3 | 申请日: | 2018-06-08 |
公开(公告)号: | CN108846080A | 公开(公告)日: | 2018-11-20 |
发明(设计)人: | 尚凌辉;陈鑫;叶淑阳 | 申请(专利权)人: | 浙江捷尚人工智能研究发展有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 广州市越秀区哲力专利商标事务所(普通合伙) 44288 | 代理人: | 胡拥军;糜婧 |
地址: | 310000 浙江省杭州市余杭区五常*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 相似度 预处理 图谱 实体属性 计算方法及系统 相似度计算 优选 文本 数据类型确定 处理数据 计算实体 列表内容 列表数据 数据噪声 数值单位 文本内容 文本数据 语义信息 噪声数据 准确度 不一致 清洗 分类 | ||
本发明公开了知识图谱中实体相似度的计算方法及系统,对知识图谱中的实体进行预处理,对预处理后的实体进行分类,获取实体属性及其属性值,根据实体属性值,计算实体之间的相似度,该相似度计算过程较为简单,准确度也有所提高。优选的,本发明可以对知识图谱中实体的语义信息进行噪声数据清洗的预处理,处理数据不完整、数据噪声以及数据不一致导致的问题,提高数据质量。优选的,还可以根据实体属性值的数据类型确定相似度计算方式,数值型实体之间的相似度由数值单位、数值大小、数值精度共同确定,列表型实体之间的相似度由列表名称、列表数据量、列表内容共同确定,文本型实体之间的相似度由文本名称、文本数据量、文本内容共同确定。
技术领域
本发明涉及知识图谱的技术领域,尤其涉及知识图谱中实体相似度的计算方法及系统。
背景技术
实体相似度的计算有诸多应用,在知识图谱的实体相似度计算中,给出了每个实体的属性值,并对部分实体进行相似度的标注,要求能得到其他实体之间的相似度。相似度模型的典型应用场景就是找到和某个实体相似的其他实体,例如医疗疗效分析中的相似病人组、商铺选址、广告宣传、电商平台的相似商品推荐(个性化推荐)。用户购买了某个产品,或使用了某个功能,找到和该产品或功能相似的其他产品或者功能推荐给用户,个性化推荐的一个核心环节就是相似度的计算。
现有技术的相似度计算过程较为复杂,准确度也不高。
发明内容
为了克服现有技术的不足,本发明的目的在于提供知识图谱中实体相似度的计算方法及系统,旨在解决现有技术的相似度计算过程较为复杂,准确度不高的问题。
本发明的目的采用以下技术方案实现:
一种知识图谱中实体相似度的计算方法,包括:
预处理步骤,对知识图谱中的实体进行预处理;
分类步骤,对预处理后的实体进行分类,获取实体属性及其属性值;
计算步骤,根据实体属性值,计算实体之间的相似度。
在上述实施例的基础上,优选的,所述预处理步骤,具体为:
根据实体属性值的数据类型,对知识图谱中实体的语义信息进行噪声数据清洗。
在上述任意实施例的基础上,优选的,所述实体属性值的数据类型包括数值型、列表型、文本型中的一种或多种。
在上述实施例的基础上,优选的,所述实体属性值的数据类型为数值型时,实体之间的相似度由数值单位、数值大小、数值精度共同确定。
或者,优选的,所述实体属性值的数据类型为列表型时,实体之间的相似度由列表名称、列表数据量、列表内容共同确定;
所述实体属性值的数据类型为文本型时,实体之间的相似度由文本名称、文本数据量、文本内容共同确定。
一种知识图谱中实体相似度的计算系统,包括:
预处理模块,用于对知识图谱中的实体进行预处理;
分类模块,用于对预处理后的实体进行分类,获取实体属性及其属性值;
计算模块,用于根据实体属性值,计算实体之间的相似度。
在上述实施例的基础上,优选的,所述预处理模块用于:
根据实体属性值的数据类型,对知识图谱中实体的语义信息进行噪声数据清洗。
在上述任意实施例的基础上,优选的,所述实体属性值的数据类型包括数值型、列表型、文本型中的一种或多种。
在上述实施例的基础上,优选的,所述实体属性值的数据类型为数值型时,实体之间的相似度由数值单位、数值大小、数值精度共同确定。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江捷尚人工智能研究发展有限公司,未经浙江捷尚人工智能研究发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810589169.3/2.html,转载请声明来源钻瓜专利网。