[发明专利]一种实体相似度计算方法、装置及相关设备在审
| 申请号: | 202210766968.X | 申请日: | 2022-07-01 |
| 公开(公告)号: | CN114996411A | 公开(公告)日: | 2022-09-02 |
| 发明(设计)人: | 钟穗希;刘元弘 | 申请(专利权)人: | 深圳普适智能有限公司 |
| 主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/901;G06F16/903;G06K9/62 |
| 代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 薛娇 |
| 地址: | 518101 广东省深圳市宝安区新安*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 实体 相似 计算方法 装置 相关 设备 | ||
本申请公开了一种实体相似度计算方法,包括按照预设筛选条件对原始图数据进行划分;针对划分得到的各子图数据,均以关注实体为基准,通过游走获得关注实体的各子图路径;按照预设广播数量对各子图路径整合得到的实体路径集进行拆分;将拆分得到的各游走路径子集依次广播至各计算设备;针对每个子图数据,利用各计算设备基于游走路径子集计算初始相似度分数;针对每个关注实体,对初始相似度分数和预获取的各子图数据分别对应的权重值进行加权求和,得到目标相似分数。该方法有效减少实体相似度计算过程中的资源占用,提高实体相似度计算效率。本申请还公开了一种装置、设备及计算机可读存储介质,均具有上述有益效果。
技术领域
本申请涉及信息推荐技术领域,特别涉及一种实体相似度计算方法,还涉及一种实体相似度计算装置、设备及计算机可读存储介质。
背景技术
相似实体计算技术作为实体间相似性探查的基本操作,被广泛应用于各个领域和行业的实际问题中,例如电商平台的相似商品推荐、医疗疗效分析中的相似病人组、金融领域的相似用户等。利用实体自身的属性,可以统计实体间关于属性的相似度,在传统的相似度计算中,由于需要计算所有实体中任意两两实体间的相似度,需要构建并计算n*n维的数值矩阵,当实体的个数n非常巨大时(常见的业务场景中,实体个数经常能达到千万级甚至亿级),内存运算下亿级的实体数最少需要占用9094TB的内存,在此情况下,直接进行大规模的实体相似度计算很容易出现内存溢出的情况,存在资源占用过高、计算效率低下的问题。
因此,如何有效减少实体相似度计算过程中的资源占用,同时提高实体相似度计算效率是本领域技术人员亟待解决的问题。
发明内容
本申请的目的是提供一种实体相似度计算方法,该方法可以有效减少实体相似度计算过程中的资源占用,同时提高实体相似度计算效率;本申请的另一目的是提供一种实体相似度计算装置、设备及计算机可读存储介质,均具有上述有益效果。
第一方面,本申请提供了一种实体相似度计算方法,包括:
确定原始图数据中的关注实体集;
按照预设筛选条件对所述原始图数据进行划分,获得各子图数据;
针对各所述子图数据,均以所述关注实体集中的关注实体为基准,按照预设游走策略进行游走,获得所述关注实体的各子图路径;
对所述关注实体集中全体关注实体的各所述子图路径进行整合,得到全体关注实体的实体路径集;
按照预设广播数量对所述实体路径集进行拆分,获得各游走路径子集;其中,所述游走路径子集的数量与所述预设广播数量的乘积为所述关注实体集中关注实体的总个数;
将各所述游走路径子集依次广播至各计算设备;
针对每个子图数据,利用各所述计算设备基于所述游走路径子集计算所述关注实体与其他实体之间的初始相似度分数;
获取各所述子图数据分别对应的权重值;
针对每个关注实体,对所述初始相似度分数和所述权重值进行加权求和,得到所述关注实体与其他实体之间的目标相似分数。
优选的,所述按照预设筛选条件对所述原始图数据进行划分,获得各子图数据,包括:
按照时序筛选条件对所述原始图数据进行划分,获得各初始子图数据;
按照关系筛选条件对各所述初始子图数据进行筛选,获得各所述子图数据。
优选的,针对各所述子图数据,均以所述关注实体集中的关注实体为基准,按照预设游走策略进行游走,获得所述关注实体的各子图路径,包括:
针对每个所述子图数据,以所述关注实体为基准,按照随机跳转策略或概率跳转策略以预设游走次数和预设游走深度进行游走;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳普适智能有限公司,未经深圳普适智能有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210766968.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种气体轴承拆卸设备及其拆卸方法
- 下一篇:一种数字模型的网格不均等划分方法





