[发明专利]一种相似度计算方法、系统、电子设备及存储介质在审
| 申请号: | 202011138623.7 | 申请日: | 2020-10-22 |
| 公开(公告)号: | CN112214535A | 公开(公告)日: | 2021-01-12 |
| 发明(设计)人: | 杨康;徐成国;周星杰;王硕 | 申请(专利权)人: | 上海明略人工智能(集团)有限公司 |
| 主分类号: | G06F16/2458 | 分类号: | G06F16/2458;G06K9/62 |
| 代理公司: | 青岛清泰联信知识产权代理有限公司 37256 | 代理人: | 李红岩 |
| 地址: | 200030 上海市徐汇区*** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 相似 计算方法 系统 电子设备 存储 介质 | ||
本发明提出一种相似度计算方法、系统、电子设备及存储介质,其方法技术方案包括对特征数据类型进行判断;若所述特征数据为字符串,将所述特征数据转化为数字;对所述特征数据中的数字占比进行判断;根据所述特征数据中数字的占比选定质心;计算所述质心与目标向量之间的距离,得出相似度。本发明解决了现有相似度计算方法不合理的问题。
技术领域
本发明属于数据处理领域,尤其涉及一种相似度计算方法、系统、电子设备及存储介质。
背景技术
在目前的大数据时代,很多公司可以随时随地的获取到大量的数据(如用户的特征数据等),然而,对于这些大量数据只有采取合理的处理措施才能挖掘出数据中的价值,做出一些有益的决策。其中,通过对新数据与现存的有明确指向的数据进行对比,根据与每个现存类别的相似度,来判断这个数据应该划归到哪个类别,并采取什么样的处理措施,以发挥其价值。通过数据之间的相似度,决定数据的类别以及处理方式,已经成了处理新数据的一个常用手段。尤其在推荐领域,不仅可以基于用户的相似度,为新用户推荐产品;同时还可以基于产品的相似度,为新产品寻找用户。所以一个好的基于高维特征的相似度计算方法是目前数据处理及推荐领域特别热的话题。
对于现有的相似度计算方法,主要是简单的对目标物体的特征向量使用平均数或者加权平均的方法来获取目标向量的质心;然后通过欧式距离、余弦距离等经典的距离计算方法计算目标向量与质心之间的距离;通过距离大小来衡量两个特征之间的相似度。
以上的特征相似度计算方法虽然已经被广泛的应用的在工业领域的各个方面,但在处理一些高维特征的时候,仍存在一些问题:
(1)在质心点的确定过程中,采用平均的方法将会带来较大的误差,影响相似度的结果;
(2)在相似度的计算过程中,欧式距离或者正余弦距离容易忽略高维特征中不同特征对结果影响的重要性,同时由于不同的特征的数据量级不同,也会对最终的结果带来消极的影响。
发明内容
本申请实施例提供了一种相似度计算方法、系统、电子设备及存储介质,以至少解决现有相似度计算方法不合理的问题。
第一方面,本申请实施例提供了一种相似度计算方法,包括:
第一数据判断步骤:对特征数据类型进行判断;
数据转化步骤:若所述特征数据为字符串,将所述特征数据转化为数字;
第二数据判断步骤:对所述特征数据中的数字占比进行判断;
质心计算步骤:根据所述特征数据中数字的占比选定质心;
相似度计算步骤:计算所述质心与目标向量之间的距离,得出相似度。
优选的,所述质心计算步骤包括:若所述特征数据中的数字占比大于等于0.5,则选定所述特征数据中的众数为质心。
优选的,所述质心计算步骤包括:若所述特征数据中的数字占比小于0.5,则计算所述特征数据的平均值作为质心。
优选的,所述相似度计算步骤进一步包括:使用相对距离计算方式计算所述质心与目标向量之间的距离,公式为
其中,x为质心,y为目标向量。
优选的,所述相似度计算步骤进一步包括:
评估步骤,评估所述特征数据的重要程度得到特征系数;
相似度获取步骤,根据所述特征系数计算所述质心与目标向量之间的距离,公式为
其中,λ为特征系数,x为质心,y为目标向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海明略人工智能(集团)有限公司,未经上海明略人工智能(集团)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011138623.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:预测血液稀释风险值的方法
- 下一篇:一种奖励方法及装置





