[发明专利]用于确定数据相似度的方法、设备和计算机可读存储介质有效
| 申请号: | 201810957255.5 | 申请日: | 2018-08-21 |
| 公开(公告)号: | CN109145162B | 公开(公告)日: | 2021-06-15 |
| 发明(设计)人: | 黄铃 | 申请(专利权)人: | 慧安金科(北京)科技有限公司 |
| 主分类号: | G06F16/901 | 分类号: | G06F16/901;G06K9/62 |
| 代理公司: | 中科专利商标代理有限责任公司 11021 | 代理人: | 黄亮 |
| 地址: | 102412 北京市房山*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 用于 确定 数据 相似 方法 设备 计算机 可读 存储 介质 | ||
本公开的实施例提出了用于确定数据相似度的方法、设备和计算机可读存储介质。该方法包括:确定多个第一数据各自的特征向量;以及基于所述特征向量来确定所述多个第一数据之间的相似度。该设备包括:处理器;存储器,被配置为存储指令,所述指令在由所述处理器执行时使得所述处理器:确定多个第一数据各自的特征向量;以及基于所述特征向量来确定所述多个第一数据之间的相似度。
技术领域
本公开涉及数据处理领域,且更具体地涉及用于确定数据相似度的方法和设备。
背景技术
随着互联网的日益普及,其已经成为人们在生产生活中不可或缺的一部分。据最新的数据统计表明,在世界人口据估计达到75亿以上的情况下,世界平均互联网用户比率已接近50%,中国的互联网用户比率已超过50%,而发达国家甚至已超过80%。面对如此众多的互联网用户,对于用户行为的研究已成为重要的课题之一。
用户行为研究是互联网领域中近来受到关注的研究方向之一。尽管单个用户的行为可能很难预测,但通过研究大量用户的行为模式,可以例如帮助商家更好地推销商品、帮助社交网站更好地匹配用户、或者帮助预防和发现恶意用户。
发明内容
然而目前的用户行为分析主要采用的还是人工干预的方法。例如,对于社交网站/软件的违规用户(例如,发布违规信息的用户),通常需要其它用户的举报并经过网站/软件的经过训练的工作人员的审核来确定。此外,对于例如由机器大量注册的僵尸用户,目前也只能通过一些简单的方式(例如,通过注册用户的大量重复的IP(网际协议)地址等、或通过校验码之类的手段)来对其加以区别或预防。然而,这种简单的方式在遇到采用代理、跳板等方式的僵尸用户的情况时,也难以真正发挥作用,通常也还是需要人工最终确认。
考虑到上述人工干预方法难以大规模部署使用,因此需要一种自动化的、多维度的用户行为分析方案,其可以帮助例如网站/软件运营者将海量用户加以分类并简化后续的处理过程。
为了至少部分解决或减轻上述问题,提供了根据本公开实施例的用于确定数据相似度的方法和设备。以该方法和设备为核心,可以构造出适用于多个领域的自动化多维度的用户行为分析方案。
根据本公开的第一方面,提供了一种用于确定数据相似度的方法。该方法包括:确定多个第一数据各自的特征向量;以及基于所述特征向量来确定所述多个第一数据之间的相似度。
在一些实施例中,所述多个第一数据是涉及用户行为的用户行为数据。在一些实施例中,所述用户行为数据包括以下至少一项:用户的注册信息、用户的操作信息以及用户的社交信息。在一些实施例中,确定多个第一数据各自的特征向量的步骤包括:针对所述多个第一数据中的每个第一数据,使用k-gram算法来计算每个第一数据的k-gram;对计算出的k-gram执行djb2散列函数,以将得到散列值作为相应的特征;以及根据得到的特征来形成每个第一数据的相应特征向量。在一些实施例中,所述k-gram算法中使用的系数k为5。在一些实施例中,在基于所述特征向量来确定所述多个第一数据之间的相似度之后,所述方法还包括:确定多个第二数据各自的特征向量;以及基于所述特征向量来确定所述多个第一数据和所述多个第二数据之间的相似度以及所述多个第二数据内的的相似度。在一些实施例中,所述方法还包括:针对所述多个第一数据之间的相似度,采用聚类方法对所述多个第一数据进行分类。在一些实施例中,所述聚类方法是分层聚类方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于慧安金科(北京)科技有限公司,未经慧安金科(北京)科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810957255.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:中文地名查询方法、装置及设备
- 下一篇:区块链数据缩容方法、装置及存储介质
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置





