[发明专利]一种可疑群组发现方法和装置有效
申请号: | 201810531823.5 | 申请日: | 2018-05-29 |
公开(公告)号: | CN108829769B | 公开(公告)日: | 2021-08-06 |
发明(设计)人: | 周书恒;祝慧佳;赵智源;郭亚 | 申请(专利权)人: | 创新先进技术有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/33;G06Q50/00 |
代理公司: | 北京博思佳知识产权代理有限公司 11415 | 代理人: | 林祥 |
地址: | 开曼群岛大开曼岛*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 可疑 发现 方法 装置 | ||
本说明书提供一种可疑群组发现方法和装置,先获取用户和用户发表的文本内容,利用特定算法计算大量文本之间的相似度,并以用户发表文本的相似度作为连接关系构建相似用户网络,最后通过对用户相似网络的社区划分发现可疑群组,实现基于相似文本的可疑群组发现。
技术领域
本说明书涉及互联网领域,尤其涉及一种可疑群组发现方法和装置。
背景技术
互联网社区平台的日益发展给广大用户提供了便捷有效的沟通交流平台,同时也产生了大量违规违禁的内容,通常情况下,灰黑产人员会采用团伙作案的方式以保证其违规内容得到大范围传播。
现有技术中,为了维护社区的健康发展,社区平台常利用成员间的直接关系网络进行团伙挖掘,比如以某一黑用户为基础,利用互为好友,关注同一博主,同在某一群组等信息进行关系拓展,进而挖掘出相关团伙。
但是随着平台和灰黑产之间的对抗升级,为了规避社区平台的监控,检测,处罚,灰黑产也在有意识的淡化其成员之间的关系,并运用多种手段对自己的行为进行掩饰,例如大量传播广告、色情等违规信息的同一团伙人员在社区平台中并无直接连接关系,但是会大量传播类似的广告信息,并通过修改其中部分文字的方式加大平台风险防控的难度。从宏观角度看,他们可能是一个个单独的个体,此时基于关系的团伙挖掘方式则不能起到很好的挖掘效果。
发明内容
针对上述技术问题,本说明书实施例提供一种可疑群组发现方法和装置,技术方案如下:
根据本说明书实施例的第一方面,提供一种可疑群组发现方法,该方法包括:
获取预设时间段内,不同用户发表的文本内容;
利用预设算法计算文本内容之间的相似度,将相似度满足条件的文本确定为同类文本,将同类文本中内容相似度高于预设阈值的两两文本确定为相似文本对;
以发表相似文本对的用户作为网络中的节点,构建相似用户网络;
对相似用户网络进行社区划分,以确定至少一个子网络,将所述子网络中包含的用户组确定为可疑群组。
根据本说明书实施例的第二方面,提供一种可疑群组发现装置,该装置包括:
文本获取模块:用于获取预设时间段内,不同用户发表的文本内容;
相似计算模块:用于利用预设算法计算文本内容之间的相似度,将相似度满足条件的文本确定为同类文本,将同类文本中内容相似度高于预设阈值的两两文本确定为相似文本对;
网络构建模块:用于以发表相似文本对的用户作为网络中的节点,构建相似用户网络;
群组发现模块:用于对相似用户网络进行社区划分,以确定至少一个子网络,将所述子网络中包含的用户组确定为可疑群组。
根据本说明书实施例的第三方面,提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述程序时实现一种可疑群组发现方法,该方法包括:
获取预设时间段内,不同用户发表的文本内容;
利用预设算法计算文本内容之间的相似度,将相似度满足条件的文本确定为同类文本,将同类文本中内容相似度高于预设阈值的两两文本确定为相似文本对;
以发表相似文本对的用户作为网络中的节点,构建相似用户网络;
对相似用户网络进行社区划分,以确定至少一个子网络,将所述子网络中包含的用户组确定为可疑群组。
本说明书实施例所提供的技术方案,先获取用户和用户发表的文本内容,利用特定算法计算大量文本之间的相似度,并以用户发表文本的相似度作为连接关系构建相似用户网络,最后通过对用户相似网络的社区划分发现可疑群组,实现基于相似文本的可疑群组发现。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于创新先进技术有限公司,未经创新先进技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810531823.5/2.html,转载请声明来源钻瓜专利网。