[发明专利]一种可疑群组发现方法和装置有效
| 申请号: | 201810531823.5 | 申请日: | 2018-05-29 |
| 公开(公告)号: | CN108829769B | 公开(公告)日: | 2021-08-06 |
| 发明(设计)人: | 周书恒;祝慧佳;赵智源;郭亚 | 申请(专利权)人: | 创新先进技术有限公司 |
| 主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/33;G06Q50/00 |
| 代理公司: | 北京博思佳知识产权代理有限公司 11415 | 代理人: | 林祥 |
| 地址: | 开曼群岛大开曼岛*** | 国省代码: | 暂无信息 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 可疑 发现 方法 装置 | ||
1.一种可疑群组发现方法,所述方法包括:
获取预设时间段内,不同用户发表的文本内容;
利用预设算法计算文本内容之间的相似度,将相似度满足条件的文本确定为同类文本,将同类文本中内容相似度高于预设阈值的两两文本确定为相似文本对;
以发表相似文本对的用户作为网络中的节点,构建相似用户网络,包括:以相似文本对的文本两方作为网络节点,以相似文本对之间的关系作为网络中的边,构建相似文本网络;将所述网络节点中的文本信息映射为发表所述文本信息的用户信息,进而构建出以用户作为网络节点,以发表同一相似文本对的用户关系作为网络中的边的相似用户网络;
对相似用户网络进行社区划分,以确定至少一个子网络,将所述子网络中包含的用户组确定为可疑群组。
2.如权利要求1所述的方法,所述利用预设算法计算文本内容之间的相似度,将相似度满足条件的文本确定为同类文本,将同类文本中内容相似度高于预设阈值的两两文本确定为相似文本对,包括:
利用聚类算法对不同文本进行聚类,以生成至少一个聚类簇;
利用文本相似度算法计算任一聚类簇中文本之间的相似度,并将内容相似度高于预设阈值的两两文本确定为相似文本对。
3.如权利要求1所述的方法,文本相似度算法为simhash算法。
4.如权利要求1所述的方法,所述构建出以用户作为网络节点,以发表同一相似文本对的用户关系作为网络中的边的相似用户网络,包括:
以用户作为网络节点,以发表同一相似文本对的用户关系作为网络中的边,以用户间发表的相似文本对的数量作为网络中边的权重,构建相似用户网络。
5.如权利要求4所述的方法,所述对相似用户网络进行社区划分,以确定至少一个子网络,包括:
利用社区发现算法对所述相似用户网络进行子图分割,进而从所述相似用户网络中确定至少一个子网络。
6.一种可疑群组发现装置,所述装置包括:
文本获取模块:用于获取预设时间段内,不同用户发表的文本内容;
相似计算模块:用于利用预设算法计算文本内容之间的相似度,将相似度满足条件的文本确定为同类文本,将同类文本中内容相似度高于预设阈值的两两文本确定为相似文本对;
网络构建模块:用于以发表相似文本对的用户作为网络中的节点,构建相似用户网络,包括:以相似文本对的文本两方作为网络节点,以相似文本对之间的关系作为网络中的边,构建相似文本网络;将所述网络节点中的文本信息映射为发表所述文本信息的用户信息,进而构建出以用户作为网络节点,以发表同一相似文本对的用户关系作为网络中的边的相似用户网络;
群组发现模块:用于对相似用户网络进行社区划分,以确定至少一个子网络,将所述子网络中包含的用户组确定为可疑群组。
7.如权利要求6所述的装置,所述相似计算模块,具体用于:
利用聚类算法对不同文本进行聚类,以生成至少一个聚类簇;
利用文本相似度算法计算任一聚类簇中文本之间的相似度,并将内容相似度高于预设阈值的两两文本确定为相似文本对。
8.如权利要求6所述的装置,文本相似度算法为simhash算法。
9.如权利要求8所述的装置,所述网络构建模块,具体用于:
以用户作为网络节点,以发表同一相似文本对的用户关系作为网络中的边,以用户间发表的相似文本对的数量作为网络中边的权重,构建相似用户网络。
10.如权利要求9所述的装置,所述群组发现模块,具体用于:
利用社区发现算法对所述相似用户网络进行子图分割,进而从所述相似用户网络中确定至少一个子网络。
11.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述程序时实现如权利要求1 所述的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于创新先进技术有限公司,未经创新先进技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810531823.5/1.html,转载请声明来源钻瓜专利网。





