[发明专利]发掘可疑帐号的分身群组的方法与系统有效
| 申请号: | 201210379865.4 | 申请日: | 2012-10-09 |
| 公开(公告)号: | CN103631834A | 公开(公告)日: | 2014-03-12 |
| 发明(设计)人: | 沈民新;李青宪;邱中人 | 申请(专利权)人: | 财团法人工业技术研究院 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 北京市柳沈律师事务所 11105 | 代理人: | 陈小雯 |
| 地址: | 中国台*** | 国省代码: | 中国台湾;71 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 发掘 可疑 帐号 分身 方法 系统 | ||
1.一种发掘可疑帐号的分身群组的方法,包含︰
在至少一硬件处理器的控制下,;
根据在一第一时间区间内,一第一组帐号的每一帐号的发文内容,建立该帐号的一语言模型来描述该帐号的语言风格,并且比较该第一组帐号的多个语言模型的相似度,以将该第一组帐号分群;以及
针对在一第二时间区间内,新增的多笔数据,挖掘出至少一监控词组的多重变异词汇,并且将该多重变异词汇更新至一第二组帐号的多个语言模型,进而汇整该第一组帐号与该第二组帐号,并且将一组汇整后的帐号重新分群。
2.如权利要求1所述的方法,该方法还包括:
针对在多个更新时间区间的每一更新时间区间内新增的多笔数据,挖掘出至少一监控词组的多重变异词汇,并且将该多重变异词汇更新至或重建于一不同组帐号的多个语言模型,进而将该不同组帐号与其前一组帐号汇整后,重新分群,以持续发掘可疑帐号的分身群组。
3.如权利要求2所述的方法,该方法还包括:
针对在该每一更新时间区间内,将该多重变异词汇更新于既有的语言模型中,并且对该每一更新时间区间中与与其前一组帐号不同的每一新帐号,重新建立该新帐号的一语言模型来描述其发文内容。
4.如权利要求1所述的方法,该方法还包括:
对于该第一组帐号的每一帐号,计算及比较该第一组帐号所对应的该多个语言模型的相似度,并根据该相似度的比较结果来将该第一组帐号分群。
5.如权利要求4所述的方法,该方法还包括:
重新计算及比较该第二组帐号的多个语言模型的相似度,并根据重新比较的相似度结果,汇整该第一组帐号与该第二组帐号,并将该组汇整后的帐号重新分群。
6.如权利要求1所述的方法,其中挖掘出该至少一监控词组的多重变异词汇通过该至少一监控词组中每一监控词的前后特征视窗,提取一或多个特征,来判断该新增的多笔数据中一或多个新词汇是否属于该监控词的变异词汇。
7.如权利要求6所述的方法,其中该一或多个特征是一关键词汇序列模式、一词性序列模式、一概念序列模式、以及一词汇字串相似度,之前述特征的其中一或两种以上的特征。
8.如权利要求1所述的方法,其中建立该帐号的该语言模型还包括:
将该帐号对应的发文内容通过断词处理、以及语言风格特征提取,来训练出该语言模型。
9.如权利要求1所述的方法,该方法还包括:
建立一词汇配对表,该词汇配对表中每一配对包含一第一词汇与一第二词汇,该第一词汇是该至少一监控词组中的一监控词汇,而该第二词汇是一候选变异词汇。
10.如权利要求9所述的方法,该方法还包括:
建立该配对的一目标视窗与一候选视窗,并分别从该目标视窗与该候选视窗提取一或多个特征;以及
整合该第一词汇与该第二词汇之间的一词汇距离和该一或多个不同特征的距离,并根据该整合的距离来计算该第一词汇与该第二词汇之间的相似度。
11.如权利要求1所述的方法,该方法还包括:
通过转换该至少一监控词组中每一词汇的一第一权重,得到该多重变异词汇中每一变异词汇的一第二权重,以将该多重变异词汇更新至该第二组帐号的该多个语言模型。
12.如权利要求1所述的方法,该方法还包括:
通过一渐进式分群算法,根据该第二组帐号的多个语言模型将该组汇整后的帐号重新分群,找出一或多个新的帐号分身群组。
13.一种发掘可疑帐号的分身群组的系统,包含:
一语言模型训练装置,根据在一第一时间区间内,一第一组帐号的每一帐号的发文内容,建立该帐号的一语言模型来描述该帐号的语言风格;
一帐号分群装置,根据建立的该第一组帐号的一第一组语言模型的相似度,来将该第一组帐号分群;
一变异词辨识器,针对在一第二时间区间内新增的多笔数据,挖掘出至少一监控词组的多重变异词汇,该多重变异词汇被更新至一第二组帐号所属的一第二组语言模型;以及
一渐进式帐号分群装置,根据该第二组语言模型的相似度,汇整该第一组帐号与该第二组帐号,并将一组汇整后的帐号重新分群。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于财团法人工业技术研究院,未经财团法人工业技术研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210379865.4/1.html,转载请声明来源钻瓜专利网。





