[发明专利]基于主题共识覆盖率的网络社区垃圾信息检测与过滤方法无效
申请号: | 201310029853.3 | 申请日: | 2013-01-25 |
公开(公告)号: | CN103092975A | 公开(公告)日: | 2013-05-08 |
发明(设计)人: | 李石君;汤小月;余伟;杨莎;刘晶;丁永刚;胡亚慧;王凯 | 申请(专利权)人: | 武汉大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 | 代理人: | 薛玲 |
地址: | 430072 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 主题 共识 覆盖率 网络 社区 垃圾 信息 检测 过滤 方法 | ||
1.一种基于主题共识覆盖率的网络社区垃圾信息检测与过滤方法,其特征在于,包括以下步骤:
步骤1,数据准备:采集两组以上的围绕不同主题进行交流的主贴及相应的回复的文本内容,抽样其中部分组的主贴与回复作为训练集,其余作为待检测集,对训练集中的文本内容进行人工分类,判断回复的文本内容是否与各自的主贴内容相关,不相关的视为无效的垃圾内容,分类的结果作为训练数据集;
步骤2,计算词频向量:运用词袋算法,将之前采集到的训练集和待检测集中的各个主贴和全部的回复内容全部以词频向量的形式表示;
步骤3,聚合得到主题共识的词频向量:对训练集和待检测集中的各组主贴与回复,聚合各组中所有文本内容对应的词频向量,得到围绕各组内容主题的主题共识的词频向量;
步骤4,计算特征值,组合特征向量:计算训练数据集和待检测集中各文本内容的文本特征值,将文本特征值组合起来形成与文本内容相对应的特征向量,文本特征值包括主题共识覆盖率和其他文本特征值,具体包括以下步骤,
步骤4.1,计算主题共识覆盖率:以步骤3中聚合得到的主题共识的词频向量为基础,计算各文本内容的主题共识覆盖率;
步骤4.2,计算其他文本特征值:其他文本特征值包括文本长度、文本信息熵、文本作者可信度、敏感词汇数量、包含链接数量中的一种或其组合;
步骤4.3,组合主题共识覆盖率和各文本内容的其他文本特征值,形成特征向量;
步骤5,训练文本分类器:采用以支持向量机模型为基础的文本内容分类器,用训练集中的各文本内容的特征向量作为样本输入,以步骤1中对这些文本内容的分类结果作为标准输出,对支持向量机分类器进行反复训练,直到分类器对训练样本的分类准确率达到95%以上;
步骤6,文本分类,检测垃圾内容:对待检测集中的各文本内容进行分类,以待检测文本内容的特征向量作为输入,用步骤5中已调好参数的支持向量机分类器进行分类,判断该段待检测文本内容是否为垃圾信息。
2.根据权利要求1所述的一种基于主题共识覆盖率的网络社区垃圾信息检测与过滤方法,其特征在于:所述步骤3中,聚合操作通过平均值聚合方法实现,即先对所有词频向量中各个对应位置上的元素求平均值,然后将不同位置上的元素的平均值组合成为一个新的向量:
设词表空间用集合{w1,w2,...,wj,...,wN}表示,其中N为词表空间大小,即预先设定的词表中的词汇数量,将第i个文本内容记为Di,文本中词汇wj出现的次数即词频用‖wj‖i表示,各文本内容的词频向量依次表示为:
.
.
.
其中,K为围绕同一个主题进行讨论的全部帖子数量;
词汇wj在所有文本中的词频的平均值为:
将通过平均值聚合法得到的主题共识表示为Gm,所对应的主题共识词频向量用表示,则:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉大学,未经武汉大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310029853.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:磷扩散炉抽风管
- 下一篇:一种微极距离子膜电解槽