[发明专利]基于主题共识覆盖率的网络社区垃圾信息检测与过滤方法无效
申请号: | 201310029853.3 | 申请日: | 2013-01-25 |
公开(公告)号: | CN103092975A | 公开(公告)日: | 2013-05-08 |
发明(设计)人: | 李石君;汤小月;余伟;杨莎;刘晶;丁永刚;胡亚慧;王凯 | 申请(专利权)人: | 武汉大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 | 代理人: | 薛玲 |
地址: | 430072 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 主题 共识 覆盖率 网络 社区 垃圾 信息 检测 过滤 方法 | ||
技术领域
本发明属于数据质量的研究领域,特别涉及一种基于主题共识覆盖率的网络社区垃圾信息检测与过滤方法。
背景技术
主题共识:根据用户行为特征研究领域的一项重要结论,网络社区中针对同一主题进行交流的普通用户所发布的内容都与该主题相关,而存在不良意图的用户则会发布一些与主题无关的内容。J.M.Reagle在其专著《GoodFaith Collaboration --The Culture of Wikipedia》中分析指出,网络社区中发布各自不同观点的用户之所以能够围绕同一主题成功进行沟通交流,是因为彼此之间具有对该主题的基本共识,并且相信与自己交流的对方也同样会根据这一基本共识发布回复内容[1]。而行业内最大的网络共建社区维基百科的发起人JimGiles也承认,维基百科是一个基于主题共识而建立的网站[2]。这些用户行为特征研究领域的相关成果为本项目提出的方法提供了理论基础。一般的,在网络社区中,一个主贴及其对应的所有回复贴应当围绕着同一主题共识进行交流。
文本内容的特征值与特征向量:一段文本内容可以用它的一些属性来表示其特征,这些可以用来标识文本内容的特征属性,被称为文本内容的特征值[3]。文本所包含的字词集合、词频、词序等,都属于该文本内容的特征值。将一段文本内容以一组特征值所组成的特征向量来表示,是利用计算机进行文本挖掘得以实施的基础。
词袋算法:词袋算法是将文本内容用不同词汇的出现次数组成的向量进行的数学化表示的一种方法[4]。其主要思路是:以全部文本内容中所出现的全部词汇集合作为词典,以词典里各个词汇在某段文本内容中的出现次数(即词频)作为元素,将所有词汇所对应的元素组合起来成为一个数学向量,使得这个数学向量能够表示该段文本内容的词汇与词频特征,从而得到这段文本内容的词频向量。由于传统的词袋算法没有考虑词汇之间的顺序而导致词序这一重要文本标识信息丢失,因此本项目将在词汇单元的基础上,利用双词汇串作为基本的词袋单元[5],从而在词袋算法中引入对词汇顺序的考虑,对各段文本内容建立标识更为准确的词频向量。此处需要注意的是,在词袋算法中,由于词典的大小是固定的,因此即使是不同的文本内容,其对应的词频向量长度也是相同的。
文本分类:文本分类,其方法可以归结为根据待分类数据的某些特征来进行匹配,是数据挖掘相关研究中的一项重要内容。文本分类一般包括了文本的表达、分类器的选择与训练、分类结果的评价与反馈等过程,其中文本的表达又可细分为文本预处理、索引和统计、特征抽取等步骤。目前较为通用的文本分类方法是基于机器学习理论的方法。统计学习方法需要一批由人工进行了准确分类的文档作为学习的材料(称为训练集,注意由人分类一批文档比从这些文档中总结出准确的规则成本要低得多),再由计算机从这些文档中挖掘出一些能够有效分类的规则,这个过程被形象的称为训练,而总结出的规则集合常常被称为分类器。训练完成之后再对待检测的文档进行分类时,便使用这些分类器来进行。主流的机器学习方法包括决策树[6],Bayes[7],神经网络,支持向量机(SVM)[8],线性最小平方拟合[9],k-NN,遗传算法,最大熵[10]等。本项目主要采用支持向量机(SVM)算法来建立文本分类模型,判断待检测的文本内容是否为垃圾信息需要过滤。
网络社区垃圾信息的检测与过滤:目前的网络社区垃圾检测算法一般会考察待发布内容的一些基本特征或者固定模式,如文本的长度、敏感词数量、作者可信度等。Potthast等人针对编辑内容(包括文本、结构、链接、多媒体)和编辑操作(插入、替换及删除)的特征,采用了逻辑回归模型来检测无效的编辑内容[11]。Smets等学者用部分匹配的压缩模型对Wikipedia社区中一个小时出现的新增内容进行分类,并查验其中的垃圾信息[12]。而SiChi.Chin等人用的则是统计语言模型[13]。除此之外,West等研究者用到了网页的meta数据,根据作者的声誉来估计新发布内容的可信度,其中作者的声誉是通过发帖频率、发帖位置和注册信息来度量的[14]。然而上述检测方法没有考虑到同一主题下发帖内容的趋同性,因此,对于那些发布内容与正常发帖相似因而显得较为隐蔽的垃圾信息,这些方法的检测准确率和召回率都不高。
参考文献:
[1]J.M.Reagle.Good Faith Collaboration--The Culture of Wikipedia(Web edition).The MIT Press,Cambridge,MA.2011.
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉大学,未经武汉大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310029853.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:磷扩散炉抽风管
- 下一篇:一种微极距离子膜电解槽