[发明专利]一种基于关联规则的Web评论观点自动分类系统及分类方法有效
申请号: | 201310301065.5 | 申请日: | 2013-07-17 |
公开(公告)号: | CN103473262A | 公开(公告)日: | 2013-12-25 |
发明(设计)人: | 袁满;欧阳元新;皇甫垚;熊璋 | 申请(专利权)人: | 北京航空航天大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京科迪生专利代理有限责任公司 11251 | 代理人: | 成金玉;杨学明 |
地址: | 100191*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 关联 规则 web 评论 观点 自动 分类 系统 方法 | ||
技术领域
本发明涉及一种基于关联规则的Web评论观点自动分类系统及分类方法,属于语义处理技术领域。
背景技术
传统的文本观点分类方法有基于机器学习的观点分类,基于情感分析的观点分类。
基于机器学习的方法将文本分类中的机器学习算法直接用于观点分类,观点分类任务上的准确率通常要低于面向其它类别主题的文本分类任务的准确率。其原因是Web中的观点文本涉及到人的情感表述,是一种主题很特殊的文本内容,其语义隐晦程度要高于客观描述性的文本,例如,表述“批评”观点的评论往往可能带有表示讽刺意义的褒义词,相反的情况也同样存在,这些特殊的模式是统计学习方法很难判断的。
基于情感分析的观点分类是将文本中的单元例如单词或短语的情感倾向量化为一个实数值测度,然后通过分析文本中所有单词或短语的情感倾向来确定句子和整个文档所表达的观点倾向。单词和短语的情感分析除了考虑单词权重和高阶词之外,还要考虑位置、词性、句法结构等属性,因此本类方法的特点是高度依赖于自然语言处理工具和人工知识。自然语言处理的结果好坏和人工知识的完备程度直接影响分类结果。
发明内容
本发明技术解决问题:克服现有技术的不足,提供一种基于关联规则的Web评论观点自动分类系统及分类方法,不需要大量的人工参与,自动性高,也不过分依赖中文语言的处理优劣,并且保证了分类系统结果输出的精度。
本发明技术解决方案之一,包括四个模块:频繁词集提取模块,频繁词集优化模块,最优关联规则挖掘模块,文本观点分类模块。系统结构图如图1所示,虚线内为本系统范畴。
频繁词集提取模块:数据预处理,把网页中获取的文本除去“是”“我”等常见却无用的词语(降噪),并且用有代表性的词语表示,该部分不是本发明的发明,本发明只是使用了该部分将原始文本用特征词表示出来,得到候选词集。该模块的输入为候选词集,这一部分词集是从文本中提取的能代表观点的词语的集合。对候选词集采用Apriori算法,这一算法是数据挖掘中的经典算法。通过宽度优先的策略自底向上逐级生成各项频繁项目集。算法由初始的一维频繁集开始迭代,在每一轮迭代中,k项集均由k‐1项集生成。Apriori算法中的频繁集的剪枝依赖于“向下封闭属性”:频繁项集的所有非空子集都是频繁的,即如果一个项集不是频繁项集,那么它的所有超集必然不是频繁项集。这一性质大大减少了候选频繁项集的数目。尽管如此,由于Apriori需要多次搜索数据库,其时间复杂度仍然较大,并且如果结果直接用于关联规则挖掘,效果并不理想,所以需要进行下一步优化。
频繁词集优化模块:假定文本集合包含n个文本类别{class1,…classj,…classn},在上一步产生的频繁词集中,令FS表示频繁词集,t为频繁词集FS中的词条。计算每一个词条t在类别中i中的支持度Sup(t)i。而一个频繁词集的在类别i中的支持度就是其所有包含词条在该类中的最低支持度:Sup(FS)i=min{Sup(t)1,Sup(t)2....Sup(t)n}。算出每个Sup(FS)i之后,根据公式(2.1)计算AD‐Sup:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航空航天大学,未经北京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310301065.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:基于层次依赖建模的软件FMEA方法
- 下一篇:一种混凝土凿毛施工方法