[发明专利]一种面向网络评论的观点主题识别方法和系统无效
申请号: | 200910227304.0 | 申请日: | 2009-12-04 |
公开(公告)号: | CN101727487A | 公开(公告)日: | 2010-06-09 |
发明(设计)人: | 李弼程;周杰;林琛;陈刚;李真 | 申请(专利权)人: | 中国人民解放军信息工程大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 450002 *** | 国省代码: | 河南;41 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 网络 评论 观点 主题 识别 方法 系统 | ||
技术领域
本发明涉及数据挖掘、机器学习、中文信息处理技术领域,特别是涉及一种面向网络评论的观点主题识别方法和系统。
背景技术
目前,随着信息传播技术的发展和普及,互联网已成为当今社会人们获取信息的重要渠道。互联网快捷、方便的特性,以及强大的交互能力,为人们交流思想、阐明观点、发表意见提供了新的平台。通过互联网,人们对社会公共事务特别是社会热点焦点问题发表有一定影响力、带倾向性的意见或言论,针对这类文本的观点分析具有广泛的实用价值。然而,网络中可供人们谈论的主题非常多,并且网络评论的观点主题会随着评论数据的变化而改变。因此首先需要完成网络评论中谈论主题的自动识别,从而实现评论的观点分析。现有的观点主题识别方法都是在限定领域内展开,其方法的基本思想是:在特定领域内,观点主题具有比较稳定的特性。如产品评论领域,针对特定产品评论的观点主题一般为产品名称、产品元件及其相关属性,并且在一定时间段内不会变动。由于特定领域内的观点主题具备这种稳定特性,目前常见的识别方法是:首先通过全自动或半自动的方式构建特征本体库,再由查询匹配确定评论的主题。在特征本体库的构建过程中,一般选取名词和名词短语作为候选主题,再通过各种规则进行筛选从而确定领域的特征本体。
上述方法中的观点主题识别是通过查询已经构建的特征本体库实现,致使观点分析局限于该特定领域而无法得到扩展。由于网络中人们谈论话题的多样性,并且随着时间的推移会不断涌现出新的话题,如网络舆情分析中不同事件对应不同的观点主题,构建特征本体库的方法不再有效,需要对观点主题进行自动识别。
发明内容
有鉴于此,本发明的目的在于提供一种面向网络评论的观点主题识别方法,克服观点分析的领域限制,不需构建本体库,从整体的角度识别观点主题,有效避开了单句观点分析存在的困难,在面对宽领域和随时间动态改变的网络评论数据实现自动识别短语模式的观点主题。
为达到上述目的,本发明的面向网络评论的观点主题识别方法,包括以下步骤:
a.文本输入
输入评论源和所有评论文本;
b.文本预处理
对输入的文本进行词语切分和词性标注,去除停用词、标点符号和特定虚词,并统计词语的词频信息;
c.主题词判决
计算词语权重值,如果词语权重值大于设定的阈值,则该词语判断为观点主题词;
d.主题构建
将零散的观点主题词合并成为完整的观点主题;
e.主题筛选
通过观点主题过滤确定有效的观点主题。
进一步,在c步骤中,计算词语权重时,权重因素包括整体词频权重、词性权重、词语出现的位置权重和词语长度权重。
进一步,在计算整体词频权重时,引入同义词林消除同义词引起的主题分散问题。
进一步,所述权重因素还包括词语情感权重,计算词语情感权重时,引入情感词库,词语出现在包含情感词的句子中的归一化频率为词语情感权重。
进一步,所述的阈值可以设定为固定值或百分比,也可根据不同的话题选取不同的阈值,也可以根据词语权重值的中位数或均值动态计算阈值。
进一步,在d步骤中,以观点主题词为线索词,并添加位置约束条件,采用位置相关的频繁项挖掘算法,实现未登录词和词组类型的观点主题识别。
进一步,在所述的频繁项挖掘算法中,根据实际情况限定线索词周围词语的窗口长度。
进一步,观点主题过滤包括词性组合过滤、单字选择过滤和包含关系过滤。
本发明的另一个目的在于提供一种实现上述面向网络评论的观点主题识别方法的系统,该系统包括:
评论输入模块,用于输入评论源和所有评论文本;预处理模块,用于实现包括词语切分、词性标注、去除停用词、标点符号和特定虚词、统计词语的词频信息的操作;主题词判决模块,用于根据权重计算公式计算词语权重值并根据设定的阈值判别观点主题词;主题构建模块,用于将零散的观点主题词通过频繁项挖掘算法合并成为完整的观点主题;主题筛选模块,用于通过词性组合过滤、单字选择过滤和包含关系过滤,最终确定有效的观点主题。
本发明的有益效果是:
由于现有的面向产品评论的观点主题识别方法在普通评论数据中不再有效,并且现有的面向网络评论的观点分析方法需要一种方法能够自动识别观点的主题。与现有技术相比,本发明提供了一种面向网络评论的观点主题识别方法和系统,它克服了观点分析的领域限制,不需构建本体库。它从整体的角度识别观点主题,有效地避开了单句观点分析存在的困难,并且本发明能够自动识别短语模式的观点主题,适合于宽领域和随时间动态改变的网络评论数据
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军信息工程大学,未经中国人民解放军信息工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200910227304.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于变分多尺度方法的通用算法及并行计算系统
- 下一篇:信息获取系统及方法