[发明专利]一种面向网络评论的观点主题识别方法和系统无效
申请号: | 200910227304.0 | 申请日: | 2009-12-04 |
公开(公告)号: | CN101727487A | 公开(公告)日: | 2010-06-09 |
发明(设计)人: | 李弼程;周杰;林琛;陈刚;李真 | 申请(专利权)人: | 中国人民解放军信息工程大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 450002 *** | 国省代码: | 河南;41 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 网络 评论 观点 主题 识别 方法 系统 | ||
1.一种面向网络评论的观点主题识别方法,其特征在于,该方法包括以下步骤:
a.文本输入
输入评论源和所有评论文本;
b.文本预处理
对输入的文本进行词语切分和词性标注,去除停用词、标点符号和特定虚词,并统计词语的词频信息;
c.主题词判决
计算词语权重值,如果词语权重值大于设定的阈值,则该词语判断为观点主题词;
d.主题构建
将零散的观点主题词合并成为完整的观点主题;
e.主题筛选
通过观点主题过滤确定有效的观点主题。
2.根据权利要求1所述的面向网络评论的观点主题识别方法,其特征在于:c步骤中,计算词语权重时,权重因素包括整体词频权重、词性权重、词语出现的位置权重和词语长度权重。
3.根据权利要求2所述面向网络评论的观点主题识别方法,其特征在于:计算整体词频权重时,引入同义词林消除同义词引起的主题分散问题。
4.根据权利要求2所述面向网络评论的观点主题识别方法,其特征在于:所述权重因素还包括词语情感权重,计算词语情感权重时,引入情感词库,词语出现在包含情感词的句子中的归一化频率为词语情感权重。
5.根据权利要求3或4所述的面向网络评论的观点主题识别方法,其特征在于:所述的阈值可以设定为固定值或百分比,也可根据不同的话题选取不同的阈值,也可以根据词语权重值的中位数或均值动态计算阈值。
6.根据权利要求5所述的面向网络评论的观点主题识别方法,其特征在于:d步骤中,以观点主题词为线索词,并添加位置约束条件,采用位置相关的频繁项挖掘算法,实现未登录词和词组类型的观点主题识别。
7.根据权利要求6所述的面向网络评论的观点主题识别方法,其特征在于:在所述的频繁项挖掘算法中,根据实际情况限定线索词周围词语的窗口长度。
8.根据权利要求7所述的面向网络评论的观点主题识别方法,其特征在于:观点主题过滤包括词性组合过滤、单字选择过滤和包含关系过滤。
9.实现根据权利要求1所述方法的面向网络评论的观点主题识别系统,其特征在于,该系统包括:
评论输入模块,用于输入评论源和所有评论文本;预处理模块,用于实现包括词语切分、词性标注、去除停用词、标点符号和特定虚词、统计词语的词频信息的操作;主题词判决模块,用于根据权重计算公式计算词语权重值并根据设定的阈值判别观点主题词;主题构建模块,用于将零散的观点主题词通过频繁项挖掘算法合并成为完整的观点主题;主题筛选模块,用于通过词性组合过滤、单字选择过滤和包含关系过滤,最终确定有效的观点主题。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军信息工程大学,未经中国人民解放军信息工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200910227304.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于变分多尺度方法的通用算法及并行计算系统
- 下一篇:信息获取系统及方法