[发明专利]一种情感特征词提取系统无效
申请号: | 200910089711.X | 申请日: | 2009-07-21 |
公开(公告)号: | CN101609459A | 公开(公告)日: | 2009-12-23 |
发明(设计)人: | 陶富民;高军;王腾蛟;杨冬青 | 申请(专利权)人: | 北京大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京纪凯知识产权代理有限公司 | 代理人: | 徐 宁;关 畅 |
地址: | 100871北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 情感 特征 提取 系统 | ||
技术主题
本发明涉及一种特征提取系统,特别是关于一种情感特征词提取系统。
背景技术
随着网络的普及,网络上的数据以指数级的速度增长。特别是Web2.0的兴起 和发展,网络上用户生成内容越来越多,比如博客、评论、论坛帖子等,它们在网 络中占据越来越重要的地位。用户生成的内容中除了包含很多事实性的内容之外, 也包含大量与情感因素相关的内容,并且后者的影响也越来越大。比如用户在购买 商品时会很自然的去网上搜索其要购买商品的相关信息,其他用户对于该商品的评 论信息很可能直接影响到用户的购买。因此厂家也越来越关注于消费者对其商品的 反馈,利用这些反馈信息可以用来理解用户需求和满意度,从而改善产品质量以及 提高服务质量。此外,政府机关、政治团体也越来越关注网络平台的作用,例如政 府会关注其政策法规在网络中的反响,关注网上的舆情信息,特别是热点事件的舆 情信息。
传统的网络信息处理主要是基于事实性的文本进行处理,比如基于关键字的 检索,文本的分类、聚类等,很少关注其中包含的情感信息。与传统文本处理方 式不同的是,情感分析主要用来分析和挖掘用户的情感倾向,来弥补传统搜索引 擎等工具的不足。在情感分析工作中,情感的特征选取不仅是进行情感分类的主 要基础,还是影响情感分析结果的重要因素。与传统的分类方法不同的是,情感 分析很难采用传统的基于词频等简单的统计信息来提取特征,因为情感分类所需 的特征最好应该是能够直接代表情感特征词的词;而且不同主题有不同的情感特 征词,比如“布什是中国人民的老朋友”和“老布什越老越糊涂”。“老”这个词 在这三个地方中有三种不同的情感特征词。由于情感特征词分析的特殊性,传统 文本分析方法不能满足其要求。
在情感分析中,特征选取的方法是其中的最重要的一个部分,其效果直接决 定了情感分析的效果。目前的研究发现,利用机器学习的方法比直接进行人工选 取的方法还要有效。现在情感的特征提取方式主要有:手动选取情感特征词,基 于搜索引擎来计算少量的其它特征词和选定特征词的逐点互信息量值 (Pointwise Mutual Information,PMI)来确定;在大规模语料中,找出同义共现 的模式去匹配;使用更多的种子词,使用对数似然率(log likelihood ratio, LLR);基于字典的方法,从一些核心词典出发,利用WordNet(英文),HowNet(中 文)提供的关系去扩展。但是这些方法对评论的召回率都存在着偏低的现象,即很 多评论没有对应的情感特征词去分析其情感倾向。
发明内容
针对上述问题,本发明的目的是提供一种能有效改进评论语句少、评论对象 相对分散内容的情感分析效果,并且能在细化的主题中进行细致情感分析的情感 特征词提取系统。
为实现上述目的,本发明采取以下技术方案:一种情感特征词提取系统,其 特征在于:它包括特征选取模块、特征验证模块、关系提取模块、广义情感特征 词表和狭义情感特征词表;所述特征选取模块利用文章集合中的文章内容和评论 集合中的评论内容,分别提取评论内容全体的候选情感特征词和分类的候选情感 特征词;所述关系提取模块根据所述文章内容,通过模板构建一个词与词的语义 关系图;通过所述全体的候选情感特征词和语义关系图建立广义情感特征词表; 通过所述分类的候选情感特征词和语义关系图建立狭义情感特征词表。
所述特征选取模块中候选情感特征词的提取方法为:利用评论集合与文章集 合的词频信息差异,用打分法选取候选情感特征词,计算方程为:
Score1(Term)=(R_DF(Term)/(N_DF(Term)+1) (1)
Score2(Term)=(R_TF(Term)/(N_TF(Term)+1) (2)
其中Score1表示通过方程(1)计算得到的分值,Score2表示通过方程(2)计算 得到的分值;Term表示词;R_DF(Term)表示词出现在所述评论集合的不同评论内 容中的次数;N_DF(Term)表示词出现在所述文章集合的不同文章内容中的次数; R_TF(Term)表示词在所述评论集合中出现的总次数;N_TF(Term)表示词在所述文 章集合中出现的总次数;之后按分值对词进行排序,选取一定数目得分较高的词 作为候选情感特征词;排序规则是先按Score1进行比较,如果Score1一样,再 按Score2进行比较。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学,未经北京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200910089711.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种能小肠定位给予避孕药物的口服剂及其制备方法
- 下一篇:熔丝保持器